怎么把lstm应用到文本分类

1. 怎样运用nviov对文本进行分类

你的问题其实在数据挖掘里面不难，其实也没有涉及到降维，真在的降维是数量级的降维。

你的这个问题应该按照以下方案处理：

1、对文本做共现词汇统计，可以统计相邻距离不超5的词，也可以统计邻接词。

2、选择共现比较多的组合作为特征，加入特征集。

3、生成训练模型。

传统特征选择的方法包括以下几种：信息增益（IG），互信息（MI），卡方检验（卡方），最大熵等。降维的方法可以使用粗糙集（Rough Set,RS）属性约简。分类器构筑可以使用SVM等工具

2. 如何给语料分类,语料分类的原则和标准

语料库建设中涉及的主要问题包括：

(1) 设计和规划：主要考虑语料库的用途、类型、规模、实现手段、质量保证、可扩展性等。

(2) 语料的采集：主要考虑语料获取、数据格式、字符编码、语料分类、文本描述，以及各类语料的比例以保持平衡性等。

(3) 语料的加工：包括标注项目（词语单位、词性、句法、语义、语体、篇章结构等）标记集、标注规范和加工方式。

(4) 语料管理系统的建设：包括数据维护（语料录入、校对、存储、修改、删除及语料描述信息项目管理）、语料自动加工（分词、标注、文本分割、合并、标记处理等）、用户功能（查询、检索、统计、打印等）。

(5) 语料库的应用：针对语言学理论和应用领域中的各种问题，研究和开发处理语料的算法和工具。

我国语料库的建设始于80年代，当时的主要目标是汉语词汇统计研究。进入90年代以后，语料库方法在自然语言信息处理领域得到了广泛的应用，建立了各种类型的语料库，研究的内容涉及语料库建设中的各个问题。90年代末到新世纪初这几年是语料库开发和应用的进一步发展时期，除了语言信息处理和言语工程领域以外，语料库方法在语言教学、词典编纂、现代汉语和汉语史研究等方面也得到了越来越多的应用。

语料库与语言信息处理有着某种天然的联系。当人们还不了解语料库方法的时候，在自然语言理解和生成、机器翻译等研究中，分析语言的主要方法是基于规则的（Rule-based）。对于用规则无法表达或不能涵盖的语言事实，计算机就很难处理。语料库出现以后，人们利用它对大规模的自然语言进行调查和统计，建立统计语言模型，研究和应用基于统计的（Statistical-based）语言处理技术，在信息检索、文本分类、文本过滤、信息抽取等应用方向取得了进展。另一方面，语言信息处理技术的发展也为语料库的建设提供了支持。从字符编码、文本输入和整理，语料的自动分词和标注，到语料的统计和检索，自然语言信息处理的研究都为语料的加工提供了关键性的技术。