1. 怎样运用nviov对文本进行分类
你的问题其实在数据挖掘里面不难,其实也没有涉及到降维,真在的降维是数量级的降维。
你的这个问题应该按照以下方案处理:
1、对文本做共现词汇统计,可以统计相邻距离不超5的词,也可以统计邻接词。
2、选择共现比较多的组合作为特征,加入特征集。
3、生成训练模型。
传统特征选择的方法包括以下几种:信息增益(IG),互信息(MI),卡方检验(卡方 ),最大熵等。降维的方法可以使用粗糙集(Rough Set,RS)属性约简。分类器构筑可以使用SVM等工具
2. 如何给语料分类,语料分类的原则和标准
语料库建设中涉及的主要问题包括:
(1) 设计和规划:主要考虑语料库的用途、类型、规模、实现手段、质量保证、可扩展性等。
(2) 语料的采集:主要考虑语料获取、数据格式、字符编码、语料分类、文本描述,以及各类语料的比例以保持平衡性等。
(3) 语料的加工:包括标注项目(词语单位、词性、句法、语义、语体、篇章结构等)标记集、标注规范和加工方式。
(4) 语料管理系统的建设:包括数据维护(语料录入、校对、存储、修改、删除及语料描述信息项目管理)、语料自动加工(分词、标注、文本分割、合并、标记处理等)、用户功能(查询、检索、统计、打印等)。
(5) 语料库的应用:针对语言学理论和应用领域中的各种问题,研究和开发处理语料的算法和工具。
我国语料库的建设始于80年代,当时的主要目标是汉语词汇统计研究。进入90年代以后,语料库方法在自然语言信息处理领域得到了广泛的应用,建立了各种类型的语料库,研究的内容涉及语料库建设中的各个问题。90年代末到新世纪初这几年是语料库开发和应用的进一步发展时期,除了语言信息处理和言语工程领域以外,语料库方法在语言教学、词典编纂、现代汉语和汉语史研究等方面也得到了越来越多的应用。
语料库与语言信息处理有着某种天然的联系。当人们还不了解语料库方法的时候,在自然语言理解和生成、机器翻译等研究中,分析语言的主要方法是基于规则的(Rule-based)。对于用规则无法表达或不能涵盖的语言事实,计算机就很难处理。语料库出现以后,人们利用它对大规模的自然语言进行调查和统计,建立统计语言模型,研究和应用基于统计的(Statistical-based)语言处理技术,在信息检索、文本分类、文本过滤、信息抽取等应用方向取得了进展。另一方面,语言信息处理技术的发展也为语料库的建设提供了支持。从字符编码、文本输入和整理,语料的自动分词和标注,到语料的统计和检索,自然语言信息处理的研究都为语料的加工提供了关键性的技术。
3. 情感分析,文本分类,机器学习,数据挖掘
您好。
您说的是情感文本分析吗?如果是的话,我觉得情感计算的分类有两大类,一类是主观性:主观、客观、中性;一类是情感倾向:褒义、贬义、中性。文本分析的话,主要是对词、句子中观点的挖掘。
你所说的机器学习法,现在基本用于对电影观点的打分系统吧。基本上就是利用分类计数,对文档中存在的情感进行分类的。
就我个人理解而言,我认为机器学习法只是情感文本分析的方法论之一,至于数据挖掘,也是通过对文档的数据收取,进行情感分析的。也是对情感文本分析的方法论之一。
所以,情感分析是主体的话,文本分类、机器学习、数据挖掘都是方式方法。这些方法可以共同应用在一个情感分析中,也可以分别独立存在。
目前英文类的文本情感分析比较多,中文类的相对少一点,你要做这方面的研究路漫漫其修远啊。嘿嘿。
-
努比亚z9max手机音乐效验
该机拥有HIFI级音乐芯片,音乐效果不凡。具体体现在:1.音量调节,正常听音乐中高低音都是一个音量,而杜比音效能动态扩大某个音量。比如放打鼓声,杜比会及时提高低音加强鼓声。2.加强音域,杜比音效有开阔、集中、…
-
是atChristmas还是inChristmas
此处该用“on”。在圣诞节正确表达应为 “on Christmas ”。有具体日期的,比如知道几月几日的都用“on” ;不知道日期,但知道年份和月份的用“in” ,知道具体时间,比如几点几分用“at”。…
-
个体工商户应交纳什么税
纳税标准根据国家税务总局《个体工商户定期定额征收管理办法》文件精神 ,定期定额征收方式适用的税种及税率如下:1、根据《中华人民共和国增值税暂行条例》规定,自2009年1月1日起,小规模纳税人增值税征收率为3%…
-
材料成本差异率为负数是什么意思
材料成本差异额,是指材料的实际成本和计划成本之间的差额。差异率负数表示节约差异,即实际成本比计划成本小。正数表示超支差异,即实际成本比计划成本大。…
-
塞翁失马焉知非福是什么意思
比喻一时虽然受到损失,反而因此能得到好处。也指坏事在一定条件下可变为好事,反之亦然。形容人的心态,一定要乐观向上,任何事情都有二面性,不好的一面,有可能向好的一面转化。塞翁失马,焉知非福出自《 淮南子…