社友网(新版)

 找回密码
 立即注册
搜索
查看: 882|回复: 0

文本情感分析关键技术研究

[复制链接]
admin 发表于 2017-9-20 05:30:19 | 显示全部楼层 |阅读模式
  随着互联网络应用的快速发展,人们积极参与到了电子购物和网络社交活动中,通过论坛、博客、微博等分享自己的心情、观点和体验等。因此,互联网上产生了海量的主观性文本内容,这些内容中蕴含着用户对于商品、公众事件、组织机构、国家政策等的观点和态度信息。挖掘这些情感信息对于用户、商业组织以及政府职能部门等都具有极其重要的应用价值,可以用于情感检索、个性化推荐、舆情监测等。因此,文本情感分析研究不但具有重要的社会意义和价值,而且日渐成为自然语言理解、数据挖掘、信息检索和社交网络等领域研究的热点问题。
  文本情感分析研究主要可以分为两个子任务:文本情感信息抽取和文本情感倾向性分类。文本情感信息抽取是情感分析的基础性环节,其目的是从文本中抽取出具有情感色彩的文本信息。文本情感倾向性分类的任务是将文本内容按照其所隐含的情感色彩划分为正向情感或负向情感。本文针对文本情感信息抽取和文本情感倾向性分类中的关键技术展开研究,研究内容主要包括:
  1.情感词典构建。现有的情感词典构建算法大多需要种子情感词进行扩展,然而所选择出的种子词的优劣对最终的情感词典构建结果影响非常大。为解决这一问题,我们提出一种利用情感词与修饰词和评价特征之间存在的依存关系,设计不同扩展规则抽取情感词的方法。该算法只需要修饰词,不需要种子情感词并且修饰词具有数量少、容易搜集且具有领域独立性等特点,因此算法具有可移植性。实验结果表明所提出的利用修饰词扩展情感词典的方法明显优于现有的基于种子词扩展情感词典的算法。
  2.情感词极性标注。情感词的情感极性具有领域依赖性,同一情感词在不同领域中可能表现出相反的情感极性。现有的不需种子词的情感词极性标注算法主要利用已标注文档与候选情感词的共现关系进行建模,而忽略了词项间所具有的情感语义关系。我们将情感词极性标注问题转化为矩阵分解问题,并提出一种基于情感正则项的识别标注模型,充分利用了文档、词项间的情感匹配性和情感一致性约束。在三个真实数据集上的实验结果表明,相对于目前已有的方法,我们的情感词极性标注模型可以取得更高的标注精度。
  3.情感特征选择。文档级情感倾向性分类可看作一种特殊的二类文本分类问题,其分类精度与所选择的特征密切相关。与传统特征选择算法不同,本文从候选特征的情感贡献角度出发提出一种基于隐式情感空间的情感特征选择算法。该算法将候选特征和文档映射到二维情感(正向和负向)空间中,利用已标注文档和词项间的情感关系构建目标函数,求解候选特征在隐式情感空间上的情感分布。实验结果表明所提出的特征选择算法可以选择出较少的特征并且取得较好的分类结果。
  4.跨领域情感倾向性分类。文档级情感倾向性分类大多采用有监督的学习过程,然而很多领域并不具备大量的已标注样本。因标注数据耗时耗力,所以跨领域的情感倾向性分类的相关研究备受研究人员青睐。与现有算法不同,本文从概率矩阵分解的角度提出一种跨领域情感分类模型,以共有的情感词作为纽带将所有的文档和词项映射到二维空间,然后利用情感先验知识将二维空间约束为二维情感空间。目标领域样本的情感标签作为变量参与目标函数的求解。在亚马逊数据集上的实验结果表明,所提出的跨领域情感分类模型所取得的分类精度明显优于已有算法。
  5.用户级情感分析。目前的主流情感分类对象集中在文档级,然而同一用户可能会针对某一话题发表多个文档,如Twitter用户可以针对某一话题发表多个tweets,用户所表达的情感最终是怎样的呢?显然,文档级的情感分析已不能满足这种场合的需求。本文将情感分析的粒度扩展至用户级,并提出一种用户向量(User Vector)表示框架。这种框架具有良好的扩展性,可通过引入情感约束来增强用户情感向量的学习。实验结果表明User Vector模型能够使得同一宋词流派的词人聚成一簇,并且能够有效提高用户级情感分类精度。


作者 :
梁吉光
学科专业 :
计算机软件与理论
授予学位 :
博士
学位授予单位 :
中国科学院大学
导师姓名 :
白硕
学位年度 :
2016
语 种 :
chi
分类号 :
TP391.1
关键词 :
文本信息   情感分析   数据挖掘   互联网络

http://d.g.wanfangdata.com.cn/Thesis_Y3152259.aspx
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|Archiver|手机版|粤ICP备12005776号-5|su.sseuu.com  

GMT+8, 2024-11-26 01:42 , Processed in 0.098993 second(s), 19 queries .

Powered by Discuz! X3.4 Licensed

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表