我不想不想长大指导导师:张志远
报告人:赵越
多关注点情感分析在互联网评论中的方法研究
主要内容
研究背景及意义
国内外研究现状
研究内容及研究目标
研究方法
可行性分析
预期结果
进度安排
研究背景及意义
随着互联网的快速发展,网络已经成为人们生活中获取数据,分享信息和情感交流的重要方式,越来越多的人乐于在互联网上分享自己的观点和体验。无论是当下流行的购物网站,社交媒体,方便人们生活娱乐的团购旅游网站,还是以移动应用形式服务大众的新闻资讯,金融行情,都伴随着海量的用户评论信息。
由于文本评论的数据量巨大,信息的实时性,不规范性强,...
指导导师:张志远
人:赵越
多关注点情感
在互联网评论中的方法研究
主要内容
研究背景及意义
国内外研究现状
研究内容及研究目标
研究方法
可行性分析
预期结果
进度安排
研究背景及意义
随着互联网的快速发展,网络已经成为人们生活中获取数据,分享信息和情感交流的重要方式,越来越多的人乐于在互联网上分享自己的观点和体验。无论是当下流行的购物网站,社交媒体,方便人们生活娱乐的团购旅游网站,还是以移动应用形式服务大众的新闻资讯,金融行情,都伴随着海量的用户评论信息。
由于文本评论的数据量巨大,信息的实时性,不
性强,仅靠人工的方法很难快速地抽取所有评论中的多方面信息,所以情感分析技术应运而生。因此面向评论的多方面情感分析方法的研究尤为重要。情感分析又称为观点挖掘,即从文本中挖掘用户所要表达的观点及情感倾向。
研究背景及意义
研究背景及意义
研究背景及意义
研究背景及意义
国内外研究现状
评论对象提取方面
1.Kessler和Nicolov提出了基于机器学习分类方法的监督学习方法,用于实现意见描述和评论对象的识别。其结果远远优于Hu和Liu提出的基于
的方法。
2.而Jakob和Gurevych将评论对象抽取问题建模成序列标注问题,进而使用条件随机场(CRF)进行学习,在同一领域里面获得了比Zhuang方法更佳的抽取效果,目前CRF已经成为评论对象抽取研究中最主要的方法。除此之外,Putthividhya和Hu采用命名实体识别抽取产品属性。
国内外研究现状
评论范畴判定方面
首先,国内外对于这方面的研究比较少,而这一想法来自于SemEval比赛中的一个子任务。它主要是指对评论对象的范围,但是不一定会出现在评论文本中,它经常会比评论对象的粒度粗。
但评论句子和评论对象的候选范围会提前给出,所以本质上属于分类问题。虽然评论对象抽取和情感倾向判定研究可以独立进行,但是它可以作为一种启发式信息来提高两者的准确率。
国内外研究现状
Saif M,Svetlana K等利用five binary (one-vs-all) SVMs来判定评论范畴。Giuseppe C, Simone F等也同样利用了一个有词袋特征的SVM模型。
当然也有其他方法。Michal Konkol and Josef Steinberger等使用有词袋特征和TF-IDF的binary MaxEnt classifier进行研究。除此之外,还有研究者用到了逻辑线性回归,LDA等方法。都得到了不错的效果。
国内外研究现状
情感倾向判定方面
面向评论的情感倾向判定主要分为短文本级别,句子级别,方面级别。目前主要用到的方法有常见的分类方法,如朴素贝叶斯,逻辑线性回归以及支持向量机等。也可以应用条件随机场将分类问题转化为序列标注问题。文本情感特征的抽取主要依赖各类情感词典,聚类方法以及其他类型评判依据。
国内外研究现状
无监督机器学习方法:
Turney 与Littman等利用候选情感词与基准情感词的点互信息( PMI) 进行词汇的情感倾向判断。这种方法是目前国外较常采用的方法。缺点是这种方法也在一定程度上对种子情感词的依赖并且处理语料的领域性很强。
基于人工标注语料库的学习方法:
首先对情感倾向分析语料库进行手工标注。在这些标注语料的基础上利用词语的共现关系、搭配关系或者语义关系,判断词语的情感倾向性。典型的工作如Wiebe等利用词语的搭配模式发现在主观性文本中的倾向性词语及其搭配关系。这种方法的缺陷是需要大量的人工标注语料库。
国内外研究现状
支持向量机SVM是近几年来发展起来的新型分类方法,是在高维特征空间使用线性函数假设空间的学习系统,在分类方面具有良好的性能。
除了SVM模型,Jose Saias 利用最大熵模型对文本进行情感分类;Hussam Hamdan等利用的Liblinear模型也得到了很好的效果。
总的来说,在后两项研究中,主要都是采用基于机器学习的分类方法。
研究内容及目标
研究内容主要分为三个部分:
1.评论对象提取
2.评论范畴判定
3.情感倾向判定
研究内容及目标
研究目标:
使面向互联网评论的多方面情感分析更准确,通过尝试不同的情感分析方法,得到一个让上述三部分研究整体效果最好的
。
通过在不同评论数据上进行对比实验,得到如何处理多方面情感分析特征的结论,可供其他研究者参考。
研究方法
实验数据
实验的训练测试数据来自SemEval历届比赛,特征抽取过程中也会用到亚马逊和点评网站Yelp所提供的评论数据。
研究方法
研究中所用到的工具:
1.自然语言处理工具:Stanford corenlp,WordNet,Ord2Vec tools等
2.基于机器学习的序列标注:集成了条件随机场模型的CRF++
3.基于机器学习的分类方法:逻辑线性回归模型Liblinear,SVM,最大熵模型,OvA等
研究方法
关键技术
文本特征的提取,精确,表示,数量以及组合
三个任务并不是独立的,可以借助评论范畴实验的预测结果提高评论对象提取的准确率,反之亦然。同样在进行情感倾向实验时,也可以借助前两个实验的结果提高情感倾向判定的准确率。
可行性分析
预期结果
基于SEMEVAL比赛所提供的数据,在三个任务上得到较高或最高的准确率,召回率和F1分数。
总结文本特征分类组合在多方面情感分析的影响
在国内外期刊发表1-2篇论文
进度安排
时间 安排
2016/04—2016/09 阅读相关文献,了解国内外研究现状,理解情感分析研究中出现的术语,熟悉文献中所提到的各种实验工具。
2016/09—2016/11
完成评论对象抽取实验,并在实验过程中继续研读情感分析相关论文。在实验中对特征如何选择,组合有初步的想法。
2016/11—2017/03
不断提高评论对象抽取实验的准确率,并进行评论范畴判定实验,撰写开题报告,发表小论文。
2017/03—2017/06
完成评论范畴判定实验,并将此实验与评论对象抽取实验相结合,
在实验过程中继续研读自然语言处理方面的论文
2017/06—2017/12
进行情感倾向判定实验,总结分析三个实验的结果,总结出相应地文本特征基本组合和基本类别
2017/12—2018/3
由论文框架整理文档和实验结果,撰写毕业论文。
谢谢
望各位老师提出宝贵意见
本文档为【我不想不想长大】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑,
图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。