基于用户的的微博话题情感
全国计算机网络与通信学术会议优秀论文
基于用户的的微博话题情感分析
陈 慧
山东大学 计算机科学与技术学院,济南
摘 要:近年来,微博作为一种重要的交互媒体,已经在逐渐改变传统的信息传播方式。作
为一种即时交互的工具,可以刻在任何条件下由任何人使用。微博用户发布的每条微博中都
包含了用户的感情,可以通过微博话题的情感分析来识别有价值的微博话题。用户的情感发
生变化时,其相应的情感倾向和话题的可信任度就会发生相应的变化。微博的可信任度可以
为我们查看微博时提供一定的参考价值。
关键字:微博;用户;情感分析
中图分类号: 文献识别码:? , , : , , . , .’ ’, . .: ; ;引 言
随着互联网的普及和互联网技术的飞速发展,互联网已经发生了巨大变化。如今人们越
来越多的参与到网络活动之中。改变了以前被动的在网络上获取知识的状态,转变为通过网
络能够主动的展现自己、表达自己对其他人或事物的态度。从各大论坛到开心网、人人网再
到新浪、腾讯微博,均为广大网友提供了一个信息发布的社交网络交互平台。相比于各种信
息传播途径,微博真正能够将信息及时发布并能够极速传播。
微博,即微博客的简称,是一个基于用户关系的信息共享、传播以及获取平台。用户可
以通过各种客户端实现即时分享。自微博诞生以来,其应用价值迅速得到认可,越来越多的
用户注册并通过微博发出自己的声音。如今的微博更是成为一种新的媒体,供广大用户更能
够即时更新、即时分享个人身边的新鲜事物。
综合分析
通信市场 年 月
第 页 全国计算机网络与通信学术会议优秀论文不同于以往的大量文字描述所具有的连贯性,微博由于的字数限制,微博的信息具有的
特性是碎片化、即时化和移动化。如今通过微博来抒发自己的情感,已经成为一种趋势和时
尚。中文微博的用户不仅仅是数量多,而且增长极快,微博信息更是每天大量更新。微博的
话题更是数不清,其中也有一部分话题能够引起人们的争论和关注,因此对微博系统中话题
的情感分析很重要。
微博是一个基于用户关系的信息交互平台。而在微博的人物链接关系形成的互联网络是
极其复杂的,每个用户对每个话题的评论和分析都取决于个人的情感。所以分析微博的话题,
应先识别用户的情感倾向。
用户的情感倾向表明了评论文本对被评论文本的态度。每个人物的评论文本其中都蕴含
了对评论对象的态度和观点,反应到情感倾向上就是认同关系、中立关系和反对关系。认同
关系表示评论者与被评论内容所表达的情感倾向是一致的,用 来表示;中立关系是指其与
被评论内容保持一半认同一半反对,用 来表示;反对关系表示与被评论内容所表达的情感
倾向是相反的,用一 来表示。
被评论的内容的情感倾向是根据其所有的评论的情感倾向来计算的。而由此就可以得出
发布该话题的用户的可信任程度。根据用户的可信任程度,便可以得到该用户发布的话题的
可信度的范围。
方法和步骤
对微博的内容进行分析,识别微博内容中的情感词汇,判断情感倾向。
收集该微博相关的所有评论,根据评论者本身的属性和评论内容来总体计算该条微
博的可信任程度。
更新发布这条微博的用户的可信任程度。
得出该用户即将发布的微博的可信度的范围。
具体分析及实现方法
要对微博的内容进行分析,识别微博内容中的情感词汇并判断微博内容的情感倾向,就
需要对微博的内容进行分析,并且对其文本内容进行分词处理。文本的情感倾向是根据文本
分词之后的词组或者短语的情感极性体现出来的。
微博内容之中可能会有代表情感倾向的标签,如表情“◎”、 “ ”以及网络符号 “~”等,这些标签不能像文本那样简单的用分词来处理,需要单独的罗列出来。这些标
签虽然处理起来复杂,但是其代表的情感倾向是容易识别的。如:“?”就明确表达出高兴,
“ ”则很明显的表示悲伤的情绪。网络符号类似于“ ”其表达的情感倾向也是很
明确的。
微博中出现这些标签或者表情时,先将它们转换成表达的同样感情的词汇或短语,再将
它们与其他的文本一起分析处理。
微博文本内容分析:首先,比对评论文本与被评论文本内容是否完全一致,若内容完全
一
致,则评论文本为对被评论文本的转载,情感倾向为认同,不需要对内容进行其他操作;
如果内容不一致或部分一致,则过滤掉评论文本中与被评论文本中内容一致的部分,并对剩
余的评论文本内容进行分析。提取内容中的观点词汇、情感标签、网络流行语、否定词等,
确定评论内容的情感倾向。
微博文本在排除不符合的内容之后,需要对文本的感情倾向识别。微博文本由于字数少、
内容虽然短,但是其表达的情感十分复杂,且微博中的语句一般来说也不是连贯的,语句之
间的联系也不紧密,经常出现缺少主语的现象,加大了情感分析的难度。而且,中文微博中
表达的情感也可能是发散的,针对多个主题的,这给情感分析造成了一些困难。
通信市场 年 月
第 页 全国计算机网络与通信学术会议优秀论文
另外,中文文本分词还有很多问题:
首先,分词错误会对情感分析产生影响,如“我为有这样的女儿感到骄傲”中
的“骄傲”;
其次,在分词词库中一般仅赋予一个词汇一种情感极性,但很多词汇在不同的语境中所表达
的情感极性是不同的。如“酱油”一般认为是一种液体调味品,但在一些语境中表示与自己
无关的状态。第三,一些词组和短语在某些语境中含有反讽的效果,整个语句是一个完整的
情感倾向,分词之后青感倾向与之前大相径庭。再有,文本内容中也有可能出现一些连词或
者特定的句型,如文本中出现 “因为?所以?”、“膳 ?一但是?”等连词,文本的情感重
点一般都会放在后半部分。
微博文本进行分词操作。文本完成分词后每个文本中会含有多个短语。分别在情感词汇
本体库中查找相应短语的情感极性,若是分词后的短语不存在与情感词汇本体库中,则在词
典库中选用与该短语所表达情感类似的短语来代替。本文采用的情感词汇本体库是大连理工
大学信息检索研究室整理和标注的一个中文本体资源。该资源库从不同角度描述一个中文词
汇或者短语,包括了短语或词语的种类、感情类别、感情极性等信息。在本体库中为每个词
汇或短语都对立了一个极性,其中, 代表中性, 代表褒义, 代表贬义。如:“刀光剑影”
极性为 ;“学富五车”极性为 ;“危在旦夕”极性为 。
微博内容的情感倾向 计算公式:
认同关系 即正向情感词数大于负向情感词数
情感倾向中立关系 即正向情感词数等于负向情感词数 公式.反对关系 一 即正向情感词数小于负向情感词数
设定采用的微博话题的数据组织结构为一个元组:, , , , , , ,其中:
表示发布了该微博话题的用户的 ;
表示该用户已经发布的微博数量;表示该用户的可信任程度 的初始值为? ? ;
表示该条微博话题的评论者对这条微博的情感倾向, 的初始值为即用户刚刚发
布微博,微博还未有评论时 . ? ? 。
表示该条微博话题的内容;表示该条微博话题本身的情感倾向.? ? ;
表示已经该条微博已经获得的有效的评论数目;
表示该条微博的可信任程度,初始值为 ;
提取微博话题的评论时只需获得 , ,即可。其中, 表示对某条微博话题
的评论的内容。
已知微博用户 为 的第 条微博的数据信 , , , , , , 。当
该微博话题的产生一条行的评论产生时,提取该条评论 , ,并分析其内容。
对评论的内容进行分析:根据上文中提到的微博文本内容处理方法,判断该
条评论是否
符合条件。若该条评论的内容与被评论的内容风牛马不相及,则直接忽略掉,不作处理。若
评论内容与被评论内容说的是一个话题,则提取评论内容中的有价值的内容。将提取的内容
中的标签或者表情等替换为相应的文本。按照分词的结果查找情感词汇本体库,得到各个分
词的情感极性。根据微博内容的情感倾向公式 公式. 得到该条评论文本的感情倾向 用表示,并用、 或者. 表示。
则可以得到该条微博话题的在得到一条新的有效的评论后的情感倾向 ?
公式一 。继续等待出现下一条评论,重复以上操作。
由于微博的广泛传播性,我们不可能统计每个微博的话题的所有的有效评论内容。因为
通信市场 年 月
第 页 全国计算机网络与通信学术会议优秀论文总有一些微博用户可能会将很久以前的某些微博话题找出来,在对其进行评论。而这些评论
可能是很有价值的,但是被评论的这个微博话题可能已经失去了时效性。再去研究它已经没
有意义。而且,若是某个微博话题引起了广大用户的共鸣,这种情况下极有可能出现评论数
量额急速增加。在概率论的理论中,这个微博话题的情感倾向是由一定的概率的,所以,我
们只需要取得一定数量的有效的评论即可,若是某个微博话题的评论数量尚未达到数量指
标,则取其中全部的有效的评论。所以,这里取得的评论文本均是在微博话题发布的一定时
间内的部分或全部的有效微博。
经过一系列的统计和计算就可以得到该微博话题的所有有效评论的情感倾向 。
对于微博话题本身的情感倾向,使用与处理评论内容相同的方法处理其内容,并分词,
在情感词汇本体库中查找各个词汇的情感极性,判断话题本身的情感极性。微博话题本身的
情感极性只可能有三种情况: 、 或者. 。
那么就可以根据该条微博话题本身的情感倾向 和根据取得的所有有效地评论文本计
算所得的情感倾向 来计算本条微博话题的可信任度 用 来表示 。
当 取得不同的值时, 的值还是存在一定差异的:
当时,若,就说明评论所得的感情倾向与被评论的内容所表达的感情倾向是
完全相反的,就可以定义该话题是不被其他微博用户所认可,即该话题的可信度为 。
同理,当 . 时,若,话题的可信任度为 。
该条微博话题的可信任度 计算 公式. :。
根据微博用户目前的可信任度,我们可以大致得到该用户发出的微博的可信
任程度。这些数据如: 、 、 、 等都是会随着话题的每个评论内容而发生变化。这些数
据我们可以为浏览微博提供一定的参考性。
微博平台应用越来越广泛,每天都会出现数以万计的微博话题,信息量极其巨大,潜在
的价值也是不可估量的。但是,其中这些微博信息也有一些是没有价值的,显示在我们面前
时是没有选择性的。若要浏览所有的内容又会太浪费时间。上文中提到的微博话题的可信任
度可以有效的解决这个问题。
每当浏览一条微博时,可以先看一下该条微博话题的可信任度,若是它的可信任度很低,
就可以直接忽略掉。或者,在浏览微博时,可以按照微博的可信任度从高到低依次排列。如
此,为用户浏览微博时,提供了一定的参考价值。
通信市场 年 月
第 页