腾讯微博用户的特征分析
收稿日期:2011-09-17 修回日期:2011-11-13
作者简介:杨小朋(1988-) ,女,硕士研究生,研究方向:管理信息与信息系统、数据挖掘;何 跃(1961-) ,男,博士,教授,研究方向:管理信息
系统、数据挖掘、决策支持系统。
腾讯微博用户的特征分析
杨小朋 何 跃
(四川大学工商管理学院 成都 610064)
摘 要 论文采集腾讯微博数据,提出“博文魅力指数”的概念,并运用 Spearman和 Pearson相关系数分别对听众数
与收录博主人数、博文魅力指数与收录博主人数两对变量进行了相关分析,...
收稿日期:2011-09-17 修回日期:2011-11-13
作者简介:杨小朋(1988-) ,女,硕士研究生,研究方向:管理信息与信息系统、数据挖掘;何 跃(1961-) ,男,博士,教授,研究方向:管理信息
系统、数据挖掘、决策支持系统。
腾讯微博用户的特征分析
杨小朋 何 跃
(四川大学工商管理学院 成都 610064)
摘 要 论文采集腾讯微博数据,提出“博文魅力指数”的概念,并运用 Spearman和 Pearson相关系数分别对听众数
与收录博主人数、博文魅力指数与收录博主人数两对变量进行了相关分析,最后选择博文魅力指数,博主收听人数
两个变量使用 K-Means聚类算法对微博用户进行了聚类分析。研究结果
明:博文魅力指数与收录博主人数两变
量中度正相关;聚类将微博用户分为信息获取型、草根名人型和普通社交型三类。电子商务服务商可以通过算法优
化,根据博文魅力指数和详细的聚类结果更有针对性的进行页面和应用程序推荐,创造商业价值。
关键词 微博 博文魅力指数 Pearson相关系数 K-Means聚类
中图分类号 G350 文献标识码 A 文章编号 1002-1965(2012)03-0084-04
Analysis on the User's Data of Tencent Micro- blog
YANG Xiaopeng HE Yue
(Business School,Sichuan University,Chengdu 610064)
Abstract Based on the data collected of Tencent Micro-blog,this paper proposes the concept of“the content’s charm index of micro-
blog”,then uses Pearson and Spearman correlation coefficient to analyze the relationship between the number of listeners and the number
of users,and the relationship between“the content’s charm index of micro-blog”and the number of users. At last,the paper uses K-
Means clustering algorithm to analyze the characteristics of users. The conclusion is that the content’s charm index of micro-blog has mod-
erate positive correlation with the number of users. K-Means clustering classifies the users into three types such as information-obtaining
type,grassroots celebrities and ordinary social networking type. Thus,by optimizing the algorithm and using the content’s charm index of
micro-blog and the result of clustering,service providers can reduce unnecessary recommendations of pages and application to meet the
needs of users so as to acquire commercial value.
Key words micro-blog the content's charm index of micro-blog Pearson correlation coefficient K-Means clustering
0 引 言
微博具有实时性、浅易性、选择性三个倾听特质。
微博带来的是一种新的信息传播和交流方式,每个人
都可以形成一个自己的听众群落,通过微博,将个人的
见解和观点发布给自己的听众,以最精炼的词汇来表
达最原创的观点。因为可以随意又简单地发布与反馈
信息,尤其是支持用手机随时发送信息,用户能够及时
发现世界正在关注什么,或随时将发生在自己身边的
事件迅速地传递给世界。
微博是继视频网站、社交网站之后新兴的开放互
联网社交服务。最早也是最著名的微博是美国的
Twitter,于 2006 年 3 月由 Evan Williams推出。根据网
络监测机构 RJMetrics 最近发布的报告显示,Twitter
注册用户数目前已达 7500 万,信息总量突破 100 亿
条。
腾讯微博是一个由腾讯公司推出,提供微博服务
的网站。腾讯微博注册用户突破了一亿大关。
国外对微博的研究较多,采用了很多定量的分析
,研究的内容涉及到了广泛的领域,如商业应用模
式及微博用户中社区特性的深层联系等。如 S. Yardi;
D. Boyd [1]对 3000 名微博用户进行了研究,他们发
现,用户与志同道合者之间的答复强化了群体认同,而
不同的态度加强了个人答复小组和外集团的从属关
系。他们的研究结果表明,比起之前,人们有机会接触
到更广泛的观点,但加入到有意义的讨论时受他们能
第 31 卷 第 3 期
2012 年 3 月
情 报 杂 志
JOURNAL OF INTELLIGENCE
Vol. 31 No. 3
Mar. 2012
力的限制。
国内研究微博的相关文献,绝大多数都是定性的,
只有几篇是定量的。如:王晓光[2]以“新浪微博”为研
究样本,较为系统地研究微博的基本结构、信息传播一
般模式,随机采集数据考察微博用户特征,并建立了影
响力回归方程。李芳等[3]通过网络问卷调查,依据改
进的方法目的链理论对数据进行分析,研究结果表明:
当前微博写作动机的主要原因有:可靠数据源、社会热
点关注等。
S. Yardi,D. Boyd 仅从群体角度研究了用户集团
关系,并没有从用户个体的博文吸引角度去深入研究
用户的影响力。王晓光、李芳等虽然对微博用户的行
为特征进行了详细的研究,但是结论的实际运用价值
不大,并不能给微博服务商带来商业价值。
论文采集腾讯微博数据,提出“博文魅力指数”的
概念,利用 Pearson相关系数分析博文魅力指数与收录
博主人数的关系,进一步验证博文魅力指数的可信度,
同时选择 Spearman相关系数,考察听众数与收录博主
人数两者的关系紧密程度。最后选择博文魅力指数、
博主收听人数两个变量使用 K-Means 聚类算法对微
博用户进行聚类分析。
1 研究设计
1. 1 样本数据来源 论文研究样本来自腾讯微博。
大众样本数据来源于腾讯微博页面的“广播大厅———
大家在说———全部广播”。采集样本数据共 3 000 条,
采集时间为 2011 年 7 月 1 日至 7 月 15 日,20 点至 23
点时段,每天随机采集 200 条微博数据。
数据采集中首先随机提取发布者,通过“发布者”
链接至其个人主页,提取个人的信息,即用户资料表
(用户名、是否认证、发博数、听众数、博主收听人数、
收录博主人数) ,含记录 3000 条。
其中:听众数即有多少其他的微博用户关注添加
了博主。在腾讯中可以建名单集,收录自己喜欢的微
博用户,相当于 QQ 中的群,收录博主人数即多少个名
单集中包含此发布者,而名单集可以被用户订阅。
1. 2 博文魅力指数 用户资料表中含有发博数、听
众数、博主收听人数和收录博主人数这几项数据,为了
清楚了解变量间的关系,论文引入“博文魅力指数”的
概念,用 MCI 即 the content 's charm index of micro -
blog 的缩写表示:
MCI=听众数 /博文数 (1)
若发博数多,但听众数少,听众数 /博文数的比值
即 MCI值小,博文不易引起他人的兴趣,说明博文魅
力指数小。相反,若发博数少,但听众数多,MCI 值
大,说明博文易引起其他人的兴趣,所以博文魅力指数
大。
为了进一步说明“博文魅力指数”的可靠性。论
文选择相关分析分别对听众数和收录博主人数,以及
“博文魅力指数”与收录博主人数进行关系分析。
1. 3 相关分析的基本方法 相关分析是研究变量
间关系紧密程度的一种统计方法,应用较为广泛,是专
业统计分析的基础内容。统计分析中常利用相关系数
定量地描述两个变量间的紧密程度[4]。
Spearman等级相关系数的计算公式为:
r = 1 -
6∑ ni = 1D2i
n(n2 - 1)
其中,n为样本,∑ ni = 1D2i =∑
n
i = 2
(Ui - Vi)
2,这里
(Ui - Vi)为两变量的秩。
小样本条件下,零假设满足时,Spearman 等级相
关系数服从 Spearman分布。
Spearman等级相关系数常用来度量定序型变量
间的线性相关关系。
Pearson相关系数的计算公式为
r =
∑ ni = 1(xi - x) (yi - y)
∑ ni = 1(xi - x)2(yi - y)槡 2
(3)
其中,n 为样本量,xi 和 yi 为两变量对应的样本
值。
Pearson简单相关系数的检验统计量为 t 统计量,
定义为:
t = r n -槡 2
1 - r槡
2
(4)
其中,t统计量服从自由度为 n - 2 的 t分布。
Pearson简单相关系数通常用来度量定距型变量
间的线性相关关系。
1. 4 K-Means聚类算法
1. 4. 1 K-Means聚类算法的思想。K-Means 聚
类算法是挖掘技术中一个成熟的且认可度很高的算
法,将其归纳起来,其基本思想就是,在一个数据集中,
有 n个数据,将实现以下处理过程[5]:
第 1 步,给定聚类个数 k,确定距离函数和迭代终
止条件 e;
第 2 步,随机选择 k个数据作为初始化中心点,即
代表初始 k个簇的簇中心;
第 3 步,迭代:对剩余的(n - k)个数据,根据其
与各个簇中心距离,将它赋给离它最近的簇,然后重新
计算每一个簇的中心;
第 4 步,直到各簇中心之间的距离均不大于 e;
第 5 步,给出分类结果:k类的中心点及各类包含
的成员数据;
·58·第 3 期 杨小朋,等:腾讯微博用户的特征分析
第 6 步,终止。
K-Means 聚类算法存在效率高,对文本处理的精
准性高的优点,对数据处理前,必须确定聚类个数 k。
1. 4. 2 K-Means 聚类算法中的距离函数。在 K
-Means聚类算法的分析中,需要确定距离函数。论文
选用欧式距离函数。个案 x和 y的欧式距离是两个个
案的 m个变量之差的平方和的平方根,距离函数公式
为
d(x,y) ∑
m
i = 1
(xi - yi)槡
2 (5)
2 微博数据实证研究
2. 1 相关分析
2. 1. 1 听众数和收录博主人数的相关分析。腾
讯微博有听众数和收录博主人数两个变量,它们从不
同的角度反映用户的“知名度”,为离散型变量,属于
定序性变量。所以选择 Spearman等级相关系数,考察
两者的关系紧密程度。相关分析结果如表 1 所示,其
中 Sig.(双侧)表示置信度;N 表示样本容量。
表 1 听众数与收录博主人数相关表
收录博主人数 听众数
收录博主人数
Spearman相关性 1. 000 0. 813**
Sig.(双侧) 0. 000 0. 000
N 2999 2999
听众数
Spearman相关性 0. 813** 1. 000
Sig.(双侧) 0. 000 0. 000
N 2999 3000
**.在. 01 水平(双侧)上显著相关。
表 1 中,听众数与收录博主人数的相关系数为
0. 813,置信度(双侧)为 0. 01,高度正相关。可见在表
示“知名度”上,两个变量起到了一致的作用。听众多
的用户,收录此博主人数也就多,微博用户的受关注程
度就越高;反之,若用户的听众数小,则收录此用户的
人少,被关注程度减少。
2. 1. 2 博文魅力指数与收录博主人数的相关分
析。从统计数据中可得到,2798 条普通用户的博文魅
力指数的平均值为 4. 2547,而 202 条腾讯认证用户的
博文魅力指数的平均值为 49. 8162。名人的博文魅力
指数 MCI成倍高于普通者,这也从一个方面说明 MCI
的合理性。由于 MCI 和收录博主人数两个变量没有
直接关系,同时 MCI为连续性变量,属于定距型变量,
进一步选择 Pearson相关系数进行相关分析,结果如表
2 所示,其中 N 表示样本容量。
从表 2 中可以看出,博文魅力指数 MCI和收录博
主人数的相关系数为 0. 499,中度正相关,充分说明了
博文魅力指数的可靠合理性。博文魅力指数越大,收
录博主人数就越多,用户的受关注度就越高,博文易引
起他人的兴趣;若博文魅力指数小,则收录博主人数就
少,用户的受关注度就小。
表 2 博文魅力指数与收录博主人数的相关分析表
收录博主人数 MCI
Pearson相关性
1 0. 499**
显著性(双侧) 0. 000
N 2999 2999
MCI
Pearson相关性 0. 499** 1
显著性(双侧) 0. 000
N 2999 3000
**.在. 01 水平(双侧)上显著相关。
电子商务服务商在投放推荐页面和应用程序时,
可以针对博文魅力指数大的用户,因为收录此用户的
名单集较多,服务商投放广告的效果范围是成倍扩大
的。通过这些人对投放产品的关注,来吸引关注此类
用户的其他微博用户,加强了推荐指数。
2. 2 微博用户的聚类分析 由用户的听众数和收
录博主人数的相关分析可知,两变量的正相关性十分
明显。所以在聚类分析中,不予考虑收录博主人数这
个变量。
发博文数多说明用户为积极分子。但是这种积极
能否得到更多听众,所以选择博文魅力指数 MCI 参与
聚类。同时,博主收听人数反映了用户对外界信息的
关注程度,所以同时考虑 MCI和用户收听数两个变量
作为参与聚类的变量,使用 K-Means聚类算法进行聚
类分析。
由于在聚类分析中,经过“腾讯认证”的“名用户”
对聚类会造成较大干扰,而且这类用户作为被关注的
对象,有很大的特征,如发博文数不多,拥有超多的听
众数,即博文魅力指数很大,他本人所收听的人并不是
特别多。其中“腾讯认证”202 条。所以去除腾讯认证
后的数据为 2798 条。最终聚为 3 类。结果如表 3、表
4 所示。
表 3 最终聚类中心
聚类类型 类型 1 类型 2 类型 3
MCI 2640. 6005 2. 4652 1. 4757
用户收听数 51 148 1484
表 4 每个聚类中的案例数
聚类类型 草根名人型 普通社交型 信息获取型
个数 2 2524 272
比例 0. 07% 90. 21% 9. 72%
类型 1,MCI值很大,博主收听人数在四类中是最
少的。这个类型占了微博用户的 0. 07%。博文魅力
指数大,说明用户的博文引起了其他用户极大的关注
度,这是微博的超级积极分子,属于“草根名人型”,信
息创造的价值很高,但这类用户只是很少的一部分。
类型 2,MCI值适中,博主收听人数较多。这个类
型占了微博用户的 90. 21%。可见大多数用户目前的
收听人数为 148 人左右,MCI均值为 2. 4652,比起“草
·68· 情 报 杂 志 第 31 卷
根名人型”,这类用户关注他人稍多一点,能够与其他
微博用户进行交流,同时获取自己感兴趣的信息,关注
朋友,名人的微博动态,他们的博文魅力指数适中,即
能得到其他用户的响应和关注。
类型 3,用户的博文魅力指数 MCI最小,博主收听
人数是最多的。这类用户占了微博用户的 9. 72%。
博主收听人数最多,均值为 1484 个。说明他在积极关
注其他人微博更新动态和信息,浏览和了解网络当前
最新、最热门的资讯,属于信息获取型。同时从表中看
到这类用户的博文魅力较小,博文不易引起其他用户
的兴趣,从信息创造的方面来说,价值并不大。
综上所述,90. 21%的用户能够与微博用户进行社
会和朋友的交流,同时获取自己感兴趣的消息。
0. 07%属于“草根名人型”,这类用户十分积极地参与
微博,话题也能引起听众兴趣,信息创造的价值较大。
9. 72%的用户属于“信息获取者”,博文魅力指数很
小,更多的是关注他人,寻找自己感兴趣的话题和信
息。
在聚类统计结果中还包括聚类成员,每个个案的
聚类信息。由于数据量较大,论文中没有列出。但这
些分析结果对于微博服务商是有一定价值的。
3 结 论
论文采集大量的腾讯微博数据,选择 Spearman和
Pearson相关系数分别对听众数与收录博主人数、博文
魅力指数与收录博主人数两对变量进行了相关分析。
最后选择博文魅力指数和博主收听人数两个变量,使
用 K-Means聚类算法对用户进行了聚类分析,研究了
腾讯微博用户的特征。
论文的创新点在于提出了“博文魅力指数”的概
念,同时利用 Spearman和 Pearson相关系数进行验证,
深入分析腾讯微博用户的特征,最后在 K-Means聚类
算法的分析中引入变量“博文魅力指数”,得到微博用
户有信息获取型、草根名人型、普通社交型三类,使聚
类的特征更加明显。聚类结果中包含:聚类成员和每
个个案的聚类信息,服务商也可以根据微博用户的详
细分类信息,进行更有针对性的页面和应用程序推荐,
实现微博的盈利。
但论文在研究微博用户特征时,没有考察他们的
年龄,性别,学历等因素对于微博使用动机的影响,这
就可能造成研究结果存在片面性。在以后的研究中,
可以通过腾讯微博提供的开放接口,使用网络爬虫程
序,获取日志等更详细的数据资料如用户的注册信息,
进一步对微博用户特征进行深入的研究。
参 考 文 献
[1] S. Yardi,D. Boyd. Dynamic Debates:An Analysis of Group Po-
larization Over Time on Twitter[J]. Bulletin of Science,Tech-
nology & Society,2010(10)
[2] 王晓光.微博客用户行为特征与关系特征实证分析[J]. 图
情报工作,2010(7) :66-70
[3] 李 芳,曲豫宾.大学生微博使用动机模型实证研究[J].福建
论坛(社科教育版) ,2010(8) :115-118
[4] 张庆利等. SPSS 宝典:第二版[M]. 北京:电子工业出版社,
2011:239-241
[5] 张 丹.基于 Web挖掘技术的 SNS 社会网络研究[D].成都:
四川大学,2010
(责编:刘影梅
檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪
)
(上接第 49 页)
收录期刊的平均引文密度超过 35,2010 年的平均引文
密度为 35. 04。从 10 余个学科的 SJR 收录期刊的引
文密度频数分布入手,引入了学科期刊平均引文密度
和学科期刊最可几引文密度,并用对数正态分布函数
表征学科期刊引文密度分布特征。学科期刊平均引文
密度可以表征学科期刊引文密度的平均水平;学科期
刊最可几引文密度表征某学科大部分期刊的引文密度
水平;对数正态分布函数可以描述学科期刊引文密度
的分布形状及特征。总之,对数正态分布函数及其特
征参数可以描述学科期刊引文密度的分布特征以及学
科的引文密度水平。
参 考 文 献
[1] GARFIELD E 著;冷怀明译. 期刊影响因子的历史和意义
[J].编辑学报,2006,18(6) :466-467
[2] Garfield E. The History and Meaning of the Journal Impact Fac-
tor[J]. Journal of the American Medical Association. 2006,
295(1) :90-93
[3] Garfield E. Journal Impact Factor:a Brief Review[J]. Canadian
Medical Association Journal,1999,161(8) :979-980
[4] 靖晓莉,陈 波.网络传播环境下的期刊引文变化[J].贵州社
会科学,2009(10) :128-132
[5] 祁延莉,窦曦骞.引文密度修正指标的实验研究[J].情报理论
与实践,2010(6) :69-73
[6] Ioannidis John P. A. Concentration of the Most-cited Papers in
the Scientific Literature:Analysis of Journal Ecosystems[J].
Plos One,2006,1(1) :1-7
[7] Vieira E S,Gomes J A N F. Citations to Scientific Articles:its
Distribution and Dependence on the Article Features[J]. Journal
of Informetrics,2010,4(1) :1-13
[8] Journal rankings.[2011-09-13]. http:/ /www . scimagojr. com /
journalrank. php.
[9] 靳小青.影响我国科技期刊入选 SCI 浅析[J]. 情报理论与实
践,1999(1) :21-23
(责编:刘影梅)
·78·第 3 期 杨小朋,等:腾讯微博用户的特征分析
本文档为【腾讯微博用户的特征分析】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑,
图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。