腾讯微博用户的特征分析下载_在线阅读_4

is_999624

暂无简介

腾讯微博用户的特征分析收稿日期:2011－09－17 修回日期:2011－11－13 作者简介:杨小朋(1988－) ，女，硕士研究生，研究方向:管理信息与信息系统、数据挖掘;何跃(1961－) ，男，博士，教授，研究方向:管理信息系统、数据挖掘、决策支持系统。腾讯微博用户的特征分析杨小朋何跃 (四川大学工商管理学院成都 610064) 摘要论文采集腾讯微博数据，提出“博文魅力指数”的概念，并运用 Spearman和 Pearson相关系数分别对听众数与收录博主人数、博文魅力指数与收录博主人数两对变量进行了相关分析，...

收稿日期:2011－09－17 修回日期:2011－11－13 作者简介:杨小朋(1988－) ，女，硕士研究生，研究方向:管理信息与信息系统、数据挖掘;何跃(1961－) ，男，博士，教授，研究方向:管理信息系统、数据挖掘、决策支持系统。腾讯微博用户的特征分析杨小朋何跃 (四川大学工商管理学院成都 610064) 摘要论文采集腾讯微博数据，提出“博文魅力指数”的概念，并运用 Spearman和 Pearson相关系数分别对听众数与收录博主人数、博文魅力指数与收录博主人数两对变量进行了相关分析，最后选择博文魅力指数，博主收听人数两个变量使用 K－Means聚类算法对微博用户进行了聚类分析。研究结果

表

关于同志近三年现实表现材料材料类招标技术评分表图表与交易pdf 视力表打印pdf 用图表说话 pdf

明:博文魅力指数与收录博主人数两变量中度正相关;聚类将微博用户分为信息获取型、草根名人型和普通社交型三类。电子商务服务商可以通过算法优化，根据博文魅力指数和详细的聚类结果更有针对性的进行页面和应用程序推荐，创造商业价值。关键词微博博文魅力指数 Pearson相关系数 K－Means聚类中图分类号 G350 文献标识码 A 文章编号 1002－1965(2012)03－0084－04 Analysis on the User＇s Data of Tencent Micro－ blog YANG Xiaopeng HE Yue (Business School，Sichuan University，Chengdu 610064) Abstract Based on the data collected of Tencent Micro－blog，this paper proposes the concept of“the content’s charm index of micro－ blog”，then uses Pearson and Spearman correlation coefficient to analyze the relationship between the number of listeners and the number of users，and the relationship between“the content’s charm index of micro－blog”and the number of users． At last，the paper uses K－ Means clustering algorithm to analyze the characteristics of users． The conclusion is that the content’s charm index of micro－blog has mod- erate positive correlation with the number of users． K－Means clustering classifies the users into three types such as information－obtaining type，grassroots celebrities and ordinary social networking type． Thus，by optimizing the algorithm and using the content’s charm index of micro－blog and the result of clustering，service providers can reduce unnecessary recommendations of pages and application to meet the needs of users so as to acquire commercial value． Key words micro－blog the content＇s charm index of micro－blog Pearson correlation coefficient K－Means clustering 0 引言微博具有实时性、浅易性、选择性三个倾听特质。微博带来的是一种新的信息传播和交流方式，每个人都可以形成一个自己的听众群落，通过微博，将个人的见解和观点发布给自己的听众，以最精炼的词汇来表达最原创的观点。因为可以随意又简单地发布与反馈信息，尤其是支持用手机随时发送信息，用户能够及时发现世界正在关注什么，或随时将发生在自己身边的事件迅速地传递给世界。微博是继视频网站、社交网站之后新兴的开放互联网社交服务。最早也是最著名的微博是美国的 Twitter，于 2006 年 3 月由 Evan Williams推出。根据网络监测机构 RJMetrics 最近发布的报告显示，Twitter 注册用户数目前已达 7500 万，信息总量突破 100 亿条。腾讯微博是一个由腾讯公司推出，提供微博服务的网站。腾讯微博注册用户突破了一亿大关。国外对微博的研究较多，采用了很多定量的分析

方法

快递客服问题件处理详细方法山木方法pdf 计算方法pdf 华与华方法下载八字理论方法下载

，研究的内容涉及到了广泛的领域，如商业应用模式及微博用户中社区特性的深层联系等。如 S． Yardi; D． Boyd ［1］对 3000 名微博用户进行了研究，他们发现，用户与志同道合者之间的答复强化了群体认同，而不同的态度加强了个人答复小组和外集团的从属关系。他们的研究结果表明，比起之前，人们有机会接触到更广泛的观点，但加入到有意义的讨论时受他们能第 31 卷第 3 期 2012 年 3 月情报杂志 JOURNAL OF INTELLIGENCE Vol． 31 No． 3 Mar． 2012 力的限制。国内研究微博的相关文献，绝大多数都是定性的，只有几篇是定量的。如:王晓光［2］以“新浪微博”为研究样本，较为系统地研究微博的基本结构、信息传播一般模式，随机采集数据考察微博用户特征，并建立了影响力回归方程。李芳等［3］通过网络问卷调查，依据改进的方法目的链理论对数据进行分析，研究结果表明: 当前微博写作动机的主要原因有:可靠数据源、社会热点关注等。 S． Yardi，D． Boyd 仅从群体角度研究了用户集团关系，并没有从用户个体的博文吸引角度去深入研究用户的影响力。王晓光、李芳等虽然对微博用户的行为特征进行了详细的研究，但是结论的实际运用价值不大，并不能给微博服务商带来商业价值。论文采集腾讯微博数据，提出“博文魅力指数”的概念，利用 Pearson相关系数分析博文魅力指数与收录博主人数的关系，进一步验证博文魅力指数的可信度，同时选择 Spearman相关系数，考察听众数与收录博主人数两者的关系紧密程度。最后选择博文魅力指数、博主收听人数两个变量使用 K－Means 聚类算法对微博用户进行聚类分析。 1 研究设计 1． 1 样本数据来源论文研究样本来自腾讯微博。大众样本数据来源于腾讯微博页面的“广播大厅——— 大家在说———全部广播”。采集样本数据共 3 000 条，采集时间为 2011 年 7 月 1 日至 7 月 15 日，20 点至 23 点时段，每天随机采集 200 条微博数据。数据采集中首先随机提取发布者，通过“发布者” 链接至其个人主页，提取个人的信息，即用户资料表 (用户名、是否认证、发博数、听众数、博主收听人数、收录博主人数) ，含记录 3000 条。其中:听众数即有多少其他的微博用户关注添加了博主。在腾讯中可以建名单集，收录自己喜欢的微博用户，相当于 QQ 中的群，收录博主人数即多少个名单集中包含此发布者，而名单集可以被用户订阅。 1． 2 博文魅力指数用户资料表中含有发博数、听众数、博主收听人数和收录博主人数这几项数据，为了清楚了解变量间的关系，论文引入“博文魅力指数”的概念，用 MCI 即 the content ＇s charm index of micro － blog 的缩写表示: MCI=听众数 /博文数 (1) 若发博数多，但听众数少，听众数 /博文数的比值即 MCI值小，博文不易引起他人的兴趣，说明博文魅力指数小。相反，若发博数少，但听众数多，MCI 值大，说明博文易引起其他人的兴趣，所以博文魅力指数大。为了进一步说明“博文魅力指数”的可靠性。论文选择相关分析分别对听众数和收录博主人数，以及 “博文魅力指数”与收录博主人数进行关系分析。 1． 3 相关分析的基本方法相关分析是研究变量间关系紧密程度的一种统计方法，应用较为广泛，是专业统计分析的基础内容。统计分析中常利用相关系数定量地描述两个变量间的紧密程度［4］。 Spearman等级相关系数的计算公式为: r = 1 － 6∑ ni = 1D2i n(n2 － 1) 其中，n为样本，∑ ni = 1D2i =∑ n i = 2 (Ui － Vi) 2，这里 (Ui － Vi)为两变量的秩。小样本条件下，零假设满足时，Spearman 等级相关系数服从 Spearman分布。 Spearman等级相关系数常用来度量定序型变量间的线性相关关系。 Pearson相关系数的计算公式为 r = ∑ ni = 1(xi － x) (yi － y) ∑ ni = 1(xi － x)2(yi － y)槡 2 (3) 其中，n 为样本量，xi 和 yi 为两变量对应的样本值。 Pearson简单相关系数的检验统计量为 t 统计量，定义为: t = r n －槡 2 1 － r槡 2 (4) 其中，t统计量服从自由度为 n － 2 的 t分布。 Pearson简单相关系数通常用来度量定距型变量间的线性相关关系。 1． 4 K－Means聚类算法 1． 4． 1 K－Means聚类算法的思想。K－Means 聚类算法是挖掘技术中一个成熟的且认可度很高的算法，将其归纳起来，其基本思想就是，在一个数据集中，有 n个数据，将实现以下处理过程［5］: 第 1 步，给定聚类个数 k，确定距离函数和迭代终止条件 e; 第 2 步，随机选择 k个数据作为初始化中心点，即代表初始 k个簇的簇中心; 第 3 步，迭代:对剩余的(n － k)个数据，根据其与各个簇中心距离，将它赋给离它最近的簇，然后重新计算每一个簇的中心; 第 4 步，直到各簇中心之间的距离均不大于 e; 第 5 步，给出分类结果:k类的中心点及各类包含的成员数据; ·58·第 3 期杨小朋，等:腾讯微博用户的特征分析第 6 步，终止。 K－Means 聚类算法存在效率高，对文本处理的精准性高的优点，对数据处理前，必须确定聚类个数 k。 1． 4． 2 K－Means 聚类算法中的距离函数。在 K －Means聚类算法的分析中，需要确定距离函数。论文选用欧式距离函数。个案 x和 y的欧式距离是两个个案的 m个变量之差的平方和的平方根，距离函数公式为 d(x，y) ∑ m i = 1 (xi － yi)槡 2 (5) 2 微博数据实证研究 2． 1 相关分析 2． 1． 1 听众数和收录博主人数的相关分析。腾讯微博有听众数和收录博主人数两个变量，它们从不同的角度反映用户的“知名度”，为离散型变量，属于定序性变量。所以选择 Spearman等级相关系数，考察两者的关系紧密程度。相关分析结果如表 1 所示，其中 Sig．(双侧)表示置信度;N 表示样本容量。表 1 听众数与收录博主人数相关表收录博主人数听众数收录博主人数 Spearman相关性 1． 000 0． 813＊＊ Sig．(双侧) 0． 000 0． 000 N 2999 2999 听众数 Spearman相关性 0． 813＊＊ 1． 000 Sig．(双侧) 0． 000 0． 000 N 2999 3000 ＊＊．在． 01 水平(双侧)上显著相关。表 1 中，听众数与收录博主人数的相关系数为 0. 813，置信度(双侧)为 0． 01，高度正相关。可见在表示“知名度”上，两个变量起到了一致的作用。听众多的用户，收录此博主人数也就多，微博用户的受关注程度就越高;反之，若用户的听众数小，则收录此用户的人少，被关注程度减少。 2． 1． 2 博文魅力指数与收录博主人数的相关分析。从统计数据中可得到，2798 条普通用户的博文魅力指数的平均值为 4． 2547，而 202 条腾讯认证用户的博文魅力指数的平均值为 49． 8162。名人的博文魅力指数 MCI成倍高于普通者，这也从一个方面说明 MCI 的合理性。由于 MCI 和收录博主人数两个变量没有直接关系，同时 MCI为连续性变量，属于定距型变量，进一步选择 Pearson相关系数进行相关分析，结果如表 2 所示，其中 N 表示样本容量。从表 2 中可以看出，博文魅力指数 MCI和收录博主人数的相关系数为 0． 499，中度正相关，充分说明了博文魅力指数的可靠合理性。博文魅力指数越大，收录博主人数就越多，用户的受关注度就越高，博文易引起他人的兴趣;若博文魅力指数小，则收录博主人数就少，用户的受关注度就小。表 2 博文魅力指数与收录博主人数的相关分析表收录博主人数 MCI Pearson相关性 1 0． 499＊＊显著性(双侧) 0． 000 N 2999 2999 MCI Pearson相关性 0． 499＊＊ 1 显著性(双侧) 0． 000 N 2999 3000 ＊＊．在． 01 水平(双侧)上显著相关。电子商务服务商在投放推荐页面和应用程序时，可以针对博文魅力指数大的用户，因为收录此用户的名单集较多，服务商投放广告的效果范围是成倍扩大的。通过这些人对投放产品的关注，来吸引关注此类用户的其他微博用户，加强了推荐指数。 2． 2 微博用户的聚类分析由用户的听众数和收录博主人数的相关分析可知，两变量的正相关性十分明显。所以在聚类分析中，不予考虑收录博主人数这个变量。发博文数多说明用户为积极分子。但是这种积极能否得到更多听众，所以选择博文魅力指数 MCI 参与聚类。同时，博主收听人数反映了用户对外界信息的关注程度，所以同时考虑 MCI和用户收听数两个变量作为参与聚类的变量，使用 K－Means聚类算法进行聚类分析。由于在聚类分析中，经过“腾讯认证”的“名用户” 对聚类会造成较大干扰，而且这类用户作为被关注的对象，有很大的特征，如发博文数不多，拥有超多的听众数，即博文魅力指数很大，他本人所收听的人并不是特别多。其中“腾讯认证”202 条。所以去除腾讯认证后的数据为 2798 条。最终聚为 3 类。结果如表 3、表 4 所示。表 3 最终聚类中心聚类类型类型 1 类型 2 类型 3 MCI 2640． 6005 2． 4652 1． 4757 用户收听数 51 148 1484 表 4 每个聚类中的案例数聚类类型草根名人型普通社交型信息获取型个数 2 2524 272 比例 0． 07% 90． 21% 9． 72% 类型 1，MCI值很大，博主收听人数在四类中是最少的。这个类型占了微博用户的 0． 07%。博文魅力指数大，说明用户的博文引起了其他用户极大的关注度，这是微博的超级积极分子，属于“草根名人型”，信息创造的价值很高，但这类用户只是很少的一部分。类型 2，MCI值适中，博主收听人数较多。这个类型占了微博用户的 90． 21%。可见大多数用户目前的收听人数为 148 人左右，MCI均值为 2． 4652，比起“草 ·68· 情报杂志第 31 卷根名人型”，这类用户关注他人稍多一点，能够与其他微博用户进行交流，同时获取自己感兴趣的信息，关注朋友，名人的微博动态，他们的博文魅力指数适中，即能得到其他用户的响应和关注。类型 3，用户的博文魅力指数 MCI最小，博主收听人数是最多的。这类用户占了微博用户的 9． 72%。博主收听人数最多，均值为 1484 个。说明他在积极关注其他人微博更新动态和信息，浏览和了解网络当前最新、最热门的资讯，属于信息获取型。同时从表中看到这类用户的博文魅力较小，博文不易引起其他用户的兴趣，从信息创造的方面来说，价值并不大。综上所述，90． 21%的用户能够与微博用户进行社会和朋友的交流，同时获取自己感兴趣的消息。 0. 07%属于“草根名人型”，这类用户十分积极地参与微博，话题也能引起听众兴趣，信息创造的价值较大。 9. 72%的用户属于“信息获取者”，博文魅力指数很小，更多的是关注他人，寻找自己感兴趣的话题和信息。在聚类统计结果中还包括聚类成员，每个个案的聚类信息。由于数据量较大，论文中没有列出。但这些分析结果对于微博服务商是有一定价值的。 3 结论论文采集大量的腾讯微博数据，选择 Spearman和 Pearson相关系数分别对听众数与收录博主人数、博文魅力指数与收录博主人数两对变量进行了相关分析。最后选择博文魅力指数和博主收听人数两个变量，使用 K－Means聚类算法对用户进行了聚类分析，研究了腾讯微博用户的特征。论文的创新点在于提出了“博文魅力指数”的概念，同时利用 Spearman和 Pearson相关系数进行验证，深入分析腾讯微博用户的特征，最后在 K－Means聚类算法的分析中引入变量“博文魅力指数”，得到微博用户有信息获取型、草根名人型、普通社交型三类，使聚类的特征更加明显。聚类结果中包含:聚类成员和每个个案的聚类信息，服务商也可以根据微博用户的详细分类信息，进行更有针对性的页面和应用程序推荐，实现微博的盈利。但论文在研究微博用户特征时，没有考察他们的年龄，性别，学历等因素对于微博使用动机的影响，这就可能造成研究结果存在片面性。在以后的研究中，可以通过腾讯微博提供的开放接口，使用网络爬虫程序，获取日志等更详细的数据资料如用户的注册信息，进一步对微博用户特征进行深入的研究。参考文献［1］ S． Yardi，D． Boyd． Dynamic Debates:An Analysis of Group Po- larization Over Time on Twitter［J］． Bulletin of Science，Tech- nology ＆ Society，2010(10) ［2］王晓光．微博客用户行为特征与关系特征实证分析［J］．图

书

关于书的成语关于读书的排比句社区图书漂流公约怎么写关于读书的小报汉书pdf

情报工作，2010(7) :66－70 ［3］李芳，曲豫宾．大学生微博使用动机模型实证研究［J］．福建论坛(社科教育版) ，2010(8) :115－118 ［4］张庆利等． SPSS 宝典:第二版［M］．北京:电子工业出版社， 2011:239－241 ［5］张丹．基于 Web挖掘技术的 SNS 社会网络研究［D］．成都: 四川大学，2010 (责编:刘影梅檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪檪 ) (上接第 49 页) 收录期刊的平均引文密度超过 35，2010 年的平均引文密度为 35． 04。从 10 余个学科的 SJR 收录期刊的引文密度频数分布入手，引入了学科期刊平均引文密度和学科期刊最可几引文密度，并用对数正态分布函数表征学科期刊引文密度分布特征。学科期刊平均引文密度可以表征学科期刊引文密度的平均水平;学科期刊最可几引文密度表征某学科大部分期刊的引文密度水平;对数正态分布函数可以描述学科期刊引文密度的分布形状及特征。总之，对数正态分布函数及其特征参数可以描述学科期刊引文密度的分布特征以及学科的引文密度水平。参考文献［1］ GARFIELD E 著;冷怀明译．期刊影响因子的历史和意义［J］．编辑学报，2006，18(6) :466－467 ［2］ Garfield E． The History and Meaning of the Journal Impact Fac- tor［J］． Journal of the American Medical Association． 2006， 295(1) :90－93 ［3］ Garfield E． Journal Impact Factor:a Brief Review［J］． Canadian Medical Association Journal，1999，161(8) :979－980 ［4］靖晓莉，陈波．网络传播环境下的期刊引文变化［J］．贵州社会科学，2009(10) :128－132 ［5］祁延莉，窦曦骞．引文密度修正指标的实验研究［J］．情报理论与实践，2010(6) :69－73 ［6］ Ioannidis John P． A． Concentration of the Most－cited Papers in the Scientific Literature:Analysis of Journal Ecosystems［J］． Plos One，2006，1(1) :1－7 ［7］ Vieira E S，Gomes J A N F． Citations to Scientific Articles:its Distribution and Dependence on the Article Features［J］． Journal of Informetrics，2010，4(1) :1－13 ［8］ Journal rankings．［2011－09－13］． http:/ /www ． scimagojr． com / journalrank． php．［9］靳小青．影响我国科技期刊入选 SCI 浅析［J］．情报理论与实践，1999(1) :21－23 (责编:刘影梅) ·78·第 3 期杨小朋，等:腾讯微博用户的特征分析

本文档为【腾讯微博用户的特征分析】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。

腾讯微博用户的特征分析

热门搜索

历史搜索