为了正常的体验网站,请在浏览器设置里面开启Javascript功能!

基于数据挖掘的微博用户兴趣群体发现与分类一以新浪微博为例

2017-06-08 8页 doc 13KB 312阅读

用户头像

is_654168

暂无简介

举报
基于数据挖掘的微博用户兴趣群体发现与分类一以新浪微博为例基于数据挖掘的微博用户兴趣群体发现与分类一以新浪微博为例 1.1研究背景与意义 1.1.1数据挖掘技术背景 上个世纪八十年代,为适应信息时代对于不断增长的海量数据的分析与判断,数据挖掘的概念被提出,其运用了多类学科的知识,包括人工智能、计算机技术、数据库技术、数理统计等,能够在大量的、不全面的、有干扰的数据中分析、提取并发现人们可能感兴趣的规则、模式。随着30多年的发展,数据挖掘技术从一种概念经历了理论的完善、算法的成熟到应用的成功,在算法上,数据挖掘技术已经拥有了很多种适合不同情况不同数据源的算法,包括关联分析、聚类分析、分...
基于数据挖掘的微博用户兴趣群体发现与分类一以新浪微博为例
基于数据挖掘的微博用户兴趣群体发现与分类一以新浪微博为例 1.1研究背景与意义 1.1.1数据挖掘技术背景 上个世纪八十年代,为适应信息时代对于不断增长的海量数据的分析与判断,数据挖掘的概念被提出,其运用了多类学科的知识,包括人工智能、计算机技术、数据库技术、数理统计等,能够在大量的、不全面的、有干扰的数据中分析、提取并发现人们可能感兴趣的规则、模式。随着30多年的发展,数据挖掘技术从一种概念经历了理论的完善、算法的成熟到应用的成功,在算法上,数据挖掘技术已经拥有了很多种适合不同情况不同数据源的算法,包括关联分析、聚类分析、分类预测等中多种数据挖掘算法,在应用上,数据挖掘技术在金融、电信、物流、零售、电子商务等领域中取得了成功[1],只要有数据积累的地方,包括关系数据库、数据仓库、多媒体数据库、文本数据库等,数据挖掘技术就可以被应用,领域可以说是非常广泛,它在其他领域的应用研究也在不断得被提出与完善。本文试图将数据挖掘技术应用到在微博等相类似的新兴社交媒体上,通过对微博用户海量信息的分析与挖掘去发现微博用户群体兴趣。 1.1.2微型博客背景 根据最新的《中国新媒体发展(2012)》[2]上所做描述,2010年底到2012年年中,我国使用微博的用户的总量已经由区区的6311万人猛增至2.74亿人,后者是前者的近四倍之多,可见增长之快速。每两个使用互联网的中国人中,便有一个是微博用户。而中国在2011年底一跃成为全球使用微博人数最多的国家,达到2.498亿人。另外,由于微博强大的新媒体力量,越来越多的政府机关、党政机构与单位根据自身的需要开通了微博,以新浪微博为例,截至2011年年底,已经有18132个通过认证的政府、单位微博①。 作为一种新兴的社交媒体,微博已经改变了人们的生活方式。人们热衷在微博上关注自己的兴趣,分享自己的喜好,评论流行的趋势,这也给微博数据挖掘带来了相当大的价值,其可以被挖掘很多的即时的,潜在的,有价值的知识与模式,这些信息可以被用于网络热点事件发现,网络民意调查,舆情监督,特定市场分析,销售策划等领域[3]。而数据挖掘的一些成熟的技术与方法是完全有可能应用与微博以及其衍生应用之中的。所以通过数据挖掘,找到微博及其衍生应用中用户的潜在的、有价值的信息是完全可行的,也是有前景的。微博用户行为模式近似于社区网站,其蕴含的结构化与半结构化数据中中包含了很多可发现的内容,这些内容同样可以被运用于热点发现、民意调查、市场分析等领域。 通过数据挖掘的方法研究微博的意义具体体现在以下三个方面: (1)微博及其类似的社交媒体需要一种工具,这种工具能够发现蕴含在其中的知识与模式。微博作为目前最具规模最具影响力的新兴媒体,海量的,多样的、时效的特点使得微博上中蕴含着许多有价值的、潜在的知识与模式,这些模式需要被发现以及应用。 (2)找到用户的兴趣与对用户进行分类可以为微博用户、微博运营者与商务机构提供不同的、有利的服务,而不同爱好、不同层次与不同使用目的的用户需要个性化的信息服务。从经营角度看,微博网站的经营者与管理者的目的是使网站的经济效益与声誉提高,因此他们需要深入了解每个用户的实际需求,从而做出对网站结构、功能的改变以利于网站的运营。从微博营销的商家的角度看,用户的兴趣发现可以为商家提供可供参考的、潜在的、有价值的用户信息,这些信息经过商家的分析可以为商家带来新的商机;从用户的角度上来看,他们也是带着需求来的,而他们在使用微博以及其衍生产品中透露出的自己的兴趣爱好,其也希望能够符合自己贴身需求的产品与服务的出现。 ............................... 1.2国内外研究现状 国内外有关微博的研究是一大热点,研究领域也十分广泛。相比较而言,国外有关微博用户兴趣的研究较早,也比较全面,而国内有关微博用户兴趣的研究还不够广泛,此方向学者的研究总体可分为以下几类: 基于定性的研究,这方面的研究试图寻找出能够表示出微博用户兴趣的相关要素,根据相关要素的实际研究效果来检验这些要素是否能够客观准确得反应微博用户的兴趣,而这类研究使用的方法多为观察、问卷调查与实证研究。比如JAVA等[4]指出了获取微博用户兴趣的数据集的特点,探讨了运用多种数据源进行微博用户兴趣发现的可行性,同时根据数据是否由用户主动给出提出了显式反馈与隐式反馈的概念;孙威[5]指出,在能够表示微博用户兴趣的数据集中,用户关注的微博是最能够反应真实用户兴趣的,而因为中文文本处理技术的不成熟,基于用户发布、分享的内容进行兴趣分析的效果是不够理想的。 基于算法的研究,这方面的研究多以计算机技术一种具体的算法为基础,根据微博的特点,将算法具体应用到微博用户兴趣建模上,除了可以实现微博用户兴趣发现上,还可以检验算法的实用性。比如MIHALCEL[6]从PageRank算法中得到灵感,建立了基于文本处理技术的用户兴趣发现方法;赵岩路[7]等以经典的协同过滤算法为基础,对微博用户的数据集进行特征分析,建立了微博用户兴趣模型。 基于方法的研究,这方面的研究旨在实现微博用户兴趣识别与发现,以一种研究可行的识别方法去找出用户兴趣,并进行实证分析以验证方法的有效性。比如[8]以最新的文本处理技术为依托对微博用户发表的微博与分享的内容进行化词切词,再用语义分析的方法判别用户兴趣,或构建能够标志用户兴趣的标签分类体系进行兴趣发现研究等。 综合国内学者的研究,可以发现以数据挖掘技术为基础的研究还不多,本文根据已有的研究成果,再结合微博实际的情况,提出一种以用户关注为主的微博用户兴趣群体发现与分类方法。 .................................. 2数据挖掘技术概述 2.1数据挖掘技术 2.1.1数据挖掘的背景与概念 随着计算机的出现与使用,信息时代的到来了,其大大促进了人类文明的进程。在便利的同时,信息时代所致的信息爆炸成为了新的问题。为了解决新时代所带来的新挑战,人们发展了数据库技术、计算机技术、数据管理技术,计算机技术是搜集处理日常工作生活所产生的必备条件,而数据库技术则使得数据能够以需要的结构与格式存储在计算机之中,大大方便了数据的存储、使用、分析与修改,数据管理技术中的存储、检索查询、分析、事务处理等功能为人们能够初步理解运用数据产生有用的分析结果提供了必要的帮助。 尽管如此,在面对海量、复杂、变化的信息之中如何得到有用的知识与模式仍旧是一个巨大的挑战,决策者无法有效的在如此庞大的数据之中的到对其有利与有价值的知识,这也催生了对于数据理解更加高层次的分析工具的强烈需求。于是数据挖掘的概念应运而生。数据挖掘是一种能从海量的、不确定的、不全面的、复杂的数据中提取出人们可能感兴趣的知识与模式,其涉及多门类学科的知识,包括计算机科学、数据库技术、数理统计、机器学习、图像识别、数 据可视化、信息检索等[9]。数据挖掘中发现的知识与模式可以大大提高人们处理信息的效率,也可以提供有价值的信息来辅助进行决策。 在上个世纪八十年代数据挖掘概念被提出到现在,数据挖掘己经从一种概念逐步经历了理论的完善、算法的成熟与应用的成功。学者与技术人员提出了很多已经证明有效与实用的数据挖掘方法,比如关联分析、聚类分析、分类预测、统计分析等,而在应用方面,数据挖掘技术已经在金融、电信、电子商务、生物研究、地理研究、医学、零售等领域成功得运用,例如“啤酒尿布”⑴的经典营销案例就是以数据挖掘技术为依托的,另外譬如依托聚类分析的金融领域的客户市场细分、反信用欺诈系统,电子商务中的用户个性化推荐,依据关联分析医学中的疾病预测,警察系统中的犯罪预测,生物学中的DNA序列相似度比较等,已经取得了有效、积极的作用。换句话说,在信息时代,由于数据不断地产生与累计,只要存在数据,数据挖掘技术便有用武之地,这也了这种技术是拥有广泛的科研价值与应用前景的。 2.1.2数据挖掘的过程 数据挖掘的过程可以被概括为分为以下五步:提出问题、数据收集与预处理、数据挖掘、数据挖掘结果评估、模式发现。 (1)提出问题 虽然数据挖掘技术寻找到的模式是人们事先不知道的,但是这并不代表数据挖掘是无目的性的。所以,需要事先了解这些可能被发现模式的大方向,这样有助于对整个挖掘过程有一定的把握,再根据实际情况对数据挖掘的结果进行分析。 (2)数据的收集与预处理 在根据提出问题的基础上,进行数据收集的工作,数据可以是从数据库中获得的,或是数据仓库中存在的,也可以是基于问题,有目的的进行收集。 与其他数据分析方法一样,对于收集的数据需要进行预处理以保证数据的准确性和可分析性。而具体在数据挖掘任务下,需要消除噪音以平衡噪音敏感的数据挖掘算法,需要去重复处理与遗漏处理以去除不可分析的数据,最后进行数据类型的转换以适应具体的数据挖掘方法。 (3)数据挖掘的实施 根据第一步所提出的问题,选择最适合的数据挖掘方法进行数据挖掘。 (4)结果评估 数据挖掘的结果评估是整个过程中重要的环节。这是因为以下几个原因: 数据挖掘的可能会发现的没有任何实际价值的模式,这种情况可能是数据收集与处理环节出现问题,也可能是挖掘算法本身的缺陷。当产生这样的结果时,往往要重新进行数据挖掘。另外,数据挖掘产生的结果需要进行具体化的解释与分析以使用户易于理解,所以可视化技术是必要的。 而对于不同的数据挖掘方法,也有不同的评估方法。总体上说,收集数据的有效性与算法的正确选择是保证产生令人满意的挖掘结果的必要条件,同时也可以根据具体的数据挖掘方法采用相应的已经证明有效的评估进行评估。 ............................... 2.2数据挖掘的方法 经过多年的发展,数据挖掘的方法不断丰富,常用的数据挖掘方法有:分类分析、聚类分析、关联规则分析,下面进行简要介绍。 (1)分类预测:分类的方法在于根据一定的分类标准,将待分析的数据集进行参照与比对,再将数据分门别类得归入指定的分类标准之中,而分类标准往往需要预先构建分类器进行数据训练,而分类的结果往往可以用于描述数据发展的未来趋势。分类预测的方法可以对商业中客户细分有着较好的效果。典型的分类预测算法包括K临近、神经网络与粗糖集等。 (2)聚类。聚类方法的思想在于在数据集中找到令人满意的类簇,与分类不同的是这种方法不需要事先指定类簇标准,按照相应的算法自动的对数据集进行分类,最后得出分析结果。聚类分析常常用于先验知识不足的数据挖掘任务,且能起到不错的效果。聚类的经典算法有划分中的K均值、层次聚类算法等。 (3)关联规则。关联分析思想在于找到数据集中某一项或多项记录与其他记录之间的相关关系,如果一项或多项记录与其他记录共同出现,并且出现的频率达到了预先设定的阈值,那么便认为这两者之间是存在关联规则的。关联规则的应用十分广泛,在比如在零售领域对客户购买的产品组合进行关联分析,可以发现单个用户或整体用户的购买习惯,有利于商家调整产品组合以达更好的营销效果。另外在医疗领域,对病人的症状进行关联分析可以预测他患有某一疾病的概率。 (4)其他方法。在面对多样的数据类型时,也有相应的数据挖掘方法。比如对于图片、视频等的多媒体数据挖掘;为应对空间数据库而产生的数据挖掘方法;应对文本型数据而提出的文本数据挖掘方法;应对互联网产生数据的WEB挖掘方法等。总而言之,存在数据集的领域,数据挖掘便有用武之地,而相应的方法也会随之产生。 本文试图通过搜集微博用户的相关数据,发现微博用户兴趣群体并予以分类,所以采用数据挖掘中聚类分析的方法进行研究是合适与有效的。下面重点介绍聚类分析技术。 ................................. 3微博用户兴趣群体分类模型构建与实现.............................12 3.1微博相关知识......................................12 3.1.1微博的定义...................................12 3.1.2微博用户特点——以新、浪微博为例.............................13 3.2微博用户兴趣群发现与分类模型......................................14 3.3微博用户数据标准化........................................15 3.3.1聚类分析的数据类型....................................15 3.3.2藥类分析的相似度度量..................................16 3.4基于数据挖掘的微博用户兴趣发现的实现.............................21 3.4.1样本数据特点与聚类算法选择.............................21 3.4.2 SPSS实现过程................................23 3.5本章小结..................................24 4实证分析一以新浪微博为例 4.1聚类分析数据样本 4.1.1样本获取 3.2节给出了微博用户兴趣发现的方法,下面介绍使用该方法具体收集数据的过程:(1)兴趣大类的确定:首先确定微 博用户兴趣集合H(h1,h2,h3,....hn)(n∈N+),要求在兴趣集合丑概括出所有可能的微博用户兴趣。这里参照了新浪微博衍生产品新浪微吧的兴趣分类体系和微博名人达人的领域分类体系,将微博用户兴趣分为十个大类如表4.1。 这里需要说明的是,行业类的微博对于特定的微博用户来讲更多的是与其所从事工作相关的资讯或分析,严格来说,并不是用户的兴趣爱好,但这是一种把握行业动态的信息需要,所以分析行业类的样本数据对于聚类分析的结果上来说具有同样重大的意义,这里予以保留。 (2)标识微博的界定:对与用户关注的微博曰P(p1,p2,p3,....pn)(n∈N+),找出所有具有明显兴趣爱好标识的兴趣集合L(l1,l2,l3,....ln)(n∈N+)。 这里需要确定具有明显可标识用户兴趣的微博判别的标准,正如前文所述,信息发布平台、微博名人、具有影响力的普通微博用户都可能标识兴趣,这里选择具有大V认证的,具有明显领域色彩的信息发布平台、微博名人等作为数据收集的来源。 另外,由于计算机数据收集难度较大,采用人工收集数据的方法收集数据,这里随机收集了 314位普通微博用户的数据。 (3)确定兴趣:根据收集的微博用户数据,确定用户的兴趣集合。即找出指定用户的兴趣爱好集合{hi,hj,hk...},从L{l1,l2,l3,.....ln}中,找出所用的兴趣映射{li,lj,lk...}→h 此时,微博用户兴趣集合就确定出来了,在数据库中可以查询到其中任何一个人所感兴趣的所有领域。 (4)精准化兴趣:此时数据库中数据类型为布尔逻辑型,且只能确定有无兴趣,而无法确定用户对于兴趣的偏好程度,为了能够更精准的表达用户兴趣,这里由前文所述引入兴趣偏好程度进行兴趣精准化,如式3.1所述: G(hn)∈[0,1],其值越大则代表用户偏好该兴趣,0代表用户无此兴趣。 由此对收集的数据进行一次初步处理,计算出能标识用户兴趣的微博总数与标识待求兴趣微博数的比值。 此时,完成了样本数据获取与初步处理。数据类型如表4.2所示: 4.1.2样本数据可行性分析 由于本文所用数据是自行收集的,在聚类分析之前应探讨收集的数据能否对微博用户兴趣发现与细分普遍适用,如果收集数据不能代表总体情况,那么聚类分析是没有意义的。这里的总体情况标准来源于北京网络媒体协会的《微博媒体特性及用户使用状况》[20],选用下几个标准来度量本文样本数据的普遍适用性: (1)微博用户性别情况 本文所收集314条记录中,男性用户有132位,占比42%,女性用户有182位,占比58%如图4.1所不: 可以看出在性别成分上本文数据与标准上相差不大。 (2)微博用户年龄情况在本文收集的314条数据中,18岁以下的用户数目为16个,18-30岁用户数245个,30岁以上用户数为51个。本文样本数据用户年龄与标准年龄对比如图4.2所示: 由上图可以看出,两者的基本趋势是一样的,唯一的不足是30岁以上人群收集数量低于标准比例。 .............................. 5.1论文总结 本文探讨了有关微博用户兴趣发现的问题,通过观察法得到了有关微博与微博用户本身的特点,根据这些特点提出了微博用户兴趣的发现方法,并试图以数据挖掘技术中能够发现类群的聚类分析技术为依托,得到相类似的微博用户兴趣群体,并对这些群体进行了划分。 在实现环节,本文使用SPSS统计分析软件中的聚类分析功能,采用了系统聚类与K-均值聚类两种聚类方法相互对比使用,以克服聚类结果难以评估的问题,另夕卜,本文进行聚类所用到的数据来源于互联网,在进行分析之前综合分析了数据集的各个特点,并与标准数据特点进行对比以验证其有效性。 从聚类分析结果来看,两种聚类方法的结果在趋势上是大体一致的,对于其中不同的地方,釆用系统聚类的结果为标准。对于结果,本文做了相应的应用结论分析,对于明显六大特征的微博用户,对每类用户,都结合聚类结果做出了解释,并给予了相关建议。 .............................. 参考文献(略)
/
本文档为【基于数据挖掘的微博用户兴趣群体发现与分类一以新浪微博为例】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。 本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。 网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
热门搜索

历史搜索

    清空历史搜索