为了正常的体验网站,请在浏览器设置里面开启Javascript功能!

机器学习-时间序列-空间网络 - 副本

2018-11-09 50页 ppt 5MB 63阅读

用户头像

is_574338

暂无简介

举报
机器学习-时间序列-空间网络 - 副本机器学习,时间序列,空间网络数据分析机器学习中的分类回归方法时间序列选讲函数型数据空间数据网络数据目录|CONTENT231机器学习中的分类回归方法机器学习中的分类回归方法机器学习中解决分类、回归问题的方法有很多,包括决策树以及基于树的集成学习方法,如Bagging和随机森林,Boosting和各种改进的Boosting方法,贝叶斯分类,神经网络,K-近邻学习,支持向量机等。  机器学习中的分类回归方法-决策树决策树(decisiontree)是一类常见的机器学习方法,可用于分类和回归问题,故而有分类树和回...
机器学习-时间序列-空间网络 - 副本
机器学习,时间序列,空间网络数据分析机器学习中的分类回归方法时间序列选讲函数型数据空间数据网络数据目录|CONTENT231机器学习中的分类回归方法机器学习中的分类回归方法机器学习中解决分类、回归问题的方法有很多,包括决策树以及基于树的集成学习方法,如Bagging和随机森林,Boosting和各种改进的Boosting方法,贝叶斯分类,神经网络,K-近邻学习,支持向量机等。  机器学习中的分类回归方法-决策树决策树(decisiontree)是一类常见的机器学习方法,可用于分类和回归问题,故而有分类树和回归树两类。以一个简单的二分类问题为例,我们使用泰坦尼克号数据集来预测一名旅客在沉船事件中是否获救。内部结点根结点叶结点/决策树结构机器学习中的分类回归方法-决策树如何从样本数据中学习生成一棵决策树?递归的二分过程构建根结点,将所有训练样本都放在根结点上,选择一个最优特征,按照该特征将训练集分割成子集,使得各个子集在当前条件下达到最好的分类。如果这些子集已经能够被基本正确分类,那么构建叶结点,并将这些子集分到对应的叶结点中;如果还有子集不能被基本正确分类,那么就对这些子集选择新的最优特征,继续上述的分割过程。……如此递归地进行下去,直至所有训练样本子集都被基本正确分类,或者没有合适的特征为止。最终,每个子集都被分到叶结点上,即都有了明确的分类,就生成了一棵决策树。机器学习中的分类回归方法-决策树机器学习中的分类回归方法-决策树决策树按照递归的方式一直生长,生成的树往往对训练样本学习得“太好”,以致于把训练样本的一些特点当作所有数据都具有的一般性质导致过拟合。主动去掉一些分支,降低其复杂度,来减小过拟合的风险——剪枝(pruning)。综合考虑模型对训练样本的拟合程度,以及模型复杂度(叶结点的个数),定义决策树学习的损失函数。递归地从树的叶结点向上剪枝,如果剪枝后的损失函数值更小,则进行剪枝,直到不能继续为止。机器学习中的分类回归方法-决策树基于决策树P2P网络借贷平台投融资决策行为分析——预测借款交易融资是否可获得,发现影响融资成功的重要因素,提高融资成功率。人人贷平台编号000001至800000之间随机的4万笔交易数据,清理缺失和申请中的交易,共有35984条;借款金额、年化收益率、还款期限等基础交易变量,借款人基础信息,借款人平台信息等变量。机器学习中的分类回归方法-决策树决策树模型在测试集上的表现:TPR=0.911,FPR=0.026。决策树模型中主要关注的变量为借款金额、借款利率、历史借款成功次数及金额,历史借款次数、是否有担保人偿还这几个变量,即决策树模型侧重历史信息和借款交易信息。机器学习中的分类回归方法-决策树优点:易于理解,解释,可视化。如果给定一个观察的模型,那么根据所产生的决策树很容易推出相应的逻辑表达式;实际上进行了变量筛选和选择;能够同时处理数值型和分类型数据。其他的技术往往要求数据属性的单一;对数据预处理地要求较低。其他的技术往往要求先把数据化,分类变量需要处理成哑变量,去掉空白属性等。缺点:对缺失数据处理困难。过于简单的树会导致较大的偏差;过于复杂的树会导致过拟合。忽略数据集中属性之间的相关性。决策树不稳定,数据集变化很小,但最后可能会生成十分不一样的树,即方差较大;可通过袋装法(Bagging)和提升法(Boosting)减小方差。决策树使用的贪婪算法无法保证得到全局最优的决策树;可通过随机抽样和随机选取特征集合来训练多棵决策树的方法缓解这一问题。机器学习中的分类回归方法-基于树的集成方法实际应用的复杂性和数据的多样性往往使得单棵决策树的表现不够好。集成方法的主要想法就是把多个弱学习器结合在一起形成一个强学习器,即通过结合多个单棵决策树的结果,来提升预测效果。常见的集成方法有装袋法(Bagging),提升法(Boosting)等。 Boosting:主要侧重降低偏差。主要想法是从初始训练集训练出一棵树;再根据这棵树的表现对训练样本分布进行调整,使得在这棵树上出错的训练样本在后面的训练中受到更多关注;基于调整后的样本分布来训练下一颗树;依此过程重复进行,直至树的数目达到预设数目T;最后将这T棵树进行加权结合。可以看到,Boosting是串行的序列化过程,很难做并行计算。例如,AdaBoost(二分类),GradientBoosting,xgboost等。机器学习中的分类回归方法-基于树的集成方法Bagging:主要关注降低方差。主要想法是对训练样本有放回地随机抽样得到一些子训练集,在每个子训练集上学习生成一棵决策树;最后组合这些不同决策树的结果,这样会比单棵决策树更为稳定。容易并行随机抽样使得剩余样本天然地成为验证集进行包外(Out-Of-Bag)估计,辅助剪枝或减小过拟合风险 机器学习中的分类学习方法-随机森林机器学习中的分类学习方法-随机森林优点:能处理较高维度(很多特征)的数据存在分类不平衡情况时,随机森林能够提供平衡数据集误差的有效方法如果有很大一部分特征缺失,随机森林仍然可以维持较高的准确度训练速度快,容易并行计算缺点:在噪音较大的分类或回归问题上容易过拟合机器学习中的分类学习方法-随机森林随机森林在人脸对齐上的应用FaceAlignmentAt3000fpsviaLocalBinaryFeaturesLBF算法思想是将每个特征点用一个标准随机森林训练,使得森林能够记住各种姿态下的“特征点走势”,得到特征点的稀疏编码,再通过全局优化得到最终的结果。随机森林的重点是挑选属性进行节点分裂,LBF将候选属性集定义为“当前特征点周围圆形邻域内的随机撒点”,这样做的目的就是通过比较各个随机撒点的信息增益值,挑选最小的那一个作为分裂属性,使得初始的不准确特征点渐渐向真实位置靠近。与众不同的地方在于,LBF将像素位置作为候选属性。机器学习中的分类回归方法-支持向量机以分类问题为例。支持向量机(SupportVectorMachine)学习的基本想法是基于训练样本在样本空间找到一个划分超平面,将不同类别的样本分开。线性可分的训练样本如下所示。机器学习中的分类回归方法-支持向量机“支持向量”是指十分靠近划分超平面,并且影响超平面位置方向的样本点。由于支持向量在确定划分超平面中起着决定性作用,所以将这种分类模型称为支持向量机。将两个异类的支持向量到超平面的距离之和称为间隔。支持向量机的学习目标是最大化间隔。机器学习中的分类回归方法-支持向量机如果样本不是线性可分的,则利用核方法。将样本从原来的特征空间映射到一个更高维的特征空间,使得样本在这个特征空间内线性可分。在此过程中,我们不直接寻找非线性映射,而是利用内积核函数代替高维空间的非线性映射简化计算,因此称为核方法。机器学习中的分类回归方法-支持向量机优点:适合解决小样本的机器学习问题。计算简单,决策函数只由少数支持向量确定,计算复杂性取决于支持向量的数目,而不是特征空间的维数,避免了“维数灾难”。少数的支持向量有助于忽略大量冗余样本,对于增删非支持向量样本点不敏感,具有较好的稳健性。可以解决非线性问题。本质时凸优化问题,避免了贪婪算法陷入局部最优值的问题。缺点:对大规模训练样本难以实施,此时二次规划求解支持向量涉及大型矩阵存储计算问题。对多分类问题解决效果不好。核函数的选取。机器学习中的分类回归方法-支持向量机基于支持向量机的潜在成功客户预测UCI数据库,采集于一家葡萄牙银行针对存款业务推广的市场营销活动而收集的数据;包括客户个人信息,职业、年龄和婚姻状况等;银行账户信息,存款余额、是否贷款等;集中营销的联络情况,联络次数、最近一次联络时长、联络方式、联络时间等;历史营销情况等;通过分析用户历史行为可以精准定位客户,缩小目标客户群,改进营销策略。实际数据线性不可分,故选择高斯核函数进行训练和测试。TPR=0.999,FPR=0。机器学习中的分类回归方法-神经网络“神经网络(NeuralNetworks)由具有适应性的简单单元组成的广泛并行互连的网络,它的组织能够模拟生物神经系统对真实世界物体所作出的交互反应”(Kohonen,1988)。 机器学习中的分类回归方法-神经网络人工神经网络中最基本的成分是神经元模型。在神经网络中,我们需要考虑三个方面的内容:神经元的激活(激活函数),网络的拓扑结构(神经元之间的连接关系),学习算法(训练更新网络参数)。机器学习中的分类回归方法-神经网络把许多个神经元按一定的层次结构连接起来,就得到了神经网络。下图是一个简单的神经网络结构。每层神经元与下一层神经元全互连,神经元之间不存在同层连接,也不存在跨层连接,这种神经网络结构称为多层前馈神经网络。神经网络的学习就是根据训练样本调整连接权重和阈值项。机器学习中的分类回归方法-神经网络最为基础的神经网络学习算法——BP(BackPropagation)算法。BP算法基于梯度下降思想,以目标函数的负梯度方向对权重和阈值项进行更新。初始化连接权重和阈值;根据网络结构和参数值,计算当前样本点的输出;计算输出层神经元的梯度;计算隐层神经元的梯度;根据链式法则和各个梯度值,更新连接权重和阈值,直到收敛。机器学习中的分类回归方法-神经网络优点:分类的准确度高,并行处理能力强,分布存储及学习能力强,在语音、语义、视觉、各类游戏(如围棋)的任务中表现极好;部分神经元受损不会对全局训练结果造成很大的影响,神经网络对噪声有较强的稳健性和容错能力;可以充分逼近复杂的非线性关系;自学习和自适应能力,能够通过学习自动提取数据间的规则,并将学习内容记忆于网络的权重中,具备联想记忆的功能等;泛化能力强,能够对未见过的模式进行正确分类。机器学习中的分类回归方法-神经网络缺点:需要大量的训练样本进行学习才能发挥其威力;难解释的“黑箱模型”,不能观察其中的学习过程,输出结果难以解释,会影响到结果的可信度和可接受程度;对初始值较为敏感,可能出现收敛到局部极小点的问题;网络拓扑结构选取问题、大量的参数(权值和阈值);计算复杂,算法收敛速度较慢,当学习时间过长,甚至可能达不到学习的目的。机器学习中的分类回归方法-神经网络目前,神经网络已有上百种不同的模型,例如:RBF径向基函数(RadialBasisFunction)网络;竞争神经网络,如ART自适应谐振理论(AdaptiveResonanceTheory)网络,SOM自组织映射(Self-OrganizingMap)网络;递归神经网络,如Elman网络;基于能量的模型,如Boltzmann机。机器学习中的分类回归方法-神经网络卷积神经网络(ConvolutionalNeuronNetworks)应该有某种方法,使得我们的神经网络能够非常智能地识别出图片上任何位置的“8”——这就产生了卷积的解决办法。机器学习中的分类回归方法-神经网络一、把图片分解为部分重合的小图块;机器学习中的分类回归方法-神经网络二、把每个小图块输入到小型神经网络中;机器学习中的分类回归方法-神经网络三、把每个小图块的结果都保存到一个新的数列当中;机器学习中的分类回归方法-神经网络四、缩减像素采样;机器学习中的分类回归方法-神经网络五、预测。机器学习中的分类回归方法-深度学习简介随着云计算、大数据时代的到来,计算能力的大幅提高可缓解复杂模型训练低效性的问题,训练数据的大幅增加也可以降低过拟合的风险,因此,“深度学习”(DeepLearning)为代表的复杂模型受到广泛关注。典型的深度学习模型就是很深层(很多隐层)的神经网络,例如深度信念网络(DBN)和卷积神经网络(CNN)。多隐层神经网络中拥有激活函数的神经元数目增多,激活函数嵌套的层数增多,使得模型复杂度越高、容量越大,能够完成更复杂的学习任务。深度学习应用场景包括语音识别,图像识别,自然语言处理,视觉艺术处理等。机器学习中的分类回归方法-深度学习简介为什么要深度学习?只要有足够多的隐层神经元,单隐层网络就能够以任意精度近似任何有界闭集函数。也就是说,浅层网络就可以很好地进行学习;但是,使用深层结构效率更高(相同的表现,需要的参数更少)。通过多层处理加工,逐渐将初始的“低层”特征表示转化为“高层”特征表示,把初始的、与输出目标之间联系不太密切地输入表示,转化成与输出目标联系更为密切地表示,来完成复杂的学习任务。机器学习中的分类回归方法-深度学习简介ImageNet的ILSVRC图像识别竞赛:AlexNet(8层):2012,Winner,错误率16.4%。GoogleNet(22层):2014,Winner,错误率6.7%。ResidualNet(152层):2015,Winner,错误率3.57%。相关学习资料周志华:机器学习适合作为机器学习入门的书籍,书中的例子十分形象且简单易懂,对于机器学习领域覆盖较为全面。李航:统计学习方法较为简略的机器学习教材。对模型的推导很清晰。集体智慧编程,这本书会带着你把部分机器学习算法实现出来跑一遍。PRMLPatternRecognitionAndMachineLearning机器学习进阶书,侧重贝叶斯。KevinP.Murphy:MLAPP(MachineLearning:aProbabilisticPerspective)机器学习进阶书,内容较为全,可以和PRML互相补充着来看。Theelementsofstatisticallearning侧重统计。时间序列选讲时间序列选讲-向量自回归模型VAR时间序列选讲-向量自回归模型VAR参数估计:最小二乘估计,最大似然估计,SUR估计(主要用于m个分量对应的回归变量不同的情况下)。模型检验:检验残差每个分量序列是否为白噪声。模型预测:模型检验通过之后,可以用估计的模型进行预测。时间序列选讲-向量自回归模型VAR基于VAR模型对铬铁价格进行预测铬铁的月价格,铬矿和铬铁每月进口数量,不锈钢全国季度产量和月平均价格。对高碳铬铁的价格和200系不锈钢的价格建立VAR模型。检验得到,200系不锈钢价格滞后3期对铬铁价格影响较大,因此我们在模型中使用铬铁和不锈钢的滞后3期的数据,拟合R方为0.940447,效果很好。另外单位根检验表明没有根落在单位圆外,该模型满足平稳条件。时间序列选讲-单位根过程及单位根检验时间序列选讲-单位根过程及单位根检验时间序列选讲-单位根过程及单位根检验时间序列选讲-协整过程及协整检验时间序列选讲-协整过程及协整检验协整检验:假设两个序列是同阶单整,可以按照Engle-Granger两步方法进行协整检验。第一步,可以用一个变量对另一个变量回归,即建立协整回归,采用最小二乘估计回归系数,得到回归模型的残差序列。第二步,对残差序列进行单位根检验,若其平稳,则表明两序列存在协整关系;若其非平稳,则两序列不存在协整关系。时间序列选讲房价变动机制研究选取个人住房公积金5年以上贷款利率、M2(广义货币发行量)与GDP(国内生产总值)的差值、少年抚养比、老年抚养比、房地产企业土地购置面积来反映房价的波动;房价、少年抚养比、老年抚养比数据都具有趋势,不是平稳序列,因此我们考虑协整模型来估计房价与各变量之间的关系。时间序列选讲变量单位根检验由图可见,房价是一阶单整序列;另外,老年抚养比、少年抚养比也都是一阶单整序列(不再展示);个人住房公积金5年以上贷款利率不是一阶单整。时间序列选讲协整建模利用协整模型拟合房价与少年抚养比、老年抚养比、M2(广义货币发行量)与GDP(国内生产总值)差值对数值、房地产企业土地购置面积、个人住房公积金5年以上贷款利率(数据来源于中国统计年鉴),得到对拟合得到的残差序列进行单位根检验,检验结果为残差序列为平稳序列,故协整关系成立。时间序列选讲协整建模可知老年抚养比与房价呈正相关,这与日本及美国的经验不符。这与中国特殊的社会环境造成的。由于中国长期以来实行严格的计划生育政策,是的中国出现了许多金字塔结构的家庭,许多家庭有多个老人只有一个青少年,使三代人的储蓄同时释放于房地产市场,所以老年抚养比的增加会使房价上升。个人住房公积金5年以上贷款利率、房地产企业土地购置面积与房价呈反相关,这也符合经济原理。M2(广义货币发行量)与GDP(国内生产总值)差值对数值与房价呈正相关,这表明货币发行量超过实际经济发展状况越多,房价上涨越高。函数型数据函数型数据(functionaldata)是,一个变量有多个有序观测的集合。例如,北京各个空气监测站点得到的PM2.5数据。由于建模时,可以把一个序列的观测转化为一个函数表示,故此得名。社会科学中常用的面板数据,生物中的纵向数据都是函数型数据的特例。函数型数据的特点:大量;光滑但复杂的过程;重复观测之间具有相似性;多维、高频。函数型数据一般处理方式:从离散型数据点转化为函数——基函数展开,正则化平滑处理(加罚)。曲线排齐(registration)描述与探索性分析——函数型主成分、函数型聚类、函数型微分分析。函数型数据儿童成长曲线建模——描述早期儿童成长模式特征,量化儿童成长迟缓的严重程度(ZhouJianhui,UniversityofVirginia)孟加拉国626名儿童;用函数主成分分析(fPCA)对前24个月的身高-年龄得分进行建模;基于几个主要的函数主成分(fPC)量化个体成长曲线与WHO标准之间的差异,并对个体成长迟缓的时刻进行检测;用线性模型找出与成长迟缓相关的风险因子。函数型数据拟合得到的个体身高曲线(a,b)和身高-年龄z得分曲线(c,d)。蓝色-男孩-270样本量,粉色-女孩-225样本量。粗线为男孩或女孩的相应均值曲线。函数型数据男孩(黑线)和女孩(灰线)身高-年龄得分曲线的前两个FPC。男女的FPC1均为负的,且随时间单调递减,反映了个体成长模式随时间远离均值的趋势。男孩的FPC2大致在第12个月变号,女孩大约在第14个月,说明男女成长轨迹的差异。男:FPC1,93%,FPC2,6%;女:FPC1,96%,FPC2,3%。函数型数据函数型数据量化成长迟缓:定义由WHO成长标准得到的参照曲线;基于身高-年龄得分,量化个体成长曲线与WHO参照曲线之间差异。首先,对严格按照WHO分位数成长的“假儿童”,对前24个月的18个等间隔时点的参照值与均值之间的差异做回归,估计出FPC1和FPC2得分,并定义为参照FPC得分。然后,用上述的参照FPC1得分的分位数将所有对象划分为5层,每层中的儿童都具有相似的成长模式。给定FPC1得分分层后,将个体FPC2得分减去对应的WHO参照FPC2得分,得到调整的FPC2得分,调整的FPC2得分与原FPC2得分直接相关连,又在分层中包含了FPC1得分的信息,度量了个体与参照之间的差异,因而可用来量化成长迟缓。调整的FPC2得分为正,则儿童身高-年龄得分相对于WHO标准呈下降趋势;正值越大,说明成长迟缓更严重。将调整的FPC2作为响应变量,与相关的风险因子做线性回归,如出生时的身高-年龄得分,身高和体重,母亲受教育程度,家庭大小,家庭月收入等等。函数型数据FPC1得分,FPC2得分,调整的FPC2得分的直方图。函数型数据风险因子与成长迟缓的线性回归模型估计:空间数据和网络数据空间数据空间数据是指由空间坐标或相对位置的数据。如疾病传播的空间模式,土壤受污染的空间分布,政府决策与邻国政策的关系等。空间统计就是对空间数据的估计和统计推断问题。其核心就是认识与地理位置相关的数据之间的空间依赖、空间关联等关系,通过空间位置建立数据间的统计关系。空间统计学依赖于地理学第一定律,即空间上越临近的事物拥有越强的相似程度;和空间异质性,即空间位置差异造成的行为不确定现象。例如在度量犯罪率与教育程度的关系时,不同地区(文教区、贫困区)可能不一样。空间数据分析包括空间点模式分析(流行病学,同质泊松过程,非同质泊松过程等);空间插值(地统计,克里金插值法,协同克里金法等);空间面数据分析(空间计量经济学,空间权重,空间自回归模型等);其他。空间数据空间叠加分析——指在统一空间参照系统条件下,将同一地区两个地理对象的图层进行叠加,以产生空间区域的多重属性特征,或建立地理对象之间的空间对应关系。空间合成叠加:同时具有几种地理属性的分布区域,或者,对叠加后形成的多重属性进行新的分类(左图)。空间统计叠加:提取某个区域范围内某些专题内容的数量特征(右图)。空间数据空间缓冲区分析——根据分析对象的点、线、面实体,自动建立它们周围一定距离的带状区,用以识别这些实体对邻近对象的辐射范围或影响度。根据主体对邻近对象作用性质不同分为线性、二次、指数模型(影响度随距离增加分别呈线性、二次、指数形式衰减)。空间数据空间网络分析:包括路径分析,资源匹配,地址编码等。目前,网络分析在电子导航、交通旅游、城市规划管理、以及电力通讯等各种官网管线的布局中发挥了重要作用。路径分析,最短路径分析,最小生成树等。空间数据空间统计分析图表分析,分布密度与均值,层次分析,判别分析。主成分分析——提取空间中有信息代表性的方向;系统聚类分析——按照地理特征对数据点或变量进行分类;属性数据的集中特征数——频率、平均值、中位数、众数等;属性数据的离散特征数——极差、离差平方和、方差和标准差、变异系数等。空间数据空间数据空间数据空间数据的其他分析方法:空间数据的量算——质心、几何、形状;空间数据的插值——用邻近节点的特征值表达未知节点的特征值,还有趋势面拟合技术、局部拟合技术,样条函数,克里金法;空间信息分类——主成分分析,系统聚类分析,层次分析,判别分析。空间数据京津冀地区空气污染与气象因素关联性分析空气质量在地域上存在一定的关联性,由此引入Moran’sI指数、空间权重矩阵和空间计量模型,在考虑空间相关性的基础上分析气象环境对空气质量的影响。数据包括北京市、天津市以及河北省的石家庄、唐山、秦皇岛、邯郸、保定、张家口、承德、廊坊、沧州、衡水和邢台共十一个地级市的空气污染数据和地面气象数据,时间跨度从2014年1月1日到2015年12月31日的逐日资料,样本点共730个。其中空气质量数据来自于中华人民共和国环境保护部数据中心,主要涉及京津冀共十三个城市的空气质量指数(AQI);地面气象数据包括温度、露点、海平面气压、能见度和风速,数据来源为美国国家海洋和大气管理局(NOAA)的地面气象资料数据集。空间数据京津冀地区空气污染与气象因素关联性分析计算2015年12月23日京津冀地区空气质量的Moran系数为0.458778,由散点图可以看出多数城市处于第1、3象限,据此可表现出,空气污染指数在京津冀各城市地区之间存在一定的空间正相关性空间数据京津冀地区空气污染与气象因素关联性分析建立空间滞后模型和空间误差模型空间数据京津冀地区空气污染与气象因素关联性分析建立空间滞后模型和空间误差模型京津冀地区的空气质量指数存在显著的空间效应,主要表现为地区空气质量指数模型误差项的相关性,空间相关系数数值较大,表明各地区误差项间有较强的空间依赖性。因此,仅采用传统模型进行分析会得到有偏的结果。网络数据网络数据是现实世界中最常用的数据类型之一。社交网络,交通网络,蛋白质交互网络,思维导图等等。最为常见的网络数据之一是社交网络数据。随着互联网的诞生和在线社交服务的发展,社交网络数据随处可见,如即时消息(QQ,微信等),在线社交(Facebook等),微博类(新浪微博,Twitter等),共享空间类(论坛,博客,YouTube等)中的各种网络数据。社交网络有着迅捷性、蔓延性、平等性与自组织性等四大特点。正因为这些特性,其在互联网出现的短短数十年内已经拥有数十亿用户并对现实社会的方方面面产生着影响。在2016年的美国总统大选中,特朗普很好地利用了推特作为宣传工具;而在国内,各类热点话题,如“中国锦鲤”,在社交网络上迅速发酵,并最终对现实社会产生影响,而且这种线上影响线下的趋势越来越明显。网络数据网络特性:小世界现象——小世界现象是指地理位置相距遥远的人可能具有较短的社会关系间隔。1967年,哈佛大学心理学教授StanleyMilgram通过信件投递实验,归纳并提出了“六度分割理论(SixDegreesofSeparation)”,即任意两个都可通过平均五个熟人相关联起来。1998年,DuncanWatts和StevenStrogatz在自然上发表文章CollectiveDynamicsof“Small-World”Networks,正式提出了小世界网络的概念并建立了小世界模型。2011年Facebook数据分析小组报告显示,Facebook约7.2亿用户中任意两个用户间的平均路径长度仅为4.74,而这一指标在推特中为4.67。就是说,在五步之内,任何两个网络上的个体都可以互相连接。无标度特性——大多数真实的大规模社交网络都存在着大多数节点只有少量边,少数节点有大量边的特点。网络缺乏一个统一的衡量尺度而呈现出异质性,将这种节点度分布不存在有限衡量分布范围的性质称为无标度。无标度网络表现出来的度分布特征为幂律分布,这就是此类网络的无标度特性。网络数据网络数据使得以往统计建模中的独立样本的假设不再成立,网络结构强调个体之间的相关性,而不仅仅是个体的特征。在社交网络中,常见的挖掘学习有社交网络抽取——从网页内容、用户交互日志、用户直接的社交信息来获得对象的关联关系,抽取构建社交网络;网络中心性分析——识别网络最重要的节点,如PageRank算法及其改进;社区发现——对一个社交网络内的节点判别其所属的社区,理解节点交互,作为其他任务的基础;分类——通过社交网络结构以及部分节点的类别标签,推测其他节点的类别标签;链接预测——给定社交网络,预测哪些节点之间相互连接(如Facebook的好友推荐);病毒式营销——寻找若干节点对象为其提供优惠,从而影响网络上的其他节点,使得收益最大化;网络建模——小世界效应,幂律分布,网络动力学建模等。网络数据分析-网络结构网络模型中的许多概念来自于图论。一个网络的生成基于两个集合,节点(Node)集合和连接(link)集合,它们决定了一个图(graph)。相互关联的节点组成的图结构便是网络结构。网络数据分析-网络结构网络模型中的许多概念来自于图论。一个网络的生成基于两个集合,节点(Node)集合和连接(link)集合,它们决定了一个图(graph)。相互关联的节点组成的图结构便是网络结构。网络数据分析-网络结构网络结构中常用的度量概念:度(degree):节点的度定义为与该节点相连的边的数目。在有向图中,所有指向某节点的边的数量叫做该节点的入度,所有从该节点出发指向别的节点的边的数量叫做该节点的出度。网络的平均度反映了网络的疏密程度,通过度的分布可以刻画不同节点的重要性。化除以最大可能连边数目i.e.(n-1)网络数据分析-网络结构网络结构中常用的度量概念:网络密度(density):定义为网络中实际存在的边的数量与可容纳边的数量上限的比值,网络密度可用于刻画节点间相互连边的密集程度,常用来测量网络中关系的密集程度及演化趋势。网络数据分析-网络结构网络结构中常用的度量概念:聚类系数(clusteringcoefficient):用于描述网络中与同一节点相连的节点之间也相互连接的程度。比如社交网络中一个人的朋友们之间也相互是朋友的概率,这反映了社交网络中的聚集性。网络数据分析-网络结构网络结构中常用的度量概念:介数(betweeness):图的任意可连接的两个点之间一定存在最短路径,某节点的介数是图中所有最短路径经过该节点的数量,反映了该节点在网络中的连接作用,用来评价节点的重要程度。网络数据分析-社区发现社区结构是复杂网络节点集合的若干子集,每个子集内部的节点之间连接相对紧密,而不同子集节点之间连接相对稀疏。在网络中发现社区有助于理解网络拓扑结构特点,揭示复杂系统内在功能特性,理解社区内个体关系。为信息检索、信息推荐、信息传播控制和公共事件管控提供有力支撑。网络数据分析-社区发现首先在社区发现算法中,我们无法事先确定社区的数目。类似无监督学习,我们需要一种度量指标来衡量算法过程中结果的好坏。目前已经存在很多社区发现算法,常用的评价指标是模块度(Modularity),反映在某节点上社区内部的边与所有边的比例。社区发现算法分为静态发现算法和动态发现算法。社区静态发现算法又分为基于模块度优化算法,基于概率模型的算法,信息编码算法等;社区动态发现算法包含派系过滤算法,基于相似度的聚合算法,标签传播算法,局部扩展优化算法等。Newman快速算法(Fastalgorithmfordetectingcommunitystructureinnetworks):一种贪婪算法,算法的基本思想是:首先将网络中的每个节点设为一个单独社区,然后选出使得模块度Q的增值最大的社区对进行合并;如果网络中的节点属于同一个社区,则停止合并过程。整个过程是自下向上的过程,最终得到一个树图,即树的叶子节点表示网络中的节点,树的每一层切分对应着网络的某个具体划分,从树图的所有层次划分中选择模块度值最大的划分作为网络的有效划分。网络数据分析-社区发现网络数据分析-社区发现Newman快速算法(Fastalgorithmfordetectingcommunitystructureinnetworks):网络数据分析-社区发现物理学家合作网络社区发现:基于arxiv.org上的文件记录;有合作发文章的科学家之间有连接关系;数据集包含56276位物理学家,涵盖archive上的所有物理学分支;Newman快速算法耗时42min计算出网络的社区结构,说明Newman快速算法对大型网络的处理能力效率较高。网络数据分析-社区发现物理学家合作网络社区发现:算法找出了现实世界中大约600个社区;模块度高达0.713。网络数据分析-社区发现社区发现面临的困难和挑战:社区的重叠性,存在某个节点同时属于多个社区的情况;网络的多模性,网络中具有不同类型的节点对象,如YouTube中用户、标签、发布视频数据构成的就是多模网络;网络的多维性,网络节点之间具有不同类型的连接方式,如相同的对象通过不同的社交APP联系在一起,Facebook,YouTube或者twitter;网络的动态性,静态网络不能很好的反映信息扩散同步等结构,而社区演化(社区形成、生长、缩减、合并、分裂、消亡等)问题是具有实际意义的。……网络数据分析-文本数据文本数据是典型的非结构化信息,它是在大多数情况下可产生的最简单的数据形式之一。人类可以轻松处理与感知非结构化文本,但机器显然很难理解。由于以各种形式(如社交网络、病历、医疗保障数据、新闻出版等)出现的文本数据数量惊人,设计出能有效处理各类应用中非结构化文本的方法就显得十分重要。网络数据分析-文本数据文本挖掘:自然语言处理(NaturalLanguageProcessing,NLP):自然语言处理是计算机科学、人工智能和语言学的子领域,旨在通过运用计算机理解自然语言。文本信息提取(InformationExtractionfromtext,IE):信息提取是从非结构化或半结构化文档中自动提取信息或事实的任务。文本摘要:许多文本挖掘应用程序需要总结文本文档,以便对大型文档或某一主题的文档集合做出简要概述。无监督学习方法(文本):无监督学习方法是尝试从未标注文本中获取隐藏数据结构的技术,例如使用聚类方法将相似文本分为同一类。监督学习方法(文本):监督学习方法从标注训练数据中学习分类器或推断功能,以对未知数据执行预测的机器学习技术。网络数据分析-文本数据文本挖掘:文本挖掘的概率方法:有许多种概率技术,包括无监督主题模型(如概率潜在语义分析模型(pLSA)与文档主题生成模型(LDA))和监督学习方法(如可在文本挖掘语境中使用的条件随机场)。文本流与社交媒体挖掘:网络上存在许多不同的应用程序,它们可以生成大量的文本数据流。观点挖掘与情感分析:随着电子商务和网络购物的问世,产生了大量的文本,并在不同的产品评论或用户意见上不断增长。生物医学文本挖掘:生物医学文本挖掘是指对生物医学科学领域的文本进行文本挖掘的任务。……网络数据分析-文本数据微博是现代网络社会沟通的重要工具,以新浪微博为例,很多大型零售商会建立自己主页,发布近期的打折、新品信息。但是,这些信息往往不能针对每个用户的喜好来发布,类似于广播一样,每一条微博是否对每个粉丝(用户)有意义,需要用户自己来过滤。但实际上,粉丝自身发布的微博含有大量的数据信息,这些信息包含用户的个人爱好,自己年龄阶段,近期的想购买的款式,甚至是自己希望有的款式与功能等。这些数据大多数为非结构数据。网络数据分析-文本数据网络数据分析-文本数据首先,客户发布微博:从微博上初步获取的数据为“粗数据”,虽然数据杂乱需要分析,但是其中包含很多用户自己“无意识”的为自己打上的标签,这为后续的语义分析打下了基础。粗数据中包括类似于:性格、年龄阶段、星座、性别、突出喜好,例如“粉红控”、“80后”、“篮球达人”等。掌握这些用户自定义的标签后,把这些作为用户肖像的一部分。其次,获取商家的粉丝:商家的粉丝包括关注商家微博的用户以及签到用户被提及的品牌粉丝等。这些粉丝的发布的微博便作为语义处理的输入。第三,分析用户的微博:将用户的微博进行语义分析。对中文进行分词,分词后将与字典进行比较和分类,然后对比总结出该用户的兴趣爱好所在,作为用户的一个标签,同时作为客户肖像的一部分。例如,一个用户的微博中经常提到类似于篮球、足球等运动,那么“爱运动”就及可能成为其标签,作为客户肖像的一部分。第四,指定相关营销策略:客户肖像制定后,存入数据库,并根据微博内容实时或定时更新客户肖像,根据客户的肖像,向用户推送相应的商品打折、优惠、最新上架产品信息。例如,用户的爱好中包括“运动”,并在微博中提到某品牌的运动鞋,那么可以向该用户推送该运动品牌的打折优惠信息或优惠券。最后,消费者便可使用消费券或根据打折信息购买相关产品。这样向用户推送的促销信息会更加符合用户近期的购买意愿和用户的个性特征,可以做到为每个用户个性定制的营销方案,使推送更有效。
/
本文档为【机器学习-时间序列-空间网络 - 副本】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。 本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。 网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
热门搜索

历史搜索

    清空历史搜索