为了正常的体验网站,请在浏览器设置里面开启Javascript功能!

基于深度学习的不完整大数据填充算法

2017-11-01 3页 doc 13KB 19阅读

用户头像

is_589748

暂无简介

举报
基于深度学习的不完整大数据填充算法基于深度学习的不完整大数据填充算法 基于深度学习的不完整大数据填充算法 随着互联网、社交网络及电子商务技术的兴起和发展,数据正以前所未有的速度增长。大数据的研究和应用时代己经到来。在大数据的采集和传输过程中,每个环节都可能出现故障,导致很多大数据集中存在着大量的缺失。大数据的不完整性为大数据的分析和处理带来巨大的挑战。因此,不完整数据的填充对大数据的分析和处理具有重要的意义。 近些年,国内外研究人员提出了很多不完整数据填充方法。包括基于最大期望的数据填充算法叫基于模糊聚类的填充算法以及基于最近邻对象的填充算法等。这些算法在...
基于深度学习的不完整大数据填充算法
基于深度学习的不完整大数据填充算法 基于深度学习的不完整大数据填充算法 随着互联网、社交网络及电子商务技术的兴起和发展,数据正以前所未有的速度增长。大数据的研究和应用时代己经到来。在大数据的采集和传输过程中,每个环节都可能出现故障,导致很多大数据集中存在着大量的缺失。大数据的不完整性为大数据的和处理带来巨大的挑战。因此,不完整数据的填充对大数据的分析和处理具有重要的意义。 近些年,国内外研究人员提出了很多不完整数据填充方法。包括基于最大期望的数据填充算法叫基于模糊聚类的填充算法以及基于最近邻对象的填充算法等。这些算法在填充小规模数据集方面取得了显著的效果。然而在填充不完整大数据方面,精度急剧下降。这是由于大数据存在着丰富的信息维度,而传统的数据填充算法不能体现大数据的深度特征。 针对这个问题,本文提出一种基于深度学习的不完整大数据填充算法。 2填充自动编码机 本文构建的深度填充网络以填充自动编码机为基础模块,从完整数据子集中随机采取一部分数据对象作为实例训练填充自动编码机的网络参数。在构造填充自动编码过程中,使用选中的数据对象模拟缺失数据对象,随机地将每个实例数据对象的部分属性值置,模拟不完整对象作为填充自动编码机的输入,通过最小化重构数据与实例原型来训练网路参数。 根据随机梯度下降算法,每当从数据集中选择一个实例进行训练,填充自动编码机首先随机地选择该实例的部分属性,将其属性值置。,得到一对数据,然后通过如下公式对自动编码机的权值进行一次更新。如此更新网络参数,直到整个网络趋于稳定。 3深度填充网络与数据填充 本文以填充自动编码机为基础模块,构建三层网络模型。每一层网络输出都将作为上一层网络的输入,最上层作为提取的特征输出。训练过程分为预训练和微调两个阶段。首先自下而上地进行逐层训练获得网络初始化参数,最终通过反向传播算法对全局参数进行微调。 为了获取网络逐层训练监督对象,首先利用实例数据作为输入构建叠加自动编码机,获得实例数据的两层特征。本文以未经处理的原始实例数据二作为网络输入,在最下层可获取第一层特征,把特征作为上一层网络的输入,获得第二层特征,该训练过程是局部的,即第二层 网络更新本层的网络权重,对下层网络没有影响。通过这种方式可以初始化叠层网络参数,最后通过反向传播算法对网络全局参数进行微调。如此能够获得对应于原始数据实例的两层特征。 从数据中逐一取出实例对深度实例网络进行训练,每训练一次,对网络参数进行一次更新,直到整个网络趋于稳定,获得最终的网络参数。在获得网络参数之后,本文首先抽取不完整数据集中每个数据对象的深度特征。对于不完整数据对象二而言,首先将其缺失属性的属性值置。 4实验分析 为了验证本文提出的算法(DLDBI)的有效性,将本文提出的算法和两种填充算法FIMUS和DMI进行对比。本文采用的数据集采自数字家庭与无线传感网络实验室,数据集总量达到10U每个数据对象包含650个数值属性。我们首先人为地从数据集中删除一部分数据,模拟不完整数据集,在填充完成之后,将填充值与真实值进行比较,得到算法的填充精度。 本文人工制造两种缺失值,单模式缺失和多模式缺失。在单模式缺失中,每个数据对象只允许含有一个缺失值,多模式缺失则允许每个数据对象含有多个缺失值。本文分别从数据集中选择15%和10%的数据对象并删除这些数据对象的部分属性值,模拟缺失数据。 本文使用两个标准来衡量算法的填充精度。第一个标准被称标准,该标准用于衡量填充值与真实值的匹配程度, 对于任何一种缺失组合,本文提出的算法所得到的都明显高于其他两种算法。除此之外,随着数据缺失率的增大,算法FIMUS和DMI所得到的都在下降,即这两种算法的填充精度随着数据缺失率的增大面降低。而本文提出的算法的填充精度一直保持在一个很高的水平之上。因此,本文提出的算法的填充精度明显高于FIMUS和DMI。 对于任何一种缺失组合,本文提出的算法所得到的RMSE都明显低于其他两种算法。随着数据缺失率的增大,算法FIMUS和DM所得到的RMSE不断升高,即这两种算法的填充精度随着数据缺失率的增大而降低。而本文提出的算法的得到的RMSE一直低。因此,就RMSE而言,本文提出的算法的填充精度明显高于FIMUS和DMI。 本文提出的算法填充精度相对比较稳定。具体的说,当数据缺失率在1%到10%之间,值能够稳定的保持在。此外,对于任意一种缺失率而言,单缺失模式的填充精度明显高于多缺失模型的填充精度,这是因为多填充模式缺失数据大,对 特征提取和还原造成的干扰高于单缺失模式。 5结束语 本文提出一种基于深度学习的不完整大数据填充算法,算法针对大数据具有丰富的信息维度,构建深度填充网络类提取大数据的深度特征,进而对缺失值进行还原。实验结果表明本文提出的算法能够有效的提高数据填充精度。在下一步工作中,探索如何提高多缺失模式下的数据填充精度。
/
本文档为【基于深度学习的不完整大数据填充算法】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。 本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。 网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。

历史搜索

    清空历史搜索