为了正常的体验网站,请在浏览器设置里面开启Javascript功能!

基于hadoop分布运算的智能推荐系统介绍

2012-08-28 18页 pdf 781KB 23阅读

用户头像

is_844750

暂无简介

举报
基于hadoop分布运算的智能推荐系统介绍 推荐系统 – 介绍和交流 1.0 -> 2.0 吴源林  wyl2000@gmail.com 186 0219 5030 http://v2000.info 目录 • 推荐系统1.0 • 推荐系统2.0 –推荐算法原理 –推荐系统:架构,软、硬件 –如何向用户进行推荐 – 营销、运营和交互设计 –推荐效果评估 推荐系统1.0 •A、B两家餐厅被客户预定的情况(人数) 支持度({A餐厅})= 90 支持度({B餐厅})= 20 支持度({A餐厅...
基于hadoop分布运算的智能推荐系统介绍
推荐系统 – 介绍和交流 1.0 -> 2.0 吴源林  wyl2000@gmail.com 186 0219 5030 http://v2000.info 目录 • 推荐系统1.0 • 推荐系统2.0 –推荐算法原理 –推荐系统:架构,软、硬件 –如何向用户进行推荐 – 营销、运营和交互设计 –推荐效果评估 推荐系统1.0 •A、B两家餐厅被客户预定的情况(人数) 支持度({A餐厅})= 90 支持度({B餐厅})= 20 支持度({A餐厅,B餐厅})= 15 可能性({A餐厅})= 90/100 = 0.9 可能性({B餐厅})= 20/100 = 0.2 可能性({A餐厅,B餐厅})= 15/100 = 0.15 可能性(A餐厅|B餐厅)=15/20=0.75 吃过B餐厅吃A餐厅的可能性 可能性 (B餐厅|A餐厅)=15/90=0.167 吃过A餐厅吃B餐厅的可能性 购物篮分析 缺点 • 餐厅-客户个性不能被体现 • 预订少的餐厅容易被剔除在外 • 马太效应:热门餐厅获得推荐机会更多 • 针对单个会员,推荐时机及餐厅变化相对少 推荐系统2.0 协同过滤算法 协同过滤(Collaborative Filtering),利用某兴趣相投、拥有共同经 验之群体的喜好来推荐使用者感兴趣的资讯。 • 收集使用者资讯 • 针对用户/项目的最近邻搜索 例如:要对餐厅A 和餐厅 B 进行相似性计算,要先找出同时对 A 和 B 打过分的组合,对这些组合进行相似度计算 • 产生推荐结果 利用会员的偏好,接合群体智慧,进行推荐 Item Based 算法 餐厅亲密度矩阵:两两餐厅,某种行为发生的频次(频次越大,则暗含这两家餐厅存 在某种相似性越高) X = 会员偏好向量:对所有餐厅的偏好度(如点评,下单数,访问数) 预测推荐:用亲密度矩阵和偏好向量进行计算 协同过滤算法 优点 • 解决机器难以自动进行内容分析的资讯 • 共用其他人的经验 • 推荐新资讯 • 个性化,自动化程度较高 缺点 • 新使用者问题(New User Problem) 系统开始时推荐品质较差 • 新项目问题(New Item Problem) 品质取决于历史资料集 • 稀疏性问题(Sparsity) • 系统延伸性问题(Scalability) 如何推荐? • 推荐体验设计 • 可能的推荐时机: – 网站|移动客户端|呼叫中心|EDM 除推荐物品的展示外,还有 推荐理由和反馈! 运算系统:单点 -> 分布 行业应用案例:Facebook FB日均处理: • 25亿 Facebook上分享的内容条数 • 27亿 “赞”的数量, • 3亿 上传照片数 • 500+TB 新产生的数据 • 105TB 每半小时通过Hive扫描的数据 • 100+PB(1PB=1024TB) 单个HDFS (分布式文件系统)集群中的磁盘容量 Facebook's data center in Forest City, N.C., started serving traffic April 19 “大数据的意义在于真正对你的 生意有内在的洞见。如果你不能 好好利用自己收集到的数据,那 你只是空有一堆数据而已,不叫 大数据。” http://news.cnet.com/8301-1023_3-57498531-93/facebook-processes-more- than-500-tb-of-data-daily/ DEMO 演示 数据源和同步 • 订单 • 点评 • 点击流 • GPS信息 • …… 数据同步 – Microsoft Sync Framework – FTP 推荐系 统 用户 网站 /CallCente r/Mobile APP 内容 编辑 效果评估 • 可能的商业产出指标: – 财务:点击率,转化率,订单增长 – 访问行为:点击量,访问深度,与搜索或分类目录比较 – 体验:用户满意度,净推荐者值(Net Promoter Score) 效果评估 • 方法:实验、调查和AB测试 – 预测准确度 – 覆盖率(对推荐餐厅长尾的发掘能力) – 多样性 – 新颖性 – 惊喜度 – 信任度 – 实时性 – 健壮性 • 缺陷: – 效果评估可能很难做到逻辑完善、结果公正,欠缺公认的定论 推荐阅读 谢 谢 吴源林  wyl2000@gmail.com 186 0219 5030 http://v2000.info
/
本文档为【基于hadoop分布运算的智能推荐系统介绍】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。 本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。 网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。

历史搜索

    清空历史搜索