基于hadoop分布运算的智能推荐系统介绍
推荐系统 – 介绍和交流
1.0 -> 2.0
吴源林
wyl2000@gmail.com 186 0219 5030
http://v2000.info
目录
• 推荐系统1.0
• 推荐系统2.0
–推荐算法原理
–推荐系统:架构,软、硬件
–如何向用户进行推荐 – 营销、运营和交互设计
–推荐效果评估
推荐系统1.0
•A、B两家餐厅被客户预定的情况(人数)
支持度({A餐厅})= 90
支持度({B餐厅})= 20
支持度({A餐厅...
推荐系统 – 介绍和交流
1.0 -> 2.0
吴源林
wyl2000@gmail.com 186 0219 5030
http://v2000.info
目录
• 推荐系统1.0
• 推荐系统2.0
–推荐算法原理
–推荐系统:架构,软、硬件
–如何向用户进行推荐 – 营销、运营和交互设计
–推荐效果评估
推荐系统1.0
•A、B两家餐厅被客户预定的情况(人数)
支持度({A餐厅})= 90
支持度({B餐厅})= 20
支持度({A餐厅,B餐厅})= 15
可能性({A餐厅})= 90/100 = 0.9
可能性({B餐厅})= 20/100 = 0.2
可能性({A餐厅,B餐厅})= 15/100 = 0.15
可能性(A餐厅|B餐厅)=15/20=0.75 吃过B餐厅吃A餐厅的可能性
可能性 (B餐厅|A餐厅)=15/90=0.167 吃过A餐厅吃B餐厅的可能性
购物篮分析
缺点
• 餐厅-客户个性不能被体现
• 预订少的餐厅容易被剔除在外
• 马太效应:热门餐厅获得推荐机会更多
• 针对单个会员,推荐时机及餐厅变化相对少
推荐系统2.0
协同过滤算法
协同过滤(Collaborative Filtering),利用某兴趣相投、拥有共同经
验之群体的喜好来推荐使用者感兴趣的资讯。
• 收集使用者资讯
• 针对用户/项目的最近邻搜索
例如:要对餐厅A 和餐厅 B 进行相似性计算,要先找出同时对 A 和 B
打过分的组合,对这些组合进行相似度计算
• 产生推荐结果
利用会员的偏好,接合群体智慧,进行推荐
Item Based 算法
餐厅亲密度矩阵:两两餐厅,某种行为发生的频次(频次越大,则暗含这两家餐厅存
在某种相似性越高)
X =
会员偏好向量:对所有餐厅的偏好度(如点评,下单数,访问数)
预测推荐:用亲密度矩阵和偏好向量进行计算
协同过滤算法
优点
• 解决机器难以自动进行内容分析的资讯
• 共用其他人的经验
• 推荐新资讯
• 个性化,自动化程度较高
缺点
• 新使用者问题(New User Problem) 系统开始时推荐品质较差
• 新项目问题(New Item Problem) 品质取决于历史资料集
• 稀疏性问题(Sparsity)
• 系统延伸性问题(Scalability)
如何推荐?
• 推荐体验设计
• 可能的推荐时机:
– 网站|移动客户端|呼叫中心|EDM
除推荐物品的展示外,还有 推荐理由和反馈!
运算系统:单点 -> 分布
行业应用案例:Facebook
FB日均处理:
• 25亿 Facebook上分享的内容条数
• 27亿 “赞”的数量,
• 3亿 上传照片数
• 500+TB 新产生的数据
• 105TB 每半小时通过Hive扫描的数据
• 100+PB(1PB=1024TB) 单个HDFS
(分布式文件系统)集群中的磁盘容量
Facebook's data center in Forest City, N.C., started serving traffic
April 19
“大数据的意义在于真正对你的
生意有内在的洞见。如果你不能
好好利用自己收集到的数据,那
你只是空有一堆数据而已,不叫
大数据。”
http://news.cnet.com/8301-1023_3-57498531-93/facebook-processes-more-
than-500-tb-of-data-daily/
DEMO 演示
数据源和同步
• 订单
• 点评
• 点击流
• GPS信息
• ……
数据同步
– Microsoft Sync Framework
– FTP
推荐系
统
用户
网站
/CallCente
r/Mobile
APP
内容
编辑
效果评估
• 可能的商业产出指标:
– 财务:点击率,转化率,订单增长
– 访问行为:点击量,访问深度,与搜索或分类目录比较
– 体验:用户满意度,净推荐者值(Net Promoter Score)
效果评估
• 方法:实验、调查和AB测试
– 预测准确度
– 覆盖率(对推荐餐厅长尾的发掘能力)
– 多样性
– 新颖性
– 惊喜度
– 信任度
– 实时性
– 健壮性
• 缺陷:
– 效果评估可能很难做到逻辑完善、结果公正,欠缺公认的定论
推荐阅读
谢 谢
吴源林
wyl2000@gmail.com 186 0219 5030
http://v2000.info
本文档为【基于hadoop分布运算的智能推荐系统介绍】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑,
图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。