为了正常的体验网站,请在浏览器设置里面开启Javascript功能!

企业级搜索托管平台介绍

2011-08-31 29页 ppt 2MB 32阅读

用户头像

is_002600

暂无简介

举报
企业级搜索托管平台介绍null企业级搜索托管平台介绍企业级搜索托管平台介绍Smith. 2008.3.26. 搜索技术中心.目录目录检索算法基础 搜索托管平台介绍 搜索托管平台展望 第一部分第一部分检索算法基础 基本概念 基本算法 算法难点 搜索托管平台介绍 搜索托管平台展望 检索算法基础-基本概念检索算法基础-基本概念正文数据库相关结果检索响应 检索 格式化DBDBDB检索数据库 (倒排数据库)检索算法基础-基本概念检索算法基础-基本概念 名词: Doc, 文档 Word, 词 Index Term, 索引项 DocID, 文...
企业级搜索托管平台介绍
null企业级搜索托管平台介绍企业级搜索托管平台介绍Smith. 2008.3.26. 搜索技术中心.目录目录检索算法基础 搜索托管平台介绍 搜索托管平台展望 第一部分第一部分检索算法基础 基本概念 基本算法 算法难点 搜索托管平台介绍 搜索托管平台展望 检索算法基础-基本概念检索算法基础-基本概念正文数据库相关结果检索响应 检索 格式化DBDBDB检索数据库 (倒排数据库)检索算法基础-基本概念检索算法基础-基本概念 名词: Doc, 文档 Word, 词 Index Term, 索引项 DocID, 文档ID WordID, 词ID Inverted Index, 倒排 Forward Sort, 顺排 Broker, 代理 Cache, 缓存(检索结果) Abstract, 摘要 Query Keywords, 检索串 检索算法基础-基本概念检索算法基础-基本概念问题1:信息如何表示? 信息的来源? Qzone.qq.com SINA.COM QQ Mail … … 如何表示? 对于非结构化信息,需要进行抽取、整理,转换成格式化信息; 格式化信息还需要进行过滤,去除无用信息,去噪; 最后表示为格式化文档, DataSrc := { Doc } * ; Doc := {DocID,{Text Field}*, {Num Field}*}* ; 例如: DocID := 46233597118 ; Text Field := { Title: 我的博客,Text: 今天封闭开发开始了, ……}; Num Field : = { 回复数:108,QQ Rank: Lv3, …… }; 检索算法基础-基本概念检索算法基础-基本概念问题2:倒排? 原始文档倒排索引倒排(invert sorting)检索算法基础-基本概念检索算法基础-基本概念问题3:检索? 奥运会词典倒排文件日程② ③ 奥运会日程① ④ ∧ 文档属性检索算法基础-算法的分解检索算法基础-算法的分解二分查找 HASH查找 快速排序 窗口排序 多路归并 平衡树 B+Tree SkipList … … 多级索引算法 数值压缩 Bitmap索引 路由分布算法 摘要提取算法 多级相关性排序算法 内存倒排算法 针对不同应用需求,选择简单、快速的算法;检索算法基础-常用算法检索算法基础-常用算法 问题1: 存储? GZip压缩正文,减小文档大小; 通过路由算法进行分布式存储; 平滑扩容,通过少量数据的搬迁; DOCID索引+顺序文件; 通过定期整理完成删除; 通过大小库完成数据的同步; 检索算法基础-常用算法检索算法基础-常用算法 问题2: 索引? 索引过程分为以下几步 切词,通过中文分词算法, Doc:={word string}*; 建立词典,HASH 或 顺序,完成文本到编码的转换; Dict := {WordID, String}*; 顺排,计算Doc内部的词的排序信息,Doc:={WordID,pos,weight}*; 倒排; WordID := {DocID,Weight,Pos}*; 检索算法基础-常用算法检索算法基础-常用算法问题3: 检索? 获取用户的检索串; 对检索串进行分词; 将检索串分解为词的and,or,not关系的复合; 分别读出倒排,进行and,or,not的计算; 进行相关性排序,返回top n的结果给用户。ORANDAND下载腾讯腾讯搜索检索算法基础-常用算法检索算法基础-常用算法 问题4: CACHE? 用户检索的几个特征 63%的用户只浏览检索结果第一页; 96%的用户只浏览检索结果前三页; Cache的对象 Search results Invert files Block 三级cache Top 10000热门查询放内存cache; 余下的查询按照LRU策略放硬盘; 倒排cache策略;检索算法基础-常用算法检索算法基础-常用算法问题5: 排序? 文档的内部属性 词频、词性 位置、区域 格式、颜色 文档的外部属性 重要程度 重复度 引用数 URL 评论 文档的关系属性 Anchor Text Link关系 文档的用户属性 用户login行为分析 用户检索行为特征 用户的本地方信息特征检索算法基础-常用算法检索算法基础-常用算法问题6: 压缩? 压缩的基本思想: 以Bit作为存储的单位; 高频使用较短的位表示,低频使用较长的位表示; 有序整数序列,距离; 对于稀疏序列的压缩;检索算法基础-常用算法检索算法基础-常用算法问题7: 分布式? 文档分布,分解索引量的问题; 语素分布,分解检索计算量的问题; 检索算法基础-常用算法检索算法基础-常用算法正文库属性库顺排库倒排库检索集群Cache代理集群APACHE检索算法基础-算法难点检索算法基础-算法难点未来的一些挑战 硬件成本过高; 应对数据量激增; 排序的难度、个性化; 快速与精确的权衡; 新介质技术的应用; 个性化的搜索; 第二部分第二部分检索算法基础 搜索托管平台介绍 项目背景 平台介绍 搜索托管平台展望 项目背景项目背景支持R线如下项目 X.qq.com 漩涡下载搜索系统 V.qq.com video视频搜索 Taotao.com 滔滔搜索 QQ client 消息搜索 支持互联网线如下项目 QZone qzone博文搜索 QZone 个人档案搜索 QQ Show 商品搜索 QQ Photo 相册搜索 QQ Live 节目搜索 Paipai.com 商品检索 项目背景-问题项目背景-问题问题原因办法沟通成本1.尽可能减少沟通环节; 2.站在公司的角度统一规划各种专项搜索的实施节奏; 3.由一个团队来主要完成大部分事情,减少接口,简化;1. 部门间合作流程复杂,沟通环节较多; 2.. 问题解决的成本较高; 3. 大家理解问题的角度、背景不一样,需求变化大。 1. 合并相同、类似需求,在一个系统中加载多业务数据; 2.定期提供升级、优化的版本,提高用户体验; 3. 对Log,数据源特征进行挖掘,迭代优化排序效果、检索特性。 4. 对搜索相关服务质量(排序、速度、用户检索Log与质量)的持续跟进; 1.技术中心同事疲与应付各种需求的变更; 2.排序、存储、速度、优化没有空隙时间去做;服务质量1. 没有简单的办法能彻底避免工作量,但统一存储、计算、提供能大大缩减开发工作量; 2. 尽可能复用OM系统,这些小系统有很大的相似度; 3. 稳定、复用核心算法,花少部分人力解决维护、算法中相似但不相同的细节问题;1.数据源没有集中存储,变更不可控,带来额外工作量; 2.系统复用度低; 3. 周边的小系统太多;工作量1. 针对一些搜索服务,硬件资源可以复用; 2. 周边的OM系统,可以搭建好平台提供给多个业务使用; 3. 从平台系统的角度对架构与资源进行优化,减少硬件资源的使用,降低TCO成本。1.一些搜索数据量、PV较低的业务,还有一些辅助系统占有了较多服务器; 2. 备份、容灾系统的冗余太多;硬件成本搜索托管平台介绍搜索托管平台介绍检索服务托管数据存储托管服务升级托管维护、更新托管搜索托管平台介绍搜索托管平台介绍搜索托管平台介绍搜索托管平台介绍服务控制单元索引、加载单元协议接口控制单元Cache代理单元数据存储单元分布式检索单元内存检索单元主要功能单元分析日志分析单元运营维护单元第三部分第三部分检索算法基础 搜索托管平台介绍 搜索托管平台展望 搜索托管平台展望-流程搜索托管平台展望-流程收集需求托管支持统一维护排序改进搜索托管平台展望-流程搜索托管平台展望-流程新需求开发维护与支持服务 质量改进服务、运营质量改进维护与支持新需求 开发搜索托管平台展望-计划搜索托管平台展望-计划 以托管的方式继续支持公司内新的专项搜索项目,群搜索,QZone搜索2.0,新版video搜索,新版漩涡搜索。 托管平台1.0、部分开发完成。重点是运营维护单元、数据存储单元、协议接口单元。 托管平台运维质量控制流程、新项目开发流程、新特性升级等接口流程实践。 团队建设:补充相应的前台开发、后台开发、日志分析、系统运维人员。 平台2.0版本设计与开发.重点是排序优化,日志的挖掘,与应用系统接口的简化等。 为paipai等关键重要业务提供健壮的搜索提供托管式检索服务。 开始对腾讯内部重点数据进行分析、整理,为网页搜索补充腾讯内部各重点数据。 Q1-Q2Q3Q4 完成现有主要支持项目到到托管平台的迁移。 托管平台1.0全部开发测试完成。包括通用的内外存索引、检索单元,排序单元。 托管平台各项工作流程化。 开始研究与采用Login后检索的体验,进行用户行为分析,包括有商业价值的数据与流量的分析。 null谢谢各位
/
本文档为【企业级搜索托管平台介绍】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。 本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。 网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。

历史搜索

    清空历史搜索