为了正常的体验网站,请在浏览器设置里面开启Javascript功能!

综合搜索引擎与垂直搜索引擎的比较研究

2013-05-09 6页 pdf 497KB 24阅读

用户头像

is_607086

暂无简介

举报
综合搜索引擎与垂直搜索引擎的比较研究 综合搜索引擎与垂直搜索引擎的比较研究 刘 畅 (北京大学 信息管理系 , 北京 100871) 摘  要 : 搜索引擎是目前互联网信息服务的主要工具 , 它的竞争也日趋激烈 , 搜索引擎的信息服 务也逐渐引起重视。本文从信息服务的角度出发 , 通过对综合搜索引擎与垂直搜索引擎在信息服 务各个要素方面的比较 , 找出它们之间的竞争与合作的关系 , 为当前的搜索引擎发展做出初步的 分析。 关键词 : 搜索引擎 ; 垂直搜索引擎 ; 信息服务 ; 比较研究 中图分类号 : G250173    文献标识码 :A    文章编号...
综合搜索引擎与垂直搜索引擎的比较研究
综合搜索引擎与垂直搜索引擎的比较研究 刘 畅 (北京大学 信息管理系 , 北京 100871) 摘  要 : 搜索引擎是目前互联网信息服务的主要工具 , 它的竞争也日趋激烈 , 搜索引擎的信息服 务也逐渐引起重视。本文从信息服务的角度出发 , 通过对综合搜索引擎与垂直搜索引擎在信息服 务各个要素方面的比较 , 找出它们之间的竞争与合作的关系 , 为当前的搜索引擎发展做出初步的 。 关键词 : 搜索引擎 ; 垂直搜索引擎 ; 信息服务 ; 比较研究 中图分类号 : G250173    文献标识码 :A    文章编号 :1007 - 7634 (2007) 01 - 0097 - 06 Comparative Study on Vertical and Comprehensive Search Engines LIU Chang ( Department of Information Management , Peking University , Beijing 100871 , China) Abstract : Search engine is one of the most important tools of information service on the Internet . As its much improvement these years , its service functions are paid more attention to. In this article , we will compare the vertical search engines and comprehensive search engines on the perspective of information service mode , find out their relationship and then give some suggestion on the vertical search engine’s development in the fu2 ture. Key words : search engine ; vertical search engine ; information services ; comparative study 收稿日期 : 2006 - 09 - 02 作者简介 : 刘  畅 (1983 - ) , 女 , 黑龙江人 , 硕士研究生 , 从事信息资源管理研究. 1  两种搜索引擎的基本介绍 搜索引擎主要指利用网络自动搜索技术软件或 人工方式 , 对 Internet (主要是 Web) 网络资源进行 收集、整理与组织 , 并提供检索服务的一类信息服 务系统。鉴于网络信息资源的海量规模 , 网络资源 的采集方式以自动方式 (robot) 为主。根据数据收 录范围不同 , 可以将搜索引擎分成综合搜索引擎和 垂直搜索引擎 , 下面就对这两种搜索引擎进行简单 的介绍。   111  综合搜索引擎 综合搜索引擎是相对于垂直搜索引擎而定义 的 , 它就是我们传统意义上的搜索引擎 , 它的资源 包罗万象 , 用户可以通过在检索栏中输入检索词来 检索几乎任何类型、任何主题的资源。但是由于它 收录的资源范围广 , 死链接较多、相关度较低等缺 点 , 人们提出了垂直搜索引擎。   112  垂直搜索引擎 垂直搜索引擎【1】 , 也被称为专业或专用搜索引 第25卷第1期 2007 年 1月 情 报 科 学 Vol. 25 , No. 1 January , 2007 擎 , 就是专为查询某一个学科或主题的信息而产生 的查询工具 , 专门收录某一方面、某一行业或某一 主题的信息 , 在解决某些实际查询问题的时候比综 合搜索引擎较有效。 具体而言 , 垂直搜索引擎就是对网页库中的某 类专门的信息进行一次整合 , 定向分字段抽取出需 要的数据 , 进行处理后再以某种特定形式返回给用 户 , 它是搜索引擎的细分和延伸。 垂直搜索引擎和普通的网页搜索引擎的最大区 别是对网页信息进行了结构化信息抽取 , 也就是将 网页的非结构化数据抽取成特定的结构化信息数 据。如果说网页搜索是以网页为最小单位 , 而垂直 搜索是以结构化数据为最小单位。将这些数据存储 到数据库 , 进行进一步的加工处理 , 如 : 去重、分 类等 , 最后分词、索引 , 最终以对结构化数据的搜 索的方式满足用户的信息需求。整个过程中 , 数据 由非结构化数据抽取成结构化数据 , 经过深度加工 处理后以非结构化的方式和结构化的方式返回给用 户。 垂直搜索引擎的应用领域很多 , 比如找工作的 搜索、旅游搜索、医药搜索、图书搜索、购物搜索 ⋯⋯几乎各行各业各类信息都可以进一步细化成各 类的垂直搜索引擎。目前中文垂直搜索引擎也已经 出现了很多 , 比如找工作的搜索引擎 : 深度搜索引 擎 ( http : ΠΠwww1deepdo1com) , 旅游搜索 : 去哪儿 搜索引擎 (http : ΠΠwww1qunar1com) 等。 垂直搜索引擎与综合搜索引擎相比 , 其信息服 务模式有所变化 , 它更加注重信息的专深性 , 更体 现“以人为本”的理念。综合搜索引擎好比是“超 市”, 其经营商品无所不包 , 可以查询所有网站上 的信息 ; 垂直搜索引擎则好比是“家具城”、“电脑 城”, 提供专项服务【2】。下面就着重分析两种搜索 引擎的信息服务的异同。 2  两种搜索引擎的具体比较 从前面的介绍可以看出 , 综合搜索引擎和垂直 搜索引擎都是帮助网络用户查找网络相关信息的工 具 , 这是它们最重要的相同点。它们的不同点很 多 , 当我们把它们看成两种信息服务活动的时候 , 我们就可以将它们分解成各个要素进行比较分析。 在这部分中 , 主要根据信息服务过程中的四个要 素 : 服务者、服务对象、服务内容和服务策略【3】。 其中主要从后三者 , 即服务对象、服务内容、服务 策略的角度 , 出两种搜索引擎对用户提供的服 务模式的区别 , 从而总结初用户对服务者 (两种搜 索引擎) 不同的发展方式的要求。   211  信息服务用户比较 搜索引擎的主要作用是帮助用户查找网上的各 种信息 , 因此 , 总的来说 , 搜索引擎的用户就是互 联网上的有信息查找需求网民。那么对于这两种不 同类型的搜索引擎 , 它们的用户也是包含在其中 的。 (1) 传统的综合的搜索引擎 , 就是为网民提供 一个检索的入口 , 提供整个互联网上与用户提问相 关各种网页信息 , 然后用户自己判断结果中的信息 哪些是相关的 , 哪些是不相关的。 (2) 垂直的搜索引擎 , 用户有明确的信息需 求 , 同时这种信息需求可以界定在某一个特定范围 内 , 并且满足其信息需求的信息产品是特定形式的 组织化的信息 , 它提供的结果都是与用户需求相关 的 , 用户不用自己再进行分析和判断。 另外 , 从对关键字的选择上可以看出两者的差 异。垂直搜索引擎对用户关键字的选择要求很简 单 , 直接输入要查找的产品名称即可得到 ; 而综合 搜索引擎则要求用户对自己的信息需求很明确 , 并 且完整、准确的达在搜索栏中 , 搜索引擎才能够 提供一定的相关信息 , 并且要求用户自行对每一个 信息的相关度进行判断。 一般说来 , 综合搜索引擎对用户的要求相对较 高 , 在搜索的过程中 , 需要有用户对自己需求的不 断调整的过程 ; 垂直搜索引擎对用户的要求较低 , 直接输入产品名称即可。另外 , 由于垂直搜索引擎 的知名度没有综合搜索引擎高 , 很多网络用户还不 知道如何登陆这些垂直搜索引擎 , 所以垂直搜索引 擎的用户人群比综合搜索引擎小的多 , 并且目前来 说 , 垂直搜索引擎的用户没有从综合搜索引擎中独 立出来 , 仅仅是其中的一小部分。 从信息服务的用户角度比较 , 两种搜索引擎的 区别可以用表 1 表示 : 表 1  两种搜索引擎的用户比较 用户数量 用户对需求的描述 综合搜索引擎 大 不明确 垂直搜索引擎 小 明 确   垂直搜索引擎的用户人群虽然目前很小 , 但 是从长期发展的角度来看 , 还是它将会吸引相当一 部分综合搜索引擎的用户到自己的产品上。目前的 89 情  报  科  学                   25卷 发展就要求垂直搜索引擎进一步优化自己的服务 , 吸引更多的用户使用 , 并逐渐让他们成为自己产品 的固定用户。   212  信息服务内容比较 信息服务内容是指信息服务者在信息服务活动 中为用户提供的特定的服务和产品【4】。对于搜索引 擎而言 , 为用户提供的内容就是搜索结果。两种搜 索引擎都可以提供与用户提交检索式相关的网上检 索结果 , 但是它们存在很大区别。为了直观的说明 问题 , 下面选取百度搜索引擎和搜狗购物搜索分别 代表两种搜索引擎 , 对它们的检索结果进行对比。 图 1  百度检索“三星 CDMA 手机”的结果页面 图 2  搜狗购物搜索“三星 CDMA  手机”的结果页面 从图 1 和图 2 两个搜索结果的页面来看 , 可以 发现两种搜索引擎的结果的标题中都有漂红 (在搜 索引擎中 , 漂红的意思就是与检索词相同的结果用 红色表示) , 也就是说它们都是与检索式相关的 , 但是它们无论在内容还是形式上 , 都有很大差别。 (1) 搜索结果的形式不同。①综合搜索引擎提 供的搜索结果是网页链接 , 其中匹配的原则是网页 描述与关键字的相关度。②垂直搜索引擎提供的搜 索结果是结构化的数据 , 几乎不需要用户具体打开 网页就可以断定是否是自己需要的结果。 (2) 搜索结果的排列方式不同。①综合搜索引 擎是按照系统设定的排序算法 , 自动根据相关性将 网页排列 , 它的用户不能自主选择排列方式 , 只能 被动的接受搜索引擎的排列顺序。②垂直搜索引擎 的排列方式可以由用户设定 , 在上面例子的购物搜 索引擎中 , 用户可以自主的选择按照相关度的高 低、按照价格的高低、价格的范围或网上商店等多 种方式进行排序。这为用户更好的找到需求的信息 很有帮助。 (3) 搜索结果的查全率和查准率不同。综合搜 索引擎的结果经常是数量巨大的 , 而垂直搜索引擎 因为检索的网站数目有限 , 所以检索结果的数量也 维持在几百个左右。如上面的例子中 , 百度搜索引 擎的搜索结果有 3130000 篇 , 而搜狗购物搜索的搜 索结果是 261 个。从这个数量上可以看出 , 综合搜 索引擎的结果覆盖面比较广 , 而垂直搜索引擎的覆 盖面相对有限。 但是 , 从查准率的角度看 , 垂直搜索引擎的准 确率很高 , 几乎可以达到 90 %以上。因为这些特 定的信息都是在特定的相关网站上查找的 , 所以可 以保证它的准确性。但是对于综合搜索引擎而言 , 因为搜索引擎在广泛的互联网上查找 , 另外用户也 不可能准确的表达信息需求 , 所以准确率相对比较 低。 (4) 搜索结果的描述内容不同。①综合搜索引 擎在搜索结果中提供描述的内容包括标题、描述、 url 链接三个部分。其中对网页的描述是非人工干 预的 (除了参与了竞价排名广告的网页描述) , 所 以这些描述更多的是当前 URL 链接上的网页整体 内容的介绍 , 而不是针对用户检索的特定信息的介 绍。②垂直搜索引擎在搜索结果的描述针对性很 强 , 从多个角度描述用户查找的特定信息。比如在 上面的购物搜索引擎中 , 就列出了产品名称、价 格、图片、网上商城的来源、规格参数、颜色、尺 寸、功能等等与用户查找的产品密切相关的信息。 这样 , 用户几乎不需要点击链接就可以直接判断哪 条检索结果是最需要的信息。 总之 , 两种搜索引擎在信息服务内容上的不同 可以用表 2 表示。   213  信息服务策略比较 信息服务策略指的是信息服务活动中的服务方 式和手段的组合和运用。在这两种搜索引擎中 , 服 务方式存在很多共性 , 在服务手段上存在着很大差 异。下面逐个进行分析。 991 期             综合搜索引擎与垂直搜索引擎的比较研究 表 2  两种搜索引擎的信息服务内容比较 搜索结果的形式 搜索结果的排列方式 搜索结果的查全率 搜索结果的查准率 搜索结果的描述内容 综合搜 索引擎 网页的简单描述和链 接 系统设定的相关度排 序算法 数量巨大 相对较低 标题、描述、url 链接 垂直搜 索引擎 结构化的数据 可以由用户设定 有限 ,最多几百个 很高 ,可以达到 90 % 以上 产品密切相关的全部 信息    (1) 从服务者的能动性方面。两种搜索引擎 都是被动服务方式 , 即都是在用户提出服务请求之 后 , 搜索引擎才采取策略展开服务。 (2) 从提供服务的时间方面。两者在返回结果 的时间上存在差异。虽然前面谈到垂直搜索引擎的 结果数量相对于综合搜索引擎来说少的多 , 但是它 的返回时间一般比综合搜索引擎长很多。在前面谈 到的例子中 , 百度的返回时间是 01001 秒 , 而搜狗 购物的返回时间是 01008 秒。虽然它们给出的时间 都非常短 , 但是对于用户来说 , 已经习惯了综合搜 索引擎的快速反应 , 对于垂直搜索引擎的反应速度 是可以觉察到的。所以垂直搜索引擎需要在返回时 间上加强。 (3) 从信息服务产品经营方面。两种搜索引擎 目前都是无偿服务 , 即对搜索信息的用户而言是免 费的服务。它们的主要盈利来自网络广告 , 即在其 网站上登载相关网站的广告。 (4) 从服务者与用户在服务活动中的空间距离 方面。两种搜索引擎均为远程服务 , 即用户在自己 的电脑上输入检索要求 , 搜索引擎通过网络将检索 结果返回到用户的电脑上。 两种搜索引擎都是运用网络搜索技术对网页进 行抓取和分析 , 并整理成用户可以浏览的形式展现 给用户。但是在运用具体的技术方面有所差异。 (1)综合搜索引擎是在整个互联网的网页中查 找信息。依赖于搜索技术 ,抓取、索引、排序等技术。 (2) 垂直搜索引擎只在特定主题的网站上查 找 , 然后要对这些非结构化的信息进行提取。以购 物搜索引擎为例 , 搜索引擎的 Spider 抓取网页后 , 对网页商品信息进行抽取 , 抽取出商品名称、价 格、简介 ⋯⋯然后对信息进行清洗、去重、分类、 分析比较、数据挖掘 , 最后通过分词索引提供用户 搜索、通过分析挖掘提供市场行情。它应用的 主要技术包括 spider、网页结构化信息抽取技术、 元数据采集技术、分词技术、索引技术等信息处理 技术 (举例阿里巴巴、淘宝、易趣) 。 总之 , 两种搜索引擎在信息服务策略上的比较 可以用表 3 表示。 表 3  两种搜索引擎的信息服务策略比较 服务者的能动性 提供服务的时间 信息服务产品经营 服务者与用户的空间距离 服务手段 (网络搜索技术) 综合搜索引擎 被动 较短 无偿 远程服务 搜索技术 ,抓取、索引、排序等技术 垂直搜索引擎 被动 较长 无偿 远程服务 抓取、网页结构化信息抽取技术、元数 据采集技术、分词技术、索引技术等   214  信息服务模式比较 这里谈到的信息服务模式 , 主要指的是搜索引 擎与用户交互的方式 , 即用户在使用搜索引擎查找 信息时对搜索引擎的操作、反馈、再使用的过程模 式。通过对服务模式的比较 , 可以看出不同种类的 搜索引擎与用户之间的紧密度。 (1) 综合搜索引擎用户需要在对搜索结果的浏 览中 , 不断调整自己的提问要求 , 逐渐找到相对准 确的需求表达式。 (2) 垂直搜索引擎的用户只需要一次输入关键 字 , 就可以准确的找到需要的信息 ; 如果这种信息 没有被查找到 , 用户就没有办法来解决 , 因为没有 其它的检索词可以更换 , 只能选择更换另外的一种 搜索引擎 , 来扩大检索范围。 这两种搜索引擎的服务模式可以图 3 和图 4 所 示。 通过图 3 和图 4 分析 , 我认为垂直搜索引擎应 该在与用户交互方面加强 , 如果仅仅提供与综合搜 索引擎相似的结果返回服务是不够的 , 需要进一步 考虑如果搜索的信息不够全面 , 用户在没有得到信 息需求的满足的时候可以与搜索引擎如何进行交互 等方面 , 培养用户对垂直搜索引擎的使用习惯和技 巧 , 才能吸引更多的用户。 001 情  报  科  学                   25卷 图 3  综合搜索引擎的服务模式   图 4  垂直搜索引擎的服务模式   215  总结 前面从信息服务用户、信息服务内容、信息服 务策略、信息服务模式四个方面比较分析了综合搜 索引擎和垂直搜索引擎。虽然这两种搜索引擎都被 称为网络搜索引擎 , 并且都是为网络用户提供信息 查询服务 , 但是它们在信息服务过程中有很多区 别。因为垂直搜索引擎是在搜索引擎的基础上发展 起来的 , 可以从一定程度上弥补综合搜索引擎的不 足 , 通过上面的比较 , 可以把垂直搜索引擎具有的 特征总结成以下几点 : (1) 用户群体没有固定。虽然垂直搜索引擎已 经出现了一段时间 , 但是它的普及率没有综合搜索 引擎高 , 也是跟它处于发展的初期 , 没有形成 的服务有关。但是可以肯定的是垂直搜索引擎的用 户一般也是综合搜索引擎的用户 , 它需要在综合搜 索引擎不能为用户提供服务的方面增强服务。 垂直搜索引擎可以通过预测未来的用户群体 , 及其特征 , 在发展初期将各种服务规范化 , 才能更 快更有效的吸引用户。 (2) 信息查询来源相关性高、信息量有限。垂 直搜索引擎搜索的范围不是整个互联网 , 只是某个 地区的某些特定信息提供的网站 (或者称为垂直网 站) 上查找信息。所以导致它的信息量有限 , 但是 相关性非常高。因为垂直搜索引擎选取的网站都是 经过筛选的 , 所以出现垃圾信息的情况很少。 在这种情况下 , 垂直搜索引擎应该充分发挥自 身查准率高的优势开展各种信息服务。 (3) 信息查询结果的形式丰富多样。垂直搜索 引擎的搜索结果经过元数据的提取和结构化的处 理 , 所以它可以根据处理中产生的各个特征变量对 搜索结果进行排序 , 如信息来源的网站、信息的本 身的各种特征等等。另外 , 搜索结果的数量不是很 大 , 也有利于垂直搜索引擎可以开展各种个性化服 务。 (4) 与用户的交互性有待提高。从前面搜索引 擎的信息服务模式图上可以看出 , 用户在使用综合 搜索引擎时 , 虽然查准率不是很高 , 但是用户可以 与搜索引擎做各种交互 , 比如增加检索词的个数、 或更换新的检索词来逐步找到检索结果。这对于搜 索引擎用户也是一个很好的体验。但是垂直搜索引 擎如果没有满足用户的信息需求 , 用户很难再更换 其它的检索词与该搜索引擎进行交互 , 所以用户只 能选择其它的搜索工具。   3  综合搜索引擎与垂直搜索引擎 的关系及其发展趋势   垂直搜索引擎从诞生开始就被人们关注 , 从 理论上来说 , 它的查准率也比综合搜索引擎高的 多。但是事实上 , 直到现在也没有哪个垂直搜索引 擎的名气能够与综合搜索引擎相比 , 这其中可能的 1011 期             综合搜索引擎与垂直搜索引擎的比较研究 问题会有哪些 , 前面通过对垂直搜索引擎与综合搜 索引擎在信息服务方面的比较 , 可以发现 , 垂直搜 索引擎在信息服务方面还有待深入和加强 , 才能在 未来的发展和竞争中取得优势。在上面的比较分析 基础上 , 我对垂直搜索引擎未来发展方向 , 以及它 与综合搜索引擎的关系提出一些初步的建议。 (1) 深入对垂直搜索引擎的技术研究。在搜索 引擎领域 , 任何一个优秀的搜索引擎都必须有领先 的、强大的搜索技术做基础。如果基础的技术落后 了 , 根本谈不上更多的服务。搜索机制先进 , 搜索 的信息才能够满足专业信息用户的要求。只有有效 地把某一特定领域感兴趣的用户与其他网民区分开 来 , 并长期持久地吸引住这些用户 , 才能为信息服 务提供商发展电子商务、增强竞争优势提供理想的 平台【5】。但是目前的垂直搜索引擎普遍在寻找盈利 的模式 , 而对技术的研究没有更多的新的成果 , 在 对用户服务方面也就很难有更多的创新。 (2) 扩大检索范围。垂直搜索引擎的搜索结果 比综合搜索引擎的结果少的多 , 因为它的信息来源 基本上局限于几个特定的垂直门户网站 , 所以如果 它收录的网站信息量不够大、或者个数很少 , 对于 用户来说用途就很小 , 他可以放弃垂直搜索引擎而 选择在那些特定的垂直网站上搜寻信息。因此 , 扩 大垂直搜索引擎的搜索范围非常重要。 (3) 建立用户反馈机制 , 增强用户与搜索引擎 的交互。正如前面谈到的 , 垂直搜索引擎的查准率 较高 , 但是查全率很难保证 , 并且用户输入的查询 模式一般比较单一 , 对于用户体验来说 , 这是很不 利的一个方面。因此 , 垂直搜索引擎要在扩大搜索 范围的基础上 , 建立用户反馈机制 , 让用户有可能 与之更多的交互 ; 同时加强在搜索结果的后处理和 个性化用户服务 , 让用户体验到与综合搜索引擎截 然不同的服务体验。 (4) 积极与综合搜索引擎合作。虽然垂直搜索 引擎是基于综合搜索引擎的一些难以克服的缺点而 发展起来的 , 但是相对于综合搜索引擎 , 它仍然是 “子辈”级的 , 并且未来也不可能取代综合搜索引 擎 , 它只能是作为综合搜索引擎的一个附属品。所 以 , 垂直搜索引擎应该密切关注综合搜索引擎的发 展动向 , 并积极与之合作 , 为用户的搜索提供更多 的全方面的服务。 尽管我们无法确定垂直搜索引擎在未来的发展 趋势 , 但是根据它与综合搜索引擎的服务比较 , 我 们认为它在很多方面亟待提高和改进。同时 , 目前 垂直搜索引擎的数量很多 , 规模都不是很大 , 未来 的稳定的格局是不应该允许如此之多的垂直搜索引 擎的存在 , 所以垂直搜索引擎在初期发展中需要关 注技术和服务两个方面 , 尤其是信息服务方面的创 新。虽然目前对垂直搜索引擎的学术探讨不是很 多 , 但是我认为如果对垂直搜索引擎提出合理的发 展策略 , 它必将对网络搜索的发展做出贡献。 参考文献 1  肖冬梅. 垂直搜索引擎研究 [J ] . 图书馆学研究 ,2003 , (2) : 87. 2  郝凤英. 垂直网站及其信息服务模式 [J ] . 情报理论与实 践 ,2002 , (2) :136. 3  陈建龙. 信息服务论 [N ] . 北京大学博士论文 ,2002 - 34 - 41 (5) . 4  陈新颜. 垂直搜索引擎辨析[J ] . 现代情报 ,2004 , (9) :133. 5  黄建莲. 中国搜索引擎服务市场的现状及发展[J ] . 华北科 技学院学报 ,2005 , (9) :115. (责任编辑 :刘凤勤) 201 情  报  科  学                   25卷
/
本文档为【综合搜索引擎与垂直搜索引擎的比较研究】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。 本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。 网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。

历史搜索

    清空历史搜索