综合搜索引擎与垂直搜索引擎的比较研究
刘 畅
(北京大学 信息管理系 , 北京 100871)
摘 要 : 搜索引擎是目前互联网信息服务的主要工具 , 它的竞争也日趋激烈 , 搜索引擎的信息服
务也逐渐引起重视。本文从信息服务的角度出发 , 通过对综合搜索引擎与垂直搜索引擎在信息服
务各个要素方面的比较 , 找出它们之间的竞争与合作的关系 , 为当前的搜索引擎发展做出初步的
。
关键词 : 搜索引擎 ; 垂直搜索引擎 ; 信息服务 ; 比较研究
中图分类号 : G250173 文献标识码 :A 文章编号 :1007 - 7634 (2007) 01 - 0097 - 06
Comparative Study on Vertical and Comprehensive Search Engines
LIU Chang
( Department of Information Management , Peking University , Beijing 100871 , China)
Abstract : Search engine is one of the most important tools of information service on the Internet . As its much
improvement these years , its service functions are paid more attention to. In this article , we will compare the
vertical search engines and comprehensive search engines on the perspective of information service mode , find
out their relationship and then give some suggestion on the vertical search engine’s development in the fu2
ture.
Key words : search engine ; vertical search engine ; information services ; comparative study
收稿日期 : 2006 - 09 - 02
作者简介 : 刘 畅 (1983 - ) , 女 , 黑龙江人 , 硕士研究生 , 从事信息资源管理研究.
1 两种搜索引擎的基本介绍
搜索引擎主要指利用网络自动搜索技术软件或
人工方式 , 对 Internet (主要是 Web) 网络资源进行
收集、整理与组织 , 并提供检索服务的一类信息服
务系统。鉴于网络信息资源的海量规模 , 网络资源
的采集方式以自动方式 (robot) 为主。根据数据收
录范围不同 , 可以将搜索引擎分成综合搜索引擎和
垂直搜索引擎 , 下面就对这两种搜索引擎进行简单
的介绍。
111 综合搜索引擎
综合搜索引擎是相对于垂直搜索引擎而定义
的 , 它就是我们传统意义上的搜索引擎 , 它的资源
包罗万象 , 用户可以通过在检索栏中输入检索词来
检索几乎任何类型、任何主题的资源。但是由于它
收录的资源范围广 , 死链接较多、相关度较低等缺
点 , 人们提出了垂直搜索引擎。
112 垂直搜索引擎
垂直搜索引擎【1】 , 也被称为专业或专用搜索引
第25卷第1期
2007 年 1月 情 报 科 学
Vol. 25 , No. 1
January , 2007
擎 , 就是专为查询某一个学科或主题的信息而产生
的查询工具 , 专门收录某一方面、某一行业或某一
主题的信息 , 在解决某些实际查询问题的时候比综
合搜索引擎较有效。
具体而言 , 垂直搜索引擎就是对网页库中的某
类专门的信息进行一次整合 , 定向分字段抽取出需
要的数据 , 进行处理后再以某种特定形式返回给用
户 , 它是搜索引擎的细分和延伸。
垂直搜索引擎和普通的网页搜索引擎的最大区
别是对网页信息进行了结构化信息抽取 , 也就是将
网页的非结构化数据抽取成特定的结构化信息数
据。如果说网页搜索是以网页为最小单位 , 而垂直
搜索是以结构化数据为最小单位。将这些数据存储
到数据库 , 进行进一步的加工处理 , 如 : 去重、分
类等 , 最后分词、索引 , 最终以对结构化数据的搜
索的方式满足用户的信息需求。整个过程中 , 数据
由非结构化数据抽取成结构化数据 , 经过深度加工
处理后以非结构化的方式和结构化的方式返回给用
户。
垂直搜索引擎的应用领域很多 , 比如找工作的
搜索、旅游搜索、医药搜索、图书搜索、购物搜索
⋯⋯几乎各行各业各类信息都可以进一步细化成各
类的垂直搜索引擎。目前中文垂直搜索引擎也已经
出现了很多 , 比如找工作的搜索引擎 : 深度搜索引
擎 ( http : ΠΠwww1deepdo1com) , 旅游搜索 : 去哪儿
搜索引擎 (http : ΠΠwww1qunar1com) 等。
垂直搜索引擎与综合搜索引擎相比 , 其信息服
务模式有所变化 , 它更加注重信息的专深性 , 更体
现“以人为本”的理念。综合搜索引擎好比是“超
市”, 其经营商品无所不包 , 可以查询所有网站上
的信息 ; 垂直搜索引擎则好比是“家具城”、“电脑
城”, 提供专项服务【2】。下面就着重分析两种搜索
引擎的信息服务的异同。
2 两种搜索引擎的具体比较
从前面的介绍可以看出 , 综合搜索引擎和垂直
搜索引擎都是帮助网络用户查找网络相关信息的工
具 , 这是它们最重要的相同点。它们的不同点很
多 , 当我们把它们看成两种信息服务活动的时候 ,
我们就可以将它们分解成各个要素进行比较分析。
在这部分中 , 主要根据信息服务过程中的四个要
素 : 服务者、服务对象、服务内容和服务策略【3】。
其中主要从后三者 , 即服务对象、服务内容、服务
策略的角度 ,
出两种搜索引擎对用户提供的服
务模式的区别 , 从而总结初用户对服务者 (两种搜
索引擎) 不同的发展方式的要求。
211 信息服务用户比较
搜索引擎的主要作用是帮助用户查找网上的各
种信息 , 因此 , 总的来说 , 搜索引擎的用户就是互
联网上的有信息查找需求网民。那么对于这两种不
同类型的搜索引擎 , 它们的用户也是包含在其中
的。
(1) 传统的综合的搜索引擎 , 就是为网民提供
一个检索的入口 , 提供整个互联网上与用户提问相
关各种网页信息 , 然后用户自己判断结果中的信息
哪些是相关的 , 哪些是不相关的。
(2) 垂直的搜索引擎 , 用户有明确的信息需
求 , 同时这种信息需求可以界定在某一个特定范围
内 , 并且满足其信息需求的信息产品是特定形式的
组织化的信息 , 它提供的结果都是与用户需求相关
的 , 用户不用自己再进行分析和判断。
另外 , 从对关键字的选择上可以看出两者的差
异。垂直搜索引擎对用户关键字的选择要求很简
单 , 直接输入要查找的产品名称即可得到 ; 而综合
搜索引擎则要求用户对自己的信息需求很明确 , 并
且完整、准确的
达在搜索栏中 , 搜索引擎才能够
提供一定的相关信息 , 并且要求用户自行对每一个
信息的相关度进行判断。
一般说来 , 综合搜索引擎对用户的要求相对较
高 , 在搜索的过程中 , 需要有用户对自己需求的不
断调整的过程 ; 垂直搜索引擎对用户的要求较低 ,
直接输入产品名称即可。另外 , 由于垂直搜索引擎
的知名度没有综合搜索引擎高 , 很多网络用户还不
知道如何登陆这些垂直搜索引擎 , 所以垂直搜索引
擎的用户人群比综合搜索引擎小的多 , 并且目前来
说 , 垂直搜索引擎的用户没有从综合搜索引擎中独
立出来 , 仅仅是其中的一小部分。
从信息服务的用户角度比较 , 两种搜索引擎的
区别可以用表 1 表示 :
表 1 两种搜索引擎的用户比较
用户数量 用户对需求的描述
综合搜索引擎 大 不明确
垂直搜索引擎 小 明 确
垂直搜索引擎的用户人群虽然目前很小 , 但
是从长期发展的角度来看 , 还是它将会吸引相当一
部分综合搜索引擎的用户到自己的产品上。目前的
89 情 报 科 学 25卷
发展就要求垂直搜索引擎进一步优化自己的服务 ,
吸引更多的用户使用 , 并逐渐让他们成为自己产品
的固定用户。
212 信息服务内容比较
信息服务内容是指信息服务者在信息服务活动
中为用户提供的特定的服务和产品【4】。对于搜索引
擎而言 , 为用户提供的内容就是搜索结果。两种搜
索引擎都可以提供与用户提交检索式相关的网上检
索结果 , 但是它们存在很大区别。为了直观的说明
问题 , 下面选取百度搜索引擎和搜狗购物搜索分别
代表两种搜索引擎 , 对它们的检索结果进行对比。
图 1 百度检索“三星 CDMA 手机”的结果页面
图 2 搜狗购物搜索“三星 CDMA 手机”的结果页面
从图 1 和图 2 两个搜索结果的页面来看 , 可以
发现两种搜索引擎的结果的标题中都有漂红 (在搜
索引擎中 , 漂红的意思就是与检索词相同的结果用
红色表示) , 也就是说它们都是与检索式相关的 ,
但是它们无论在内容还是形式上 , 都有很大差别。
(1) 搜索结果的形式不同。①综合搜索引擎提
供的搜索结果是网页链接 , 其中匹配的原则是网页
描述与关键字的相关度。②垂直搜索引擎提供的搜
索结果是结构化的数据 , 几乎不需要用户具体打开
网页就可以断定是否是自己需要的结果。
(2) 搜索结果的排列方式不同。①综合搜索引
擎是按照系统设定的排序算法 , 自动根据相关性将
网页排列 , 它的用户不能自主选择排列方式 , 只能
被动的接受搜索引擎的排列顺序。②垂直搜索引擎
的排列方式可以由用户设定 , 在上面例子的购物搜
索引擎中 , 用户可以自主的选择按照相关度的高
低、按照价格的高低、价格的范围或网上商店等多
种方式进行排序。这为用户更好的找到需求的信息
很有帮助。
(3) 搜索结果的查全率和查准率不同。综合搜
索引擎的结果经常是数量巨大的 , 而垂直搜索引擎
因为检索的网站数目有限 , 所以检索结果的数量也
维持在几百个左右。如上面的例子中 , 百度搜索引
擎的搜索结果有 3130000 篇 , 而搜狗购物搜索的搜
索结果是 261 个。从这个数量上可以看出 , 综合搜
索引擎的结果覆盖面比较广 , 而垂直搜索引擎的覆
盖面相对有限。
但是 , 从查准率的角度看 , 垂直搜索引擎的准
确率很高 , 几乎可以达到 90 %以上。因为这些特
定的信息都是在特定的相关网站上查找的 , 所以可
以保证它的准确性。但是对于综合搜索引擎而言 ,
因为搜索引擎在广泛的互联网上查找 , 另外用户也
不可能准确的表达信息需求 , 所以准确率相对比较
低。
(4) 搜索结果的描述内容不同。①综合搜索引
擎在搜索结果中提供描述的内容包括标题、描述、
url 链接三个部分。其中对网页的描述是非人工干
预的 (除了参与了竞价排名广告的网页描述) , 所
以这些描述更多的是当前 URL 链接上的网页整体
内容的介绍 , 而不是针对用户检索的特定信息的介
绍。②垂直搜索引擎在搜索结果的描述针对性很
强 , 从多个角度描述用户查找的特定信息。比如在
上面的购物搜索引擎中 , 就列出了产品名称、价
格、图片、网上商城的来源、规格参数、颜色、尺
寸、功能等等与用户查找的产品密切相关的信息。
这样 , 用户几乎不需要点击链接就可以直接判断哪
条检索结果是最需要的信息。
总之 , 两种搜索引擎在信息服务内容上的不同
可以用表 2 表示。
213 信息服务策略比较
信息服务策略指的是信息服务活动中的服务方
式和手段的组合和运用。在这两种搜索引擎中 , 服
务方式存在很多共性 , 在服务手段上存在着很大差
异。下面逐个进行分析。
991 期 综合搜索引擎与垂直搜索引擎的比较研究
表 2 两种搜索引擎的信息服务内容比较
搜索结果的形式 搜索结果的排列方式 搜索结果的查全率 搜索结果的查准率 搜索结果的描述内容
综合搜
索引擎
网页的简单描述和链
接
系统设定的相关度排
序算法
数量巨大 相对较低 标题、描述、url 链接
垂直搜
索引擎
结构化的数据 可以由用户设定 有限 ,最多几百个
很高 ,可以达到 90 %
以上
产品密切相关的全部
信息
(1) 从服务者的能动性方面。两种搜索引擎
都是被动服务方式 , 即都是在用户提出服务请求之
后 , 搜索引擎才采取策略展开服务。
(2) 从提供服务的时间方面。两者在返回结果
的时间上存在差异。虽然前面谈到垂直搜索引擎的
结果数量相对于综合搜索引擎来说少的多 , 但是它
的返回时间一般比综合搜索引擎长很多。在前面谈
到的例子中 , 百度的返回时间是 01001 秒 , 而搜狗
购物的返回时间是 01008 秒。虽然它们给出的时间
都非常短 , 但是对于用户来说 , 已经习惯了综合搜
索引擎的快速反应 , 对于垂直搜索引擎的反应速度
是可以觉察到的。所以垂直搜索引擎需要在返回时
间上加强。
(3) 从信息服务产品经营方面。两种搜索引擎
目前都是无偿服务 , 即对搜索信息的用户而言是免
费的服务。它们的主要盈利来自网络广告 , 即在其
网站上登载相关网站的广告。
(4) 从服务者与用户在服务活动中的空间距离
方面。两种搜索引擎均为远程服务 , 即用户在自己
的电脑上输入检索要求 , 搜索引擎通过网络将检索
结果返回到用户的电脑上。
两种搜索引擎都是运用网络搜索技术对网页进
行抓取和分析 , 并整理成用户可以浏览的形式展现
给用户。但是在运用具体的技术方面有所差异。
(1)综合搜索引擎是在整个互联网的网页中查
找信息。依赖于搜索技术 ,抓取、索引、排序等技术。
(2) 垂直搜索引擎只在特定主题的网站上查
找 , 然后要对这些非结构化的信息进行提取。以购
物搜索引擎为例 , 搜索引擎的 Spider 抓取网页后 ,
对网页商品信息进行抽取 , 抽取出商品名称、价
格、简介 ⋯⋯然后对信息进行清洗、去重、分类、
分析比较、数据挖掘 , 最后通过分词索引提供用户
搜索、通过分析挖掘提供市场行情
。它应用的
主要技术包括 spider、网页结构化信息抽取技术、
元数据采集技术、分词技术、索引技术等信息处理
技术 (举例阿里巴巴、淘宝、易趣) 。
总之 , 两种搜索引擎在信息服务策略上的比较
可以用表 3 表示。
表 3 两种搜索引擎的信息服务策略比较
服务者的能动性 提供服务的时间 信息服务产品经营 服务者与用户的空间距离 服务手段 (网络搜索技术)
综合搜索引擎 被动 较短 无偿 远程服务 搜索技术 ,抓取、索引、排序等技术
垂直搜索引擎 被动 较长 无偿 远程服务
抓取、网页结构化信息抽取技术、元数
据采集技术、分词技术、索引技术等
214 信息服务模式比较
这里谈到的信息服务模式 , 主要指的是搜索引
擎与用户交互的方式 , 即用户在使用搜索引擎查找
信息时对搜索引擎的操作、反馈、再使用的过程模
式。通过对服务模式的比较 , 可以看出不同种类的
搜索引擎与用户之间的紧密度。
(1) 综合搜索引擎用户需要在对搜索结果的浏
览中 , 不断调整自己的提问要求 , 逐渐找到相对准
确的需求表达式。
(2) 垂直搜索引擎的用户只需要一次输入关键
字 , 就可以准确的找到需要的信息 ; 如果这种信息
没有被查找到 , 用户就没有办法来解决 , 因为没有
其它的检索词可以更换 , 只能选择更换另外的一种
搜索引擎 , 来扩大检索范围。
这两种搜索引擎的服务模式可以图 3 和图 4 所
示。
通过图 3 和图 4 分析 , 我认为垂直搜索引擎应
该在与用户交互方面加强 , 如果仅仅提供与综合搜
索引擎相似的结果返回服务是不够的 , 需要进一步
考虑如果搜索的信息不够全面 , 用户在没有得到信
息需求的满足的时候可以与搜索引擎如何进行交互
等方面 , 培养用户对垂直搜索引擎的使用习惯和技
巧 , 才能吸引更多的用户。
001 情 报 科 学 25卷
图 3 综合搜索引擎的服务模式
图 4 垂直搜索引擎的服务模式
215 总结
前面从信息服务用户、信息服务内容、信息服
务策略、信息服务模式四个方面比较分析了综合搜
索引擎和垂直搜索引擎。虽然这两种搜索引擎都被
称为网络搜索引擎 , 并且都是为网络用户提供信息
查询服务 , 但是它们在信息服务过程中有很多区
别。因为垂直搜索引擎是在搜索引擎的基础上发展
起来的 , 可以从一定程度上弥补综合搜索引擎的不
足 , 通过上面的比较 , 可以把垂直搜索引擎具有的
特征总结成以下几点 :
(1) 用户群体没有固定。虽然垂直搜索引擎已
经出现了一段时间 , 但是它的普及率没有综合搜索
引擎高 , 也是跟它处于发展的初期 , 没有形成
的服务有关。但是可以肯定的是垂直搜索引擎的用
户一般也是综合搜索引擎的用户 , 它需要在综合搜
索引擎不能为用户提供服务的方面增强服务。
垂直搜索引擎可以通过预测未来的用户群体 ,
及其特征 , 在发展初期将各种服务规范化 , 才能更
快更有效的吸引用户。
(2) 信息查询来源相关性高、信息量有限。垂
直搜索引擎搜索的范围不是整个互联网 , 只是某个
地区的某些特定信息提供的网站 (或者称为垂直网
站) 上查找信息。所以导致它的信息量有限 , 但是
相关性非常高。因为垂直搜索引擎选取的网站都是
经过筛选的 , 所以出现垃圾信息的情况很少。
在这种情况下 , 垂直搜索引擎应该充分发挥自
身查准率高的优势开展各种信息服务。
(3) 信息查询结果的形式丰富多样。垂直搜索
引擎的搜索结果经过元数据的提取和结构化的处
理 , 所以它可以根据处理中产生的各个特征变量对
搜索结果进行排序 , 如信息来源的网站、信息的本
身的各种特征等等。另外 , 搜索结果的数量不是很
大 , 也有利于垂直搜索引擎可以开展各种个性化服
务。
(4) 与用户的交互性有待提高。从前面搜索引
擎的信息服务模式图上可以看出 , 用户在使用综合
搜索引擎时 , 虽然查准率不是很高 , 但是用户可以
与搜索引擎做各种交互 , 比如增加检索词的个数、
或更换新的检索词来逐步找到检索结果。这对于搜
索引擎用户也是一个很好的体验。但是垂直搜索引
擎如果没有满足用户的信息需求 , 用户很难再更换
其它的检索词与该搜索引擎进行交互 , 所以用户只
能选择其它的搜索工具。
3 综合搜索引擎与垂直搜索引擎
的关系及其发展趋势
垂直搜索引擎从诞生开始就被人们关注 , 从
理论上来说 , 它的查准率也比综合搜索引擎高的
多。但是事实上 , 直到现在也没有哪个垂直搜索引
擎的名气能够与综合搜索引擎相比 , 这其中可能的
1011 期 综合搜索引擎与垂直搜索引擎的比较研究
问题会有哪些 , 前面通过对垂直搜索引擎与综合搜
索引擎在信息服务方面的比较 , 可以发现 , 垂直搜
索引擎在信息服务方面还有待深入和加强 , 才能在
未来的发展和竞争中取得优势。在上面的比较分析
基础上 , 我对垂直搜索引擎未来发展方向 , 以及它
与综合搜索引擎的关系提出一些初步的建议。
(1) 深入对垂直搜索引擎的技术研究。在搜索
引擎领域 , 任何一个优秀的搜索引擎都必须有领先
的、强大的搜索技术做基础。如果基础的技术落后
了 , 根本谈不上更多的服务。搜索机制先进 , 搜索
的信息才能够满足专业信息用户的要求。只有有效
地把某一特定领域感兴趣的用户与其他网民区分开
来 , 并长期持久地吸引住这些用户 , 才能为信息服
务提供商发展电子商务、增强竞争优势提供理想的
平台【5】。但是目前的垂直搜索引擎普遍在寻找盈利
的模式 , 而对技术的研究没有更多的新的成果 , 在
对用户服务方面也就很难有更多的创新。
(2) 扩大检索范围。垂直搜索引擎的搜索结果
比综合搜索引擎的结果少的多 , 因为它的信息来源
基本上局限于几个特定的垂直门户网站 , 所以如果
它收录的网站信息量不够大、或者个数很少 , 对于
用户来说用途就很小 , 他可以放弃垂直搜索引擎而
选择在那些特定的垂直网站上搜寻信息。因此 , 扩
大垂直搜索引擎的搜索范围非常重要。
(3) 建立用户反馈机制 , 增强用户与搜索引擎
的交互。正如前面谈到的 , 垂直搜索引擎的查准率
较高 , 但是查全率很难保证 , 并且用户输入的查询
模式一般比较单一 , 对于用户体验来说 , 这是很不
利的一个方面。因此 , 垂直搜索引擎要在扩大搜索
范围的基础上 , 建立用户反馈机制 , 让用户有可能
与之更多的交互 ; 同时加强在搜索结果的后处理和
个性化用户服务 , 让用户体验到与综合搜索引擎截
然不同的服务体验。
(4) 积极与综合搜索引擎合作。虽然垂直搜索
引擎是基于综合搜索引擎的一些难以克服的缺点而
发展起来的 , 但是相对于综合搜索引擎 , 它仍然是
“子辈”级的 , 并且未来也不可能取代综合搜索引
擎 , 它只能是作为综合搜索引擎的一个附属品。所
以 , 垂直搜索引擎应该密切关注综合搜索引擎的发
展动向 , 并积极与之合作 , 为用户的搜索提供更多
的全方面的服务。
尽管我们无法确定垂直搜索引擎在未来的发展
趋势 , 但是根据它与综合搜索引擎的服务比较 , 我
们认为它在很多方面亟待提高和改进。同时 , 目前
垂直搜索引擎的数量很多 , 规模都不是很大 , 未来
的稳定的格局是不应该允许如此之多的垂直搜索引
擎的存在 , 所以垂直搜索引擎在初期发展中需要关
注技术和服务两个方面 , 尤其是信息服务方面的创
新。虽然目前对垂直搜索引擎的学术探讨不是很
多 , 但是我认为如果对垂直搜索引擎提出合理的发
展策略 , 它必将对网络搜索的发展做出贡献。
参考文献
1 肖冬梅. 垂直搜索引擎研究 [J ] . 图书馆学研究 ,2003 , (2) :
87.
2 郝凤英. 垂直网站及其信息服务模式 [J ] . 情报理论与实
践 ,2002 , (2) :136.
3 陈建龙. 信息服务论 [N ] . 北京大学博士论文 ,2002 - 34 -
41 (5) .
4 陈新颜. 垂直搜索引擎辨析[J ] . 现代情报 ,2004 , (9) :133.
5 黄建莲. 中国搜索引擎服务市场的现状及发展[J ] . 华北科
技学院学报 ,2005 , (9) :115.
(责任编辑 :刘凤勤)
201 情 报 科 学 25卷