为了正常的体验网站,请在浏览器设置里面开启Javascript功能!

百度搜索引擎原理

2011-12-08 2页 doc 33KB 28阅读

用户头像

is_629995

暂无简介

举报
百度搜索引擎原理百度搜索引擎原理 抓取网页   每个独立的搜索引擎都有自己的网页抓取程序(spider)。Spider顺着网页中的超链接,连续地抓取网页。被抓取的网页被称之为网页快照。由于互联网中超链接的应用很普遍,理论上,从一定范围的网页出发,就能搜集到绝大多数的网页。 处理网页   搜索引擎抓到网页后,还要做大量的预处理工作,才能提供检索服务。其中,最重要的就是提取关键词,建立索引文件。其他还包括去除重复网页、分词(中文)、判断网页类型、分析超链接、计算网页的重要度/丰富度等。 提供检索服务   用户输入关键词进行检索,搜索...
百度搜索引擎原理
百度搜索引擎原理 抓取网页   每个独立的搜索引擎都有自己的网页抓取程序(spider)。Spider顺着网页中的超链接,连续地抓取网页。被抓取的网页被称之为网页快照。由于互联网中超链接的应用很普遍,理论上,从一定范围的网页出发,就能搜集到绝大多数的网页。 处理网页   搜索引擎抓到网页后,还要做大量的预处理工作,才能提供检索服务。其中,最重要的就是提取关键词,建立索引文件。其他还包括去除重复网页、分词(中文)、判断网页类型、分析超链接、计算网页的重要度/丰富度等。 提供检索服务   用户输入关键词进行检索,搜索引擎从索引数据库中找到匹配该关键词的网页;为了用户便于判断,除了网页标题和URL外,还会提供一段来自网页的摘要以及其他信息。 搜索引擎的自动信息搜集功能分两种。一种是定期搜索,即每隔一段时间(比如Google一般是28天),搜索引擎主动派出“蜘蛛”程序,对一定IP地址范围内的互联网站进行检索,一旦发现新的网站,它会自动提 取网站的信息和网址加入自己的数据库。 另一种是提交网站搜索,即网站拥有者主动向搜索引擎提交网址,它在一定时间内(2天到数月不等)定向向你的网站派出“蜘蛛”程序,扫描你的网站并将有关信息存入数据库,以备用户查询。由于近年来搜索引擎索引规则发生了很大变化,主动提交网址并不保证你的网站能进入搜索引擎数据库,因此目前最好的办法是多获得一些外部链接,让搜索引擎有更多机会找到你并自动将你的网站收录。    你的网页被搜索引擎索引的越多,网站被用户访问的机会就越多。多数搜索引擎“拒 绝”所递交URL的第二级或第三级以下层次网页的索引,如果你的网站有4-5级层次, spider就不带回网站的所有网页,解决的办法之一就是做一个“通道页”(hallway page),“通道页”放置你网站的所有链接。   下面解释一下搜索引擎如何spider你的网站,假如你有一个网站—Chinese food,并向搜索引擎注册了网站的首页,首页即为树状结构的根部,如果首页包含两个链接, 分别指向sichuan-food.htm和guangdong-food.htm,则这两个网页就是第二级,在 sichuan-food.htm有链接指向chengdu-food.htm,则chengdu-food.htm为第三级,在 chengdu-food.htm有链接指向special-food.htm,则special-food.htm为第四级,如此类推。   第一级 index. htm   第二级 sichuan-food.htm和guangdong-food. htm   第三级 chengdu-food. htm   第四级 special-food. htm   多数搜索引擎“拒绝”索引第二级或第三级以下的层次,也就是说,第四级的所有网 页(对某些搜索引擎包括第三级的所有网页),将不能被搜索引擎发现,除非你直接注 册这些网页,但不建议直接注册这些网页,因为这样将降低你的排名位置,并且容易 超过搜索引擎规定的每日注册限制。这就是为什么要专门制作一个“通道页”的原因。   2、“论资排辈”   对于同一域名,某些搜索引擎限制接收的网页数,所以建议你在“通道页”中按网页的重要程度排序链接,而且每个“通道页”中的链接数应控制在50个以内。 最新冷笑话 银行利率网 银行贷款利率 黄金价格查询 汇率查询网 杭州艾玛医院   3、耐心    搜索引擎需要1天到6周的时间,以便把你的网页加入到其数据库中。在注册网站的首 页或“通道页”后,对第二级和第三级的网页,还需要多等待1到2周,并且随着网页 级别的降低,多数搜索引擎对网页的访问优先权也降低,然而有趣的是,一旦搜索引 擎把低级别的网页加入其索引数据库中,这些网页排名位置常常比直接注册高。 4、考虑多个域名 对于同一域名,很多搜索引擎限制加入到其数据库中的网页数量,每个搜索引擎限制 数不一样,一般地讲,在400个左右,但也有例外。如果你的网站有很多的网页,可 以考虑申请不同的域名,以便在搜索引擎中加进更多的网页。   5、避免CGI程序产生网页   大多数搜索引擎拒绝索引由CGI程序产生的网页,这种网页的URL地址通常包括问号 “?”和连接号“& ”,这些符号的作用是用来分隔参数的,如下所示:   6、检查你的网页的有效性   要经常检查网页在搜索引擎中的情况,也许你的竞争对手排在了你的前面,也许你的 网页莫明其妙地消失,你可利用某些网站提供的排名监测服务来进行监控,也可亲自到搜索引擎中查询你的网站。   7、经常更新   为鼓励网页更新,搜索引擎将清除长期没有更新的网页,所以,你应周期性地更新你 的主页,但对已在搜索引擎排名很高的网页来说,你应仔细考虑更新是否危机已 有“地位”。   8、重新注册   每次重新注册都应有原因,或排名降低,或网页更新,间隔时间可一周一次,或一月 一次,但不能向目录引擎(如Yahoo!)重新注册。   9、位置是最重要的   把你的网页加入到搜索引擎数据库并不困难,但多数人错误地认为网站加入到数据库 就万事大吉了,你还得继续非常重要的下一步,争取你的网站排在搜索引擎前十名到 二十名。
/
本文档为【百度搜索引擎原理】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。 本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。 网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。

历史搜索

    清空历史搜索