为了正常的体验网站,请在浏览器设置里面开启Javascript功能!

《搜索的思想》十、——URL地址库

2012-09-19 2页 pdf 129KB 30阅读

用户头像

is_918751

暂无简介

举报
《搜索的思想》十、——URL地址库 文章来自超越 SEO博客,带你一起探索新型 SEO! 《搜索的思想》十、————————URLURLURLURL地址库 一、URLURLURLURL地址库 为了避免重复爬行和抓取网址,搜索引擎会建立一个地址库,记录已经被发现还没有抓取的页面, 以及已经被抓取的页面。 地址库中的 URL 有几个来源。 1. 一是人工录入的种子网站(比如 hao123就是一个好的种子网站)。 2. 二是蜘蛛抓取页面后,从 HTML 中解析出新的链接 URL,与地址库中的数据对比,如果是 地址库中没有的网址,就存入待访问地址库。 3....
《搜索的思想》十、——URL地址库
文章来自超越 SEO博客,带你一起探索新型 SEO! 《搜索的思想》十、————————URLURLURLURL地址库 一、URLURLURLURL地址库 为了避免重复爬行和抓取网址,搜索引擎会建立一个地址库,记录已经被发现还没有抓取的页面, 以及已经被抓取的页面。 地址库中的 URL 有几个来源。 1. 一是人工录入的种子网站(比如 hao123就是一个好的种子网站)。 2. 二是蜘蛛抓取页面后,从 HTML 中解析出新的链接 URL,与地址库中的数据对比,如果是 地址库中没有的网址,就存入待访问地址库。 3. 三是站长通过搜索引擎网页提交格提交进来的网址。 蜘蛛按重要性从待访问地址库中提取 URL,访问并抓取页面,然后把这个 URL 从待访问地址 库中删除,放进已访问地址库中。 大部分主流搜索引擎都提供一个 URL提交入口,让站长提交网址。不过这些提交来的网址都只 是存入地址库而已,是否收录还要看页面重要性如何。搜索引擎所收录的绝大部分页面是蜘蛛自 己跟踪链接得到的。 二、做内链接和外链接的比例问 网页搜集的过程中要保证每个网页不要被重复的抓取,由于一篇网页可能被多个网页链接,搜索 引擎蜘蛛爬取过程中就有可能多次得到该网页的 url, 所有解决这个问题的有效方法是,使用两 个数据表 分别为 unvisited_table 和 visited_table。前者包含尚未访问的 url,后者记录已访问的 url。系统首先将要搜集的种子 url放入 unvisited_table,然后 spider 从其中获取要搜集网页的 url,搜集过的网页 url 放入 visited_table 中,新解析出的并且不在 visited_table 中的 url加入 unvisited_table,读完这个算法后,如果我们做了一个网站,想要增加网站页面的收录我们应该 如何导入链接给我们的页面。 根据以上算法,和 URL地址库的分析,我们不难推断出,我们做内链接和外链接的时候一定要 注意比例的问题,不要都指向首页,很多朋友就经常用这种错误的优化方法,假如搜索引擎的抓 取的过程一维的 从 A来,A 指向 B,B 指向 C,A—B—C,如果它发现 B已经抓取过了,那么就 有可能倒致 C不会被发现和抓取了,所以我们可以做内链接和外链接的时候采用 2:2:1的比 例,另外我在上一篇文章还提到了一个空间点击距离的问题,如果你非常想让你的某一页面被收 录,就直接给它做链接最好,比如发外链的时候就可以这样做,好了这篇文章我就写到这里,原 理都说的很明白了至于可以推理出来的优化方法会有很多就看你们的理解分析程度了,我也只能 引路到这里了。 文章来自超越 SEO博客,带你一起探索新型 SEO! 更多 seo 方法欢迎加我 交流。 《搜索的思想》十、——URL地址库
/
本文档为【《搜索的思想》十、——URL地址库】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。 本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。 网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。

历史搜索

    清空历史搜索