搜索引擎蜘蛛抓取的原理

2025-04-28 浏览量：

搜索引擎蜘蛛抓取的原理

一、搜索引擎抓取

Spider抓取系统是搜索引擎数据来源的重要保证，如果把web理解为一个有向图，那么spider的工作过程可以认为是对这个有向图的遍历。从一些重要的种子 URL开始，通过页面上的超链接关系，不断的发现新URL并抓取，尽最大可能抓取到更多的有价值网页。

　　影响抓取的因素

　　1、抓取友好性

　　互联网资源庞大的数量级，这就要求抓取系统尽可能的高效利用带宽，在有限的硬件和带宽资源下尽可能多的抓取到有价值资源。

　　2、用抓取返回码示意

　　简单介绍几种百度支持的返回码：

　　1)最常见的404代表“NOT FOUND”，认为网页已经失效，通常将在库中删除，同时短期内如果spider再次发现这条url也不会抓取;

　　2)503代表“Service Unavailable”，认为网页临时不可访问，通常网站临时关闭，带宽有限等会产生这种情况。

　　3)403代表“Forbidden”，认为网页目前禁止访问。如果是新url，spider暂时不抓取，短期内同样会反复访问几次;如果是已收录url，不会直接删除，短期内同样反复访问几次。如果网页正常访问，则正常抓取;如果仍然禁止访问，那么这条url也会被认为是失效链接，从库中删除。

　　4)301代表是“Moved Permanently”，认为网页重定向至新url。当遇到站点迁移、域名更换、站点改版的情况时，我们推荐使用301返回码，同时使用站长平台网站改版工具，以减少改版对网站流量造成的损失。

　　3、取优先级调配

　　由于互联网资源规模的巨大以及迅速的变化，对于搜索引擎来说全部抓取到并合理的更新保持一致性几乎是不可能的事情，因此这就要求抓取系统设计一套合理的抓取优先级调配策略。主要包括：深度优先遍历策略、宽度优先遍历策略、pr优先策略、反链策略、社会化分享指导策略等等

　　4、取反作弊

　　spider在抓取过程中往往会遇到所谓抓取黑洞或者面临大量低质量页面的困扰，这就要求抓取系统中同样需要设计一套完善的抓取反作弊系统

　　二、搜索引擎过滤垃圾内容

　　1，重复内容的网页：互联网上已有的内容，百度必然没有必要再收录。

　　2，主体内容空短的网页

　　1)有些内容使用了百度spider无法解析的技术，如JS、AJAX等，虽然用户访问能看到丰富的内容，依然会被搜索引擎抛弃

　　2)加载速度过慢的网页，也有可能被当作空短页面处理，注意广告加载时间算在网页整体加载时间内。

　　3)很多主体不突出的网页即使被抓取回来也会在这个环节被抛弃。

　　3，部分作弊网页

　　4、各种过滤，举例可能包含过滤掉死链、重复数据、色情、垃圾结果以及你懂的;

　　三、如何更好的被收录，建立索引

　　哪些网页可以进入优质索引库呢。其实总的原则就是一个：对用户的价值。包括却不仅于：

　　1，有时效性且有价值的页面：在这里，时效性和价值是并列关系，缺一不可。有些站点为了产生时效性内容页面做了大量采集工作，产生了一堆无价值面页，也是百度不愿看到的.

　　2，内容优质的专题页面：专题页面的内容不一定完全是原创的，即可以很好地把各方内容整合在一起，或者增加一些新鲜的内容，比如观点和评论，给用户更丰富全面的内容。

　　3，高价值原创内容页面：百度把原创定义为花费一定成本、大量经验积累提取后形成的文章。千万不要再问我们伪原创是不是原创。

　　4，重要个人页面：这里仅举一个例子，科比在新浪微博开户了，即使他不经常更新，但对于百度来说，它仍然是一个极重要的页面。

　　四、百度搜索引擎排序影响因素

　　1，相关性：网页内容与用户检索需求的匹配程度，比如网页包含的用户检查关键词的个数，以及这些关键词出现的位置;外部网页指向该页面所用的锚文本等

　　2，权威性：用户喜欢有一定权威性网站提供的内容，相应的，百度搜索引擎也更相信优质权威站点提供的内容。

　　3，时效性：时效性结果指的是新出现的网页，且网页内承载了新鲜的内容。目前时效性结果在搜索引擎中日趋重要。

　　4，重要性：网页内容与用户检查需求匹配的重要程度或受欢迎程度

　　5，丰富度：丰富度看似简单却是一个覆盖范围非常广的命题。可以理解为网页内容丰富，可以完全满足用户需求;不仅可以满足用户单一需求，还可以满足用户的延展需求。

　　6，受欢迎程度：指该网页是不是受欢迎。

　　7、终排序，将最能满足用户需求的结果排序在最前，可能包括的有用信息如：网站的整体评价、网页质量、内容质量、资源质量、匹配程度、分散度、时效性等

相关资讯