关于百度搜索引擎的工作原理,很多站长SEO都没有仔细阅读和理解。本文解读了百度蜘蛛抓取系统的原理和索引数据库的构建,以便SEO更好地了解百度蜘蛛的索引数据库构建。
一、蜘蛛抓取系统的基本框架
随着互联网信息的爆炸式增长,如何有效地获取和使用这些信息是搜索引擎工作的首要环节。数据采集系统作为整个搜索系统的上游,主要负责互联网信息的收集、保存和更新。它像蜘蛛一样在网络上爬行,因此通常被称为“蜘蛛”。例如,几种常见的搜索引擎蜘蛛称为:Baiduspdier,Googlebot,搜狗网络蜘蛛等。
蜘蛛抓取系统是搜索引擎数据来源的重要保障。如果把web理解为一个有向图,那么Spider的工作过程可以看作是对这个有向图的遍历。从一些重要的种子URL开始,通过页面上的超链接关系,不断发现和爬取新的URL,并爬取尽可能多的有价值的网页。对于像百度这样的大规模蜘蛛系统,由于网页存在被修改、删除或不断出现新超链接的可能性,因此有必要保持蜘蛛过去抓取的页面更新并维护URL库和页面库。
下图展示了蜘蛛爬行系统的基本框架,包括链接存储系统、链接选择系统、dns解析服务系统、爬行调度系统、网页分析系统、链接提取系统、链接分析系统和网页存储系统。Baiduspider通过这个系统的配合完成互联网页面的抓取。
第二,Baiduspider的主要抓取策略类型
上图看似简单,但实际上,Baiduspider在抓取过程中面临的是一个超级复杂的网络环境。为了使系统爬行尽可能多的有价值的资源,并在不给网站体验带来压力的情况下保持系统中页面与实际环境的一致性,将设计各种复杂的爬行策略。以下是简要介绍:
1.抓取友好度
互联网资源数量级庞大,这就要求爬行系统尽可能高效地利用带宽,在有限的硬件和带宽资源下抓取尽可能多的宝贵资源。这造成了另一个问题,即消耗被捕网站的带宽造成访问压力,如果过大,将直接影响被捕网站的正常用户访问行为。因此,在抓取的过程中,需要控制抓取压力,以达到在不影响网站正常用户访问的情况下抓取尽可能多的有价值资源的目的。
通常,最基本的是基于ip的压力控制。这是因为如果是基于域名的话,可能会出现一个域名对应多个IP或者多个域名对应同一个IP的问题。在实践中,经常根据ip和域名的各种条件进行压力部署控制。同时,站长平台还推出了压力反馈工具,站长可以手动调整自己网站的抓取压力。这时百度蜘蛛会根据站长的要求优先控制抓取压力。
一般同一个站点的速度控制可以分为两类:一是一段时间内的抓取频率;第二,一段时间内的抓取流量。同一个网站的抓取速度在不同的时间会有所不同,比如夜深人静、风大的时候可能会快一些,这取决于具体的网站类型。主要思想是错开正常用户访问的高峰期,并不断进行调整。对于不同的站点,还需要不同的抓取速度。
第三,判断新链接的重要性
在建立数据库之前,Baiduspider会对页面进行初步的内容分析和链接分析,并通过内容分析决定页面是否需要建立索引数据库,然后通过链接分析发现更多页面,然后抓取-分析-建立数据库-发现更多页面的新链接。从理论上讲,Baiduspider将检索新页面上所有可以“看到”的链接,那么面对众多新链接,Baiduspider如何判断哪个更重要呢?两个方面:
第一,对用户的价值。
内容是独一无二的,百度搜索引擎喜欢独一无二的内容主题突出,因此不得出现网页的主要内容不突出和搜索引擎将其误判为没有捕获丰富广告的空短页面。
二、链接的重要性。
目录层次-站内浅优先级链接的流行程度
第四,百度优先建设重要库的原则
Baiduspider抓取了多少页面并不是最重要的,重要的是索引了多少页面,也就是我们常说的“索引”。众所周知,搜索引擎的索引数据库是分层的,高质量的网页将被分配到重要的索引数据库中,普通网页将留在普通数据库中,而较差的网页将被分配到低级数据库中作为补充材料。目前,只有调用重要索引数据库才能满足60%的检索需求,这解释了为什么一些网站因其高容量和高流量而一直不尽人意。
那么,哪些页面可以进入质量指数数据库呢?其实总的原则就一个:对用户的价值。包括但不限于:及时和有价值的页面:在这里,及时性和价值是并列的,缺一不可。一些网站做了大量的收集工作来制作时间敏感的内容页面,结果产生了一堆毫无价值的页面,这是百度不想看到的。高质量的专题页面:专题页面的内容可能不是完全原创的,即可以很好地整合各方内容,或者添加一些新鲜的内容,例如观点和评论,以给用户提供更丰富、更全面的内容。高价值原创内容页面:百度对原创的定义是:花费一定成本,积累大量经验后形成的文章。不要再问我们伪原创是不是原创。重要的个人页面:这里只是一个例子。科比在新浪微博开通了账号。即使他不经常更新, 它仍然是百度极其重要的一页。
5.哪些页面不能构建到索引数据库中?
上面提到的高质量网页已经进入索引数据库,但事实上,互联网上的大多数网站根本没有被百度收录。并不是百度没有发现它们,而是在库建立之前筛选过程被过滤掉了。那么什么样的网页在初始阶段被过滤掉:有重复内容的页面:百度没有必要包括互联网上现有的内容。一些主要内容简短的页面使用了百度蜘蛛无法解析的技术,例如JS和AJAX。尽管用户在访问时可以看到丰富的内容,但他们仍然会被搜索引擎放弃,或者他们可能会被视为短页面。请注意,广告加载时间包含在页面的总加载时间中。许多没有突出主题的网页即使被爬回,也会在此链接中被放弃。部分作弊网页
有关aiduspider捕获系统的原理和索引数据库构建的更多信息,请访问百度站长论坛查看文档。
版权声明:本文内容由网民自发贡献,文章观点仅代表作者本人。本站仅提供信息存储空间服务,不具有所有权,不承担相关法律责任。如果您发现任何涉嫌抄袭的内容,请发送电子邮件至365161286@qq.com进行举报。一经核实,本网站将被立即删除。
转载请注明来自专注于seo技术、教程和推广-小龙SEO培训教程本文标题:什么是BaiduSpider?
发表评论