首页 首页 >  文章资讯

解析百度蜘蛛如何抓取网站和提高抓取频率

发布者:feixue2017    发布时间:2018-06-27 10:26:56    浏览次数:177次


一、百度蜘蛛抓取规则


1、对网站抓取的友好性


百度蜘蛛在抓取互联网上的信息时为了更多、更准确的获取信息,会制定一个规则最大限度的利用带宽和一切资源获取信息,同时也会仅最大限度降低对所抓取网站的压力。


2、识别url重定向


互联网信息数据量很庞大,涉及众多的链接,但是在这个过程中可能会因为各种原因页面链接进行重定向,在这个过程中就要求百度蜘蛛对url重定向进行识别。


3、百度蜘蛛抓取优先级合理使用


由于互联网信息量十分庞大,在这种情况下是无法使用一种策略规定哪些内容是要优先抓取的,这时候就要建立多种优先抓取策略,目前的策略主要有:深度优先、宽度优先、PR优先、反链优先,在我接触这么长时间里,PR优先是经常遇到的。


4、无法抓取数据的获取


在互联网中可能会出现各种问题导致百度蜘蛛无法抓取信息,在这种情况下百度开通了手动提交数据。


5、对作弊信息的抓取


在抓取页面的时候经常会遇到低质量页面、买卖链接等问题,百度出台了绿萝、石榴等算法进行过滤,据说内部还有一些其他方法进行判断,这些方法没有对外透露。


上面介绍的是百度设计的一些抓取策略,内部有更多的策略咱们是不得而知的。


二、百度蜘蛛抓取过程中涉及的协议


1、协议:超文本传输协议


2、协议:目前百度已经全网实现https,这种协议更加安全。


3、robots协议:这个文件是百度蜘蛛访问的第一个文件,它会告诉百度蜘蛛,哪个页面可以抓取,哪个不可以抓取。


三、如何提高百度蜘蛛抓取频次


百度蜘蛛会根据一定的规则对网站进行抓取,但是也没法做到一视同仁,以下内容会对百度蜘蛛抓取频次起重要影响。


1、网站权重:权重越高的网站百度蜘蛛会更频繁和深度抓取


2、网站更新频率:更新的频率越高,百度蜘蛛来的就会越多


3、网站内容质量:网站内容原创多、质量高、能解决用户问题的,百度会提高抓取频次。

天津博大医院

【版权与免责声明】如发现内容存在版权问题,烦请提供相关信息发邮件至 335760480@qq.com ,我们将及时沟通删除处理。 以上内容均为网友发布,转载仅代表网友个人观点,不代表平台观点,涉及言论、版权与本站无关。