robots协议是搜索引擎来我们网站抓取东西,访问的第一个文件。它定义了我们网站内容,那些可以抓取,那些不能够抓取建立索引。一定程度上保护了我们网站上的一些隐私文件的安全性,例如我们网站的后台文件、模版文件等。
robots协议对优化我们网站的作用:
1、能够处理空白无内容页面进行屏蔽掉。
2、对于打不开的死链接页面进行屏蔽。
3、网站隐私页面屏蔽处理,比如说:数据库信息、注册信息页面。
4、屏蔽一些比较长的路径。比如说:路径很长的动态路径。
robots协议中文件的名词解释说明:
1、User-agent: 表示定义搜索引擎的抓取程序。
2、Disallow: 表示禁止抓取。
3、Allow: 表示允许抓取。
4、* 和 $符号 *表示匹配符号, $表示结束符号。
5、/ 符号 单独的/表示网站根目录。
常见的搜索引擎抓取程序:
1、Baiduspider 百度蜘蛛
2、Googlebot 谷歌机器人
3、YoudaoBot 有道机器人
4、Sogou web spider 搜狗蜘蛛
5、ChinasoSpider 国搜蜘蛛
6、yisouspider 易搜蜘蛛
robots协议的写法:
1、建立一个TXT文档 命名为:robots.txt
2、 首字母要大写、冒号是英文状态下的冒号 : 而且冒号后面要有一个空格。
User-agent: * *表示定义所有抓取程序
Disallow:/baidu 表示以baidu 开头的所有文件
Disallow:/baidu/ 表示禁止抓取baidu的这个文件夹
例如:屏蔽所有搜索引擎抓取我们的整个网站:
User-agent: *
Disallow: /
例如:屏蔽百度搜索引擎来抓取我们的网站:
User-agent: Baidusipder
Disallow: /
User-agent: *
例如:禁止抓取所有动态路径的写法;
User-agent: *
Disallow: /*?*
例如:禁止抓取一个文件夹,但是又要允许抓取该文件其中包含的一个文件的写法。
如:文件a下 有一个文件b.
User-agent: *
Disallow: /a/
Allow: /b/
例如:禁止抓取abc.html.dsfaewf 路径.html后的 .dsfawf 的写法。
User-agent: *
Disallow: /*.html$ 最后,要把写好的robots.txt文件通过FTP上传到网站根目录里。
wordpress博客程序网站,robots协议的写法(示例):
User-agent: *
Disallow: /wp-admin/
Disallow: /plugins/
Disallow: /themes/
【版权与免责声明】如发现内容存在版权问题,烦请提供相关信息发邮件至 335760480@qq.com ,我们将及时沟通删除处理。 以上内容均为网友发布,转载仅代表网友个人观点,不代表平台观点,涉及言论、版权与本站无关。