robots协议书写的正确姿势-robots文件
robots协议对每个网站来说都至关重要,想要写好自己网站的robots协议就需要明白以下这些内容:
1、什么是robots协议?
robots协议全称“网络爬虫排除标准”,又称爬虫协议、机器人协议等,它规定着搜索引擎抓取网站时所能抓取的内容,是网络爬虫爬行网站时第一个要访问的文件;位于网站的根目录下,文件名是robots.txt 。
2、robots协议的作用是什么?
①robots协议用于保护网站的隐私,可以防止自己网站重要信息的泄露;
②同时,robots协议也能让网络爬虫合理地抓取网站内资源:可以屏蔽掉不想被抓取的隐私内容、后台、数据库文件、模板、插件文件、做了伪静态处理后的动态路径等,只抓取需要参与排名的页面;
③另外,robots协议还可以用于屏蔽一些网站中比较大的文件,如:图片、音乐、视频等,节省服务器的带宽;可以用于屏蔽站点的垃圾页面和死链。
3、robots协议的写法是什么?
robots协议是使用英文书写的,其写法如下:
①User-agent: 其后跟的是搜索引擎的名字,用于指定robots协议定义的对象;
②Disallow: 其后跟的是不允许网络爬虫抓取的文件的名称,用于定义禁止爬行的网站内容;
③Allow: 其后跟的是允许网络爬虫抓取的文件的名称,用于定义允许爬行的网站内容,一般不需要进行定义;
④* 它是一个通配符,用于指代“所有或任意的内容”;
⑤$ 它是结束符,用于定义相同后缀名的文件的后面,例如不允许抓取所有的图片文件时就可以以$结束行。
4、注意事项有哪些?
①不要随便地进行整站屏蔽,因为robots协议的生效时间短的是几天,长的是一个月;
②要注意空格,在“User-agent:”、“Disallow:”和“Allow:”的后面都有一个空格;
③要注意每一行的第一个首字母都需要大写。
看完整篇文章,你会正确地书写自己网站的robots协议了吗?会的话,抓紧时间给自己的网站添加一个robots协议吧。
相关内容
-
在wps中粘贴保留原格式化|wps中复制文件保留原
在wps中粘贴保留原格式化|wps中复制文件保留原有格式,格式化,...
-
什么是boot.ini文件错误ini的非法解决方案
什么是boot.ini文件错误ini的非法解决方案,,千奇百怪的电脑问...
-
鼠标不能拖动文件了
鼠标不能拖动文件了,鼠标,拖动,本文目录鼠标不能拖动文件了电...
-
Outlook的PST文件损坏的修复方法
Outlook的PST文件损坏的修复方法,文件, ...
-
电脑什么文件不能删除文件|电脑中哪些文件不能
电脑什么文件不能删除文件|电脑中哪些文件不能删除,,电脑中哪...
-
电脑上怎样打文件|电脑上怎样打文件符号
电脑上怎样打文件|电脑上怎样打文件符号,,电脑上怎样打文件符...
-
将wps转为EX|把WPS文件转为excel表格
将wps转为EX|把WPS文件转为excel表格,转为,如何将,wps,1.怎么...
-
电脑字幕手机怎么载入|电脑字幕手机怎么载入文
电脑字幕手机怎么载入|电脑字幕手机怎么载入文件,,电脑字幕手...
-
u盘看不到文件其他电脑可以看到|电脑里看不到u
u盘看不到文件其他电脑可以看到|电脑里看不到u盘,,1. 电脑里看...
-
电脑函数不正确|电脑出现函数不正确
电脑函数不正确|电脑出现函数不正确,,1. 电脑出现函数不正确故...
-
联想笔记本电脑主板颜色|联想笔记本颜色配置文
联想笔记本电脑主板颜色|联想笔记本颜色配置文件,,联想笔记本...
-
电脑文件或丢失开不了机|电脑文件或丢失开不了
电脑文件或丢失开不了机|电脑文件或丢失开不了机,还没有键盘...
-
复打印快捷键|复印文件快捷键
复打印快捷键|复印文件快捷键,,1. 复印文件快捷键电脑截屏全选...
-
共享文件夹设置|怎么设置共享文件夹
共享文件夹设置|怎么设置共享文件夹,,怎么设置共享文件夹第一...
-
国有股权设置批复|国有股权设置批复文件
国有股权设置批复|国有股权设置批复文件,,1. 国有股权设置批复...