- A+
robots介绍:
Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。Robots协议的本质是网站和搜索引擎爬虫的沟通方式,用来指导搜索引擎更好地抓取网站内容。因此优化时候不能忽略robots文件。
?robots规则说明:
*代表所有的意思
User-agent
首先,爬虫抓取时会声明自己的身份,这就是User-agent,如果这个规则适用于所有搜索引擎的话,写法:User-agent:* 如果单独适用于百度的话User-agent:Baiduspider
下面是一些搜索引擎的名字:
1.Disallow
(Disallow 列出的是要禁止抓取的的网页和规则,后面用/代表层次关系)
Disallow:/(代表着禁止抓取网站所有内容)
Disallow:/abc(禁止抓取abc及其层次下的内容)
Disallow:/abc/(禁止抓取abc层次下的内容,但是允许抓abc)
Disallow:/*.png(禁止抓取png的图片,其他格式的也这样写比如禁止抓网站中的PPT后缀文件是Disallow:/*.PPT)
Disallow:/abc/*.png(禁止访问abc层次下的PNG图片,其他格式也是)
Disallow:/*?*(屏蔽站内所有动态URL,因为动态地址都带?所有可以用这种形式,其他的字符也可以)
Disallow:/abc/*?*(只屏蔽abc层次下的动态地址)
Disallow:/*?/(屏蔽动态层次下的内容,比如有些文章或栏目是网址/?14125这样URL,这样可以让抓取文章,也可以屏蔽后面内容)
Disallow:/abc/*?/(屏蔽abc栏目下的动态层次下的内容)
其他的按照这种思路灵活变通使用就行了。
?
2.Allow
(Allow代表允许访问抓取的意思)
Allow一定放在disallow的前面才能不受disallow的影响,比如禁止所有动态后,想要排除一个栏目,写法如下:
Allow:/abc
disallow:/*?*
其他的写法参考上面disallow的逻辑表达即可。
?
3.sitemap
这个只用于告诉蜘蛛网站地图在哪。
一般的表示如下:
sitemap:网址/sitemap.xml
?
4.Crawl-delay
控制抓取频次,一般有些搜索蜘蛛频繁抓取网站,会对服务器造成很大的负担,这个就是用来控制抓取频次的。
?
5.User-agent:Geoglebot
Crawl-delay:20
这句是说,谷歌你抓的太频繁,你抓过之后20秒之后才能下一次抓取
?
**还有就是不让显示快照
在你不想展示快照页面的head标签中加入 meta name=“robots” content=“noarchive”(禁止所有搜索引擎产生快照)
在你不想展示某个搜索引擎出现快照页面的head标签中加入 meta name=“Baiduspider” content=“noarchive”(禁止百度产生快照,name后面的换成搜索引擎蜘蛛名字即可)
历史上的今天:
- 2021: BT 7.6.0 专业版(企业版)破解教程(0)
- 2018: 2018 年 10 月必应壁纸打包下载(0)