我的文章网站运维之浅谈SEO已经给大家简单的介绍了SEO相关的问题。因为工作比较忙,抽出空余时间来给大家更新自己的SEO分享经历。希望大家多多支持。
什么是Robots文件
Robots文件其实就是网站和搜索引擎之间的一个协议,或者说是沟通桥梁。Robots文件是txt格式的文件,它使用txt文本的格式来告诉爬虫我当前网站哪些地方你可以访问,那些网站不允许被访问。如果网站之间并不存在Robots文件,那么爬虫就可以访问当前网站中所有未被保护的页面。
Robots文件的重要性
网站通过Robots文件可以屏蔽网站中的隐私页面、图片目录、css目录、搜索页面、缓存页面、feed页面等。
Robots文件的写法格式
- 首先Robots文件是一个.txt文件,是文本的格式。
- User-agent : :表示要定义的搜索引擎
- Baiduspider 百度蜘蛛
- Googlebot 谷歌蜘蛛
- YoudaoBot 有道蜘蛛
- MSNbot Bing蜘蛛
- ............................
- Disallow : 表示定义禁止访问,也就是禁止蜘蛛抓取的内容
- Allow : 表示允许访问,也就是允许蜘蛛抓取的内容
- Sitemap : 表示当前网站的地图文件位置
- * : 通配符—匹配0或多个任意字符
- $ : 匹配行结束符
- # : 注释—说明性的文字,不写也可。
- 目录、网址的写法:都以以正斜线 (/) 开头。
- Disallow:/
- Disallow:/images/
- Disallow:/admin/
- Disallow:/css/
列举一些robots.txt 具体用法
禁止所有搜索引擎访问网站的任何部分
User-agent: * Disallow: /
允许所有的robot访问 (或者也可以建一个空文件 “/robots.txt” file)
User-agent: * Allow:
禁止某个搜索引擎的访问
User-agent: Googlebot Disallow: /
允许某个搜索引擎的访问
User-agent: Baiduspider allow:/
禁止所有蜘蛛访问某目录【多个目录需要多次声明】
User-agent: * Disallow: /css/ Disallow: /js/ Disallow: /admin/
拦截除 Baiduspider 以外的所有漫游器不能访问您的网页
User-agent: Disallow: / User-agent:Baiduspider Disallow:
编写Robots文件需要注意的事项
- Robots里面内容的大小写不可更改,Disallow后面的冒号必须为英文状态的。
- 网站中的脚本程序、样式表等文件即使被蜘蛛收录,也不会增加网站的收录率,还只会占用服务器存储空间。因此必须在robots.txt文件里设置不要让搜索蜘蛛索引脚本程序、样式表等文件,具体哪些文件需要排除,需要根据网站的具体情况来确定。
本站使用的Robots文件
因为本站是使用的WordPress开发的个人博客,下面是本站所使用的Robots文件内容。
User-agent: * Disallow: /wp-admin/ Disallow: /wp-include/ Disallow: /?s= Allow: /wp-admin/admin-ajax.php Sitemap: http://www.hasah.cn/sitemap.xml
我们和搜索引擎应该是朋友,增加一些沟通,才能消除一些隔膜。
百度