一个在奔跑线上
不断努力奋斗的PHP开发程序猿

SEO之Robots文件

我的文章网站运维之浅谈SEO已经给大家简单的介绍了SEO相关的问题。因为工作比较忙,抽出空余时间来给大家更新自己的SEO分享经历。希望大家多多支持。

什么是Robots文件

Robots文件其实就是网站和搜索引擎之间的一个协议,或者说是沟通桥梁。Robots文件是txt格式的文件,它使用txt文本的格式来告诉爬虫我当前网站哪些地方你可以访问,那些网站不允许被访问。如果网站之间并不存在Robots文件,那么爬虫就可以访问当前网站中所有未被保护的页面。

Robots文件的重要性

网站通过Robots文件可以屏蔽网站中的隐私页面、图片目录、css目录、搜索页面、缓存页面、feed页面等。

Robots文件的写法格式

  1. 首先Robots文件是一个.txt文件,是文本的格式。
  2. User-agent : :表示要定义的搜索引擎
    1. Baiduspider 百度蜘蛛
    2. Googlebot 谷歌蜘蛛
    3. YoudaoBot 有道蜘蛛
    4. MSNbot Bing蜘蛛
    5. ............................
  3. Disallow : 表示定义禁止访问,也就是禁止蜘蛛抓取的内容
  4. Allow : 表示允许访问,也就是允许蜘蛛抓取的内容
  5. Sitemap : 表示当前网站的地图文件位置
  6. * : 通配符—匹配0或多个任意字符
  7. $ : 匹配行结束符
  8. # : 注释—说明性的文字,不写也可。
  9. 目录、网址的写法:都以以正斜线 (/) 开头。
    1. Disallow:/
    2. Disallow:/images/
    3. Disallow:/admin/
    4. Disallow:/css/

列举一些robots.txt 具体用法

禁止所有搜索引擎访问网站的任何部分

User-agent: *
Disallow: /

允许所有的robot访问 (或者也可以建一个空文件 “/robots.txt” file)

User-agent: *
Allow:

禁止某个搜索引擎的访问

User-agent: Googlebot
Disallow: /

允许某个搜索引擎的访问

User-agent: Baiduspider
allow:/

禁止所有蜘蛛访问某目录【多个目录需要多次声明】

User-agent: *
Disallow: /css/
Disallow: /js/
Disallow: /admin/

拦截除 Baiduspider 以外的所有漫游器不能访问您的网页

User-agent:
Disallow: /
User-agent:Baiduspider
Disallow:

编写Robots文件需要注意的事项

  1. Robots里面内容的大小写不可更改,Disallow后面的冒号必须为英文状态的。
  2. 网站中的脚本程序、样式表等文件即使被蜘蛛收录,也不会增加网站的收录率,还只会占用服务器存储空间。因此必须在robots.txt文件里设置不要让搜索蜘蛛索引脚本程序、样式表等文件,具体哪些文件需要排除,需要根据网站的具体情况来确定。

本站使用的Robots文件

因为本站是使用的WordPress开发的个人博客,下面是本站所使用的Robots文件内容。

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-include/
Disallow: /?s=
Allow: /wp-admin/admin-ajax.php
Sitemap: http://www.hasah.cn/sitemap.xml

我们和搜索引擎应该是朋友,增加一些沟通,才能消除一些隔膜。

百度
赞(8) 打赏
未经允许不得转载:只缘余生 » SEO之Robots文件

评论 抢沙发

9 + 3 =
  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏