网站优化robots.txt文件的作用及写法

robots.txt文件站长朋友应该不陌生,搜索引擎有自己的搜索习惯,当它对一个网站进行搜索时,哪些目录和文件要看,哪些不用看,它有自己的算法。我们也可以自己建立一个robots.txt文件,告诉搜索引擎的机器人哪些可以被收录,哪些不需要收录。这样可以节约自己网站的资源,提高被搜索引擎收录的效率。

robots.txt文件的作用:

1、屏蔽网站内的死链接。2、屏蔽搜索引擎蜘蛛抓取站点内重复内容和页面。3、阻止搜索引擎索引网站隐私性的内容。

因此建立robots.txt文件是很有必要的,网站中重复的内容、页面或者404信息过多,搜索引擎蜘蛛就会认为该网站价值较低,从而降低对该网站的“印象分”,这就是我们经常听到的“降低权重”,这样网站的排名就不好了。

robots文件的写法

这一点应该是比较重要的了。如果写错了想屏蔽的没成功,想被抓取的却写进去自己不能及时发现可就亏大了。首先我们要知道两个标签,Allow和Disallow,一个是允许,一个是不允许,它的作用相比大家也都能理解。

User-agent: *

Disallow:

或者

User-agent: *

Allow:

这两段内容表示的都是允许抓取所有,实际上屏蔽url和文件用到的是Disallow标签,除非你的网站只有几条想要被抓取采用Allow标签。这个User-agent:后面跟的就是蜘蛛名称,大家对主流的搜索引擎蜘蛛名称应该比较熟悉。下面以搜搜蜘蛛为例:Sosospider。

当我们想屏蔽搜搜蜘蛛的时候:

User-agent: sosospider

Disallow: /

大家可以发现这个屏蔽蜘蛛跟上面允许相比只是多了一个“/”,其含义就起了翻天覆地的变化,所以在书写的时候要千万注意,可不能因为多写个斜杠屏蔽了蜘蛛自己却不知道。还有就是在user-agent:后边不屑固定蜘蛛名称跟的如果是“*”表示是针对所有蜘蛛的。

禁止某个目录被搜索引擎蜘蛛抓取,设置代码如下:

User-agent: *

Disallow: /目录/

注意,这里如果是阻止抓取某目录的话目录名字一定要注意“/”,不带“/”表示的是阻止访问这个目录页面和目录下的页面,而带上“/”则表示进阻止目录下的内容页面,这两点要分清楚。如果是想屏蔽多个目录就需要采用

User-agent: *

Disallow: /目录1/

Disallow: /目录2/

这样的形式,不能采用 /目录1/目录2/ 这样的形式。

如果是阻止蜘蛛访问某一类型的文件,例如阻止抓取.jpg格式的图片可以设置成:

User-agent: *

Disallow: .jpg$

下面看几个来自百度的例子:

1)禁止百度索引,淘宝就这么写的

User-agent: Baiduspider

Disallow: /

2)禁止百度抓取JPG图片

User-agent: Baiduspider

Disallow: .jpg$

3)仅允许访问以”.htm”为后缀的URL。

User-agent: *

Allow: .htm$

Disallow: /

4)禁止某些目录,但允许其目录下某些文件被索引

User-agent: *

Allow: /cgi-bin/see

Allow: /tmp/hi

Allow: /~joe/look

Disallow: /cgi-bin/

Disallow: /tmp/

Disallow: /~joe/

总结下来,/代表全部,*代表任意个字符,$代表强制结束符,禁止某个文件夹或者文件的时候要写上/,但禁止一类文件的时候直接写.***即可。

注意:robots.txt文件必须放置在网站根目录;有域名指向到次目录,在次目录放置的robots.txt文件只对此域名有效。其次,文件名必须小写,如Robots.txt、roBots.txt、robots.TXT都是错误的。

yiguochun

yiguochun(http://blog.0660hf.com/)0660SEO博客是以seo网站优化,Seo学习,sEO知识,SEO网络推广技巧及站长分享经历的媒体博客,为SEO爱好者和广大站长提供一个SEO案例分享和交流的平台,从分享SEO分享交流过程中带来更多的心满意足。

You may also like...

发表评论

电子邮件地址不会被公开。