怎么写robots

2015/4/4/ 555

一、什么是robotsRobots可以简单的理解为网站与搜索引擎之间的一个协议(协议约束力比较低),通过robots协议来告知搜索引擎说哪些页

一、什么是robots

Robots可以简单的理解为网站与搜索引擎之间的一个协议(协议约束力比较低),通过robots协议来告知搜索引擎说哪些页面可以访问,哪些页面不可以访问,从而达成口头上的君子协议。这样的君子协议能有效节省搜索引擎的工作效率,对于我们站长来说,不仅可以集中网站目标页面的权重,而且还能起到保护网站隐私的作用。

二、怎么查看一个网站的robots呢?格式是www.xxx.com/robots.txt

三、robots格式是用一个txt的文本,命名为robots.txt,放到网站服务器的根目录下

四、常用的搜索引擎蜘蛛名字:

Baiduspider(百度蜘蛛)

Googlebot(谷歌机器人)

MSNBot(MSN机器人)

Sogou web spider(搜狗蜘蛛)

Sosospider(搜搜蜘蛛)

Youdaobot(有道机器人)

五、两种方式写robots

1、自己手写robots文件。

2、通过站长工具网站代码转换器栏目下的robots.txt生成完成。

t01552c92422ab69bea

六、那么我们知道robots协议的作用之后,那怎么来写robots协议呢?(这是说一下手写)

1、User-agenet:是用户信息标识,用来定义搜索引擎。写法如:User-agent:*(*可以替换成搜索引擎的蜘蛛的名字)。

2、Disallow: 是禁止语法,用来定义禁止蜘蛛爬取的页面或者目录。如:Disallow:/文件夹目录/ 或者是 Disallow:/文件夹名称 (表示禁止蜘蛛爬取网站的其中一个页面)

实例:Disallow:/ 禁止蜘蛛爬取网站的所有目录

Disallow:/admin (禁止蜘蛛爬取admin目录)

Disallow:/login.html (禁止蜘蛛爬去login.html页面)

Disallow:/help.html (禁止蜘蛛爬去help.html页面)

Disallow: /about.html(禁止蜘蛛爬去about.html页面)

3、Allow:是允许语法,用来定义允许蜘蛛爬取的页面或者子目录。

实例:Disallow: / (禁止蜘蛛爬取网站的所有目录)

Disallow:/admin (禁止蜘蛛爬取admin目录)

Allow:/admin/abc.html(“/” 表示根目录下,允许蜘蛛爬去admin目录中的abc.html页面)

4、$ 和* 通配符的使用。$匹配URL结尾的字符;*匹配0个或多个任意字符。例如/*?*和.png$意思是动态页面和所有png格式的图片。

实例:禁止所有搜索引擎收录所有动态页面、png格式图片和

User-agent: *

Disallow: /*?*

Disallow: /.png$

Disallow: /about.html

5、允许所有搜索引擎收录所有页面怎么写(默认的情况下,搜索引擎认为允许收录,一般情况下写不写没什么差别)

User-agent: *

Allow:/

6、禁止搜索引擎收录所有页面怎么写

User-agent: *

Disallow: /

七、注意事项:

在写robots的时候要注意语法,这个很重要,不然搜索引擎无法识别,导致虽然写了robots但是没有起到作用。我看见网上的有些爱好者写robots的时候没有注意这些细节的,所以在这里要特别的说一下。

语法:

1、冒号:英文输入法的冒号

2、空格,英文输入法的空格

3、/开头 除了User-agent: 这个语法,其他的都是/开头

4、第一字母大写开头

八、那些页面需要禁止收录的呢?

1、为了不分散权重,一个企业网站里面有公司简介,关于我们,招聘信息等等需要展示给客户,却不需要排名的,最好是用robots禁止收录。

2、保护网站隐私,比如网站的后台文件。

3、图片目录

现在网络上大量CMS的出现,对于这些大量同质化模板网站,被反复使用,不同的网站同样的框架又反复被搜索引擎收录。这样的网站搜索引擎是一定是不会喜欢的,就算是你的网站被收录了,那你的网站权重也会受点影响的。对于这种情况,最好是把网站根目录的imags或者img目录屏蔽掉。

4、死链页面屏蔽

一个网站上的死链过多,对网站优化推广来说,无疑是致命的。不仅用户体验会影响,而且过多死链也会使网站排名,权重下降。对于死链的出现,常规的做法是做404页面,当然也可以通过Robots协议将其进行屏蔽。只要找到出现死链的页面,然后设置成Disallow: /XXX.html的格式就可以了。

5、JS目录的屏蔽

对于一个网站来说,经常是少不了JS的应用,对于这些JS也无法对搜索引擎提供有价值的信息。所以建议用Robots协议将其进行屏蔽,以提高搜索引擎的索引质量,同时更提升网站对搜索引擎爬虫的友好性。

6、双页面的内容屏蔽

什么是双页面的内容?双页面的内容是指同一个网页的内容,却出现两个不同URL链接的地址。这样的双页面的内容出现,就会容易使搜索引擎误以为网站内容重复。例如:DEDECMS的一个网页内容可以通过一个静态URL和动态URL进行相同内容的访问。



微信订阅号开放个人认证了
百度站长资讯:什么情况要申请闭站保护?如何取消闭站保护
搭建自己的独立博客
小米华为魅族部分机型内置神马搜索
企业微信发布:员工的噩梦,老板的福音
谷歌注册多个与Google Play和 China相关域名