网站robots文件的作用介绍及写法大全

一个完整的网站,301重定向、404页面自定义和robots.txt文件都是必有的,没有为什么,301是为了集权;404是在网站出现死链的时候引导蜘蛛以及增加用户体验;那robots.txt文件是做什么的呢?它有什么作用呢?

一、robots文件是什么?

robots.txt文件是存放在网站根目录下面的一个TXT文本文档。它是网站和蜘蛛之间的一个协议。

 

二、robots文件有什么作用?

如果你网站根目录有robots.txt这样一个文件,那蜘蛛在爬行你网站的时候就会首先访问这个文件(robots文件一般都要存放在根目录,蜘蛛第一个访问的文件,因此这个文件是很重要的)。robots文件的作用是告诉搜索引擎蜘蛛,网站的哪些文件夹可以抓取,哪些文件夹不能抓取,从而确保我们网站的隐私内容不会被收录。

 

三、robots文件怎么写?

大家可以先访问http://www.lpsseo.com/robots.txt看一看深山SEO博客的robots.txt文件。

 

1.定义搜索引擎

用User-agent:来定义搜索引擎,其中*表示所有
百度蜘蛛名字:Baiduspider,谷歌蜘蛛名字:Googlebot。

User-agent:*表示定义所有蜘蛛

User-agent: Baiduspider表示自定义百度蜘蛛,

User-agent: Googlebot表示自定义谷歌蜘蛛

大家可以参考百度或者淘宝的robots.txt,他么就是这样写的,而我们小站只需要自定义所有搜索引擎蜘蛛即可。

 

2.禁止访问和允许访问

User-agent: *

Disallow: /

表示禁止所有搜索引擎访问;

 

User-agent: *

Allow: /

表示允许所有搜索引擎访问。

PS:在:后面/前面有一个英文状态下的空格,空格必须有,必须是英文状态下的

 

3.禁止搜索引擎访问网站中的某些目录

假设a是我网站根目录的一个文件夹,写法分别如下:

User-agent: *

Disallow: /a 

禁止搜索引擎访问a文件夹及a文件夹下面的所有文件

 

User-agent: *

Disallow: /a/

禁止搜索引擎访问a文件夹下面的所有文件,但是a文件夹是允许被访问的(这里阐述不太清楚,具体大家可以去百度站长平台测试)

 

4、禁止搜索引擎访问某一类文件

$表示结尾,如果要禁止搜索引擎访问css结尾的文件,写法如下:

User-agent: *

Disallow: /*.css$ 

 

如果要禁止搜索引擎访问js结尾的文件,写法如下:

User-agent: *

Disallow: /*.js$ 

*号表示所有,$表示结尾,上面两个举例则表示所有css或者js结尾的文件

 

5.禁止访问网站中的动态页面

禁止访问网站中的动态页面,写法如下:

User-agent: *

Disallow: /*?*

?表示动态路径,*号表示所有。

 

6.禁止访问某个字母开头的文件


为了隐藏我们网站的一些目录,如后台地址等,假如shenshan这个文件夹是我网站的后台地址,我不想让别人通过robots.txt文件看到它,可以这样写

User-agent: *

Disallow: /sh*  

这就表示所有sh开头的目录都不能访问

 

7.允许访问首页

只允许搜索引擎蜘蛛访问我们网站首页,写法如下:

User-agent: *

Disallow: /* 
头条的robots.txt就是这样写的(似乎暴露了什么)。

 

8.禁止访问二级目录

如果我有两个文件夹下面同时存在shenshan这个文件夹,我又不想让搜索引擎访问shenshan这个文件夹,可以这样写:

User-agent: *

Disallow: /*/shenshan

 

三、书写robots文件注意事项

1.robots文件的后缀必须是.txt;

2.robots文件应该存放在网站的根目录,而且所有字母都必须小写;

3.在写robots文件的时候,User-agent、Disallow、Allow、Sitemap这些词开头第一个字母必须大写,后面的字母则要小写;

4.特别注意,在:后面必须有一个英文状态下的空格。


标签: robots.txt

版权所有,未经允许禁止转载,深山QQ: 78645714



评论