非常详细的robots.txt大全和禁止目录收录及指定页面

robots.txt书写全集和robots.txt英语的语法的功效

1假如容许全部百度搜索引擎浏览网址的全部一部分得话我们可以创建一个空白页的文本文件,取名为robots.txt放到网址的根目录下就可以。

robots.txt书写以下:

User-agent:*

Disallow:

或是

User-agent:*

Allow:/

2如果我们严禁全部百度搜索引擎浏览网址的全部一部分得话

robots.txt书写以下:

User-agent:*

Disallow:/

3如果我们必须某一个百度搜索引擎的爬取得话,例如百度搜索,严禁百度搜索数据库索引大家的网址得话

robots.txt书写以下:

User-agent:Baiduspider

Disallow:/

4如果我们严禁Google数据库索引大家的网址得话,实际上跟实例3一样,便是User-agent:头文件的搜索引擎蜘蛛姓名改为Google的Googlebot

就可以

robots.txt书写以下:

User-agent:Googlebot

Disallow:/

5如果我们严禁除Google外的一切百度搜索引擎数据库索引大家的网址话

robots.txt书写以下:

User-agent:Googlebot

Disallow:

User-agent:*

Disallow:/

6如果我们严禁除百度搜索外的一切百度搜索引擎数据库索引大家的网址得话

robots.txt书写以下:

User-agent:Baiduspider

Disallow:

User-agent:*

Disallow:/

7如果我们必须严禁搜索引擎蜘蛛浏览某一文件目录,例如严禁admin、css、images等文件目录被数据库索引得话

robots.txt书写以下:

User-agent:*

Disallow:/css/

Disallow:/admin/

Disallow:/images/

8如果我们容许搜索引擎蜘蛛浏览大家网址的某一文件目录中的一些特殊网站地址得话

robots.txt书写以下:

User-agent:*

Allow:/css/my

Allow:/admin/html

Allow:/images/index

Disallow:/css/

Disallow:/admin/

Disallow:/images/

9大家看一些网址的robots.txt里的Disallow或是Allow里会看许多 的标记,例如疑问星号哪些的,假如应用“*”,主要是限定浏览某一后缀名的网站域名,禁止访问/html/文件目录下的全部以”.htm”为后缀名的URL(包括根目录)。

robots.txt书写以下:

User-agent:*

Disallow:/html/*.htm

10如果我们应用“$”得话是仅容许浏览某文件目录下某一后缀名的文档

robots.txt书写以下:

User-agent:*

Allow:.asp$

Disallow:/

11如果我们严禁数据库索引网址中全部的动态性网页页面(这儿限定的是有“?”的网站域名,比如index.asp?id=1)

robots.txt书写以下:

User-agent:*

Disallow:/*?*

一些情况下,大家以便节约服务器空间,必须严禁各种百度搜索引擎来数据库索引大家网址上的照片,这儿的方法除开应用“Disallow:/images/”那样的立即屏蔽掉文件夹名称的方法以外,还能够采用立即屏蔽掉照片文件后缀名的方法。

实例12

如果我们严禁Google百度搜索引擎爬取大家网址上的全部图片(假如你的网址应用别的后缀名的照片名字,在这儿还可以立即加上)

robots.txt书写以下:

User-agent:Googlebot

Disallow:.jpg$

Disallow:.jpeg$

Disallow:.gif$

Disallow:.png$

Disallow:.bmp$

13如果我们严禁百度搜索百度搜索引擎爬取大家网址上的全部图片得话

robots.txt书写以下:

User-agent:Baiduspider

Disallow:.jpg$

Disallow:.jpeg$

Disallow:.gif$

Disallow:.png$

Disallow:.bmp$

14除开百度搜索以外和Google以外,严禁别的百度搜索引擎爬取你网址的照片

(留意,在这儿以便让诸位看的更搞清楚,因而应用一个较为笨的方法——针对单独百度搜索引擎独立界定。)

robots.txt书写以下:

User-agent:Baiduspider

Allow:.jpeg$

Allow:.gif$

Allow:.png$

Allow:.bmp$

User-agent:Googlebot

Allow:.jpeg$

Allow:.gif$

Allow:.png$

Allow:.bmp$

User-agent:*

Disallow:.jpg$

Disallow:.jpeg$

Disallow:.gif$

Disallow:.png$

Disallow:.bmp$

15只是容许百度搜索爬取网址上的“JPG”文件格式

(别的百度搜索引擎的方法也和这一一样,仅仅改动一下百度搜索引擎的搜索引擎蜘蛛名字就可以)

robots.txt书写以下:

User-agent:Baiduspider

Allow:.jpg$

Disallow:.jpeg$

Disallow:.gif$

Disallow:.png$

Disallow:.bmp$

16只是严禁百度搜索爬取网址上的“JPG”文件格式

robots.txt书写以下:

User-agent:Baiduspider

Disallow:.jpg$

17假如?表明一个对话ID,您可清除全部包括该ID的网站地址,保证Googlebot不容易爬取反复的网页页面。可是,以?末尾的网站地址可能是您要包括的网页页面版本号。在这里状况下,沃恩可将与Allow命令相互配合应用。

robots.txt书写以下:

User-agent:*

Allow:/*?$

Disallow:/*?

Disallow:/*?

一行将阻拦包括?的网站地址(实际来讲,它将阻拦全部以您的网站域名开始、后接随意字符串数组,随后是疑问(?),然后也是随意字符串数组的网站地址)。Allow:/*?$一行将容许包括一切以?末尾的网站地址(实际来讲,它将容许包括全部以您的网站域名开始、后接随意字符串数组,随后是疑问(?),疑问以后沒有一切标识符的网站地址)。

18如果我们想严禁百度搜索引擎对一些文件目录或是一些URL浏览得话,能够 提取一部分的姓名

robots.txt书写以下:

User-agent:*

Disallow:/plus/feedback.php?

以上内容供大伙儿参照下就可以。


转载请说明出处内容投诉
八爷源码网 » 非常详细的robots.txt大全和禁止目录收录及指定页面