搞过网址的盆友都了解robots.txt文件是用于限定百度搜索引擎不乱爬取,只爬取大家期待被百度收录的內容的。例如大家网址的后台管理也不期待被检索爬取,那麼robots文件必须那样写:
User-agent:*
Disallow:/admin/
可是那样大家非常容易发觉了一个难题,假如有些人要破译进攻得话,非常容易就知道后台管理,一下子就清晰了网址的构造。
大家并不愿那样!
有木有方法让robots.txt既能限定百度搜索引擎,又不泄漏后台管理详细地址和隐私保护文件目录呢?有!
一、使用通配符(*):
User-agent:*
Disallow:/a*/
那样的书写,严禁全部的百度搜索引擎爬取根目录下a开头的文件目录。当您的后台管理是admok165得话,谁会会见到呢?
二、只写文件目录前好多个英文字母,不写全:
User-agent:*
Disallow:/ad
这类的书写,是严禁全部的百度搜索引擎爬取根目录下ad开头的文件目录。
最终表明一下,之上这二种方式,必须网站导航沒有同样英文字母开始的,比如ad文件目录,如果有2个一样的,那需在robots.txt文件里再再加一个英文字母差别起来。