一、什么是robots.txt?
robots是網(wǎng)站和搜索引擎協(xié)議的純文本文件,當(dāng)一個搜索引擎蜘蛛來訪問站點的時候,首先爬行檢查根目錄是否存在這個文件。如果存在的話,那么就會根據(jù)文件的內(nèi)容來確定訪問范圍,如果沒有的話蜘蛛就會沿著鏈接進行抓取,robots放在項目的根目錄下。
二、 robots.txt基本語法:
1、允許所有搜索引擎訪問網(wǎng)站的所有部分,robots.txt寫法如下
User-agent: *
Disallow:
或者
User-agent: *
Allow: /
注意:
1. 首個英文要大寫,冒號是英文狀態(tài)下,冒號后面有一個空格,這幾點一定不能寫錯。
2 、禁止所有搜索引擎訪問網(wǎng)站的所有部分
robots.txt寫法如下:
User-agent: *
Disallow: /
3 、只需要禁止蜘蛛訪問某個目錄,比如禁止admin、css、images等目錄被索引
robots.txt寫法如下:
User-agent: *
Disallow: /css/
Disallow: /admin/
Disallow: /images/
注意:路徑后面有斜杠和沒有斜杠的區(qū)別:比如Disallow: /images/ 有斜杠是禁止抓取images整個文件夾,Disallow: /images 沒有斜杠意思是凡是路徑里面有/images關(guān)鍵詞的都會被屏蔽
4、屏蔽一個文件夾/templets,但是又能抓取其中一個文件的寫法:/templets/main
robots.txt寫法如下:
User-agent: *
Disallow: /templets
Allow: /main
5、 禁止訪問/html/目錄下的所有以”.php”為后綴的URL(包含子目錄)
robots.txt寫法如下:
User-agent: *
Disallow: /html/*.php
6、 僅允許訪問某目錄下某個后綴的文件,則使用“$”
robots.txt寫法如下:
User-agent: *
Allow: .html$
Disallow: /
7、禁止索引網(wǎng)站中所有的動態(tài)頁面
比如這里限制的是有“?”的域名,例如index.php?id=1
robots.txt寫法如下:
User-agent: *
Disallow: /*?*
8、 禁止搜索引擎抓取我們網(wǎng)站上的所有圖片(如果你的網(wǎng)站使用其他后綴的圖片名稱,在這里也可以直接添加)
有些時候,我們?yōu)榱斯?jié)省服務(wù)器資源,需要禁止各類搜索引擎來索引我們網(wǎng)站上的圖片,這里的辦法除了使用“Disallow: /images/”這樣的直接屏蔽文件夾的方式之外,還 可以采取直接屏蔽圖片后綴名的方式。
robots.txt寫法如下:
User-agent: *
Disallow: .jpg$
Disallow: .jpeg$
Disallow: .gif$
Disallow: .png$
Disallow: .bmp$
三、寫robots.txt要注意的地方:
1)、 首個英文要大寫,冒號是英文狀態(tài)下,冒號后面有一個空格,這幾點一定不能寫錯。
2.)、斜杠:/ 代表整個網(wǎng)站
3)、如果“/”后面多了一個空格,則屏蔽整個網(wǎng)站
4)、不要禁止正常的內(nèi)容
5)、生效時間是幾天到兩個月
四、robots.txt文件對網(wǎng)站優(yōu)化有什么作用?
1、疾速增加網(wǎng)站權(quán)重和拜訪量;
2、制止某些文件被查找引擎索引,能夠節(jié)約服務(wù)器帶寬和網(wǎng)站拜訪速度;
3、為查找引擎供給一個簡潔明了的索引環(huán)境