很多人開始做網站推廣、SEO時,可能都還在學習SEO。而在學習SEO的過程中,robots.txt的撰寫是不可避免的,但是眾多新手並不知道如何寫robots.txt,甚至連什麼是robots.txt都不知道,我在剛開始的時候也是沒有怎麼認真寫,現在想想,對它的研究是少了點,畢竟robots.txt檔對一個網站的收錄和排名還是有很大的幫助的,寫好了,就等於你牽著搜尋引擎的鼻子走。
那什麼是robots.txt呢?
放在網站根目錄,用於指定搜尋引擎蜘蛛spider在您網站上的抓取範圍的一個txt純文字檔,在檔中聲明該網站中不想被搜尋引擎收錄的部分或者指定搜尋引擎只收錄特定的部分。搜尋引擎使用spider程式自動訪問網路上的網頁並獲取網頁資訊,spider在訪問一個網站時,根據蜘蛛的工作原理,會首先檢查該網站的根域下是否有一個叫做robots.txt的純文字文件。而這個檔就是robots.txt文件。
如何寫robots.Txt 文件?
首先清楚它的格式:
User-agent: *
Disallow:/
user-agent是用來指定對象。*代表針對全部的蜘蛛有效,但如果要針對某個蜘蛛,就要必需指明蜘蛛名稱,例如:Baiduspider,Googlebot或者其他搜尋引擎蜘蛛。
Disallow翻譯過來是不允許,可以寫成allow(代表允許)。後面的“/”表示所有檔,如果是某個資料夾,則要表示為“/資料夾1/”,如:
User-agent: Googlebot
Disallow: /
則意思為,針對Google蜘蛛,不允許所有檔。再如:
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/
這個意思則為針對搜索物件,不允許蜘蛛訪問cgi-bin,tmp,~joe三個資料夾,但是值得注意的是不能寫成”Disallow: /cgi-bin/ /tmp/”。
其他的例子還有:
1、禁止所有搜尋引擎訪問網站的任何部分:
User-agent: *
Disallow: /
2、允許所有的robot訪問
User-agent: *
Disallow:
或者
User-agent: *
Allow: /
注意,最直接的可以建一個空檔 “/robots.txt”
3、僅允許Googlebot訪問您的網站
User-agent: Googlebot
allow: /
或者:
User-agent: Baiduspider
Disallow:
disallow:後面不寫任何東西,則表示為空,意思為針對針百度蜘蛛,不允許檔為空,則整體意思是僅允許Baiduspider訪問該網站。
4、允許訪問特定目錄中的部分url
User-agent: *
Allow: /cgi-bin/see
Allow: /tmp/hi
Allow: /~joe/look
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/
5、使用”*”限制訪問url
User-agent: *
Disallow: /cgi-bin/*.htm
意為禁止訪問/cgi-bin/目錄下的所有以”.htm”為尾碼的URL(包含子目錄)。
6、使用”$”限制訪問url
User-agent: *
Allow: .htm$
Disallow: /
意為僅允許訪問以”.htm”為尾碼的URL
7、禁止訪問網站中所有的動態頁面
User-agent: *
Disallow: /*?*
8、禁止Baiduspider抓取網站上所有圖片
User-agent: Baiduspider
Disallow: .jpg$
Disallow: .jpeg$
Disallow: .gif$
Disallow: .png$
Disallow: .bmp$
意為僅允許抓取網頁,禁止抓取任何圖片
9、僅允許Baiduspider抓取網頁和.gif格式圖片
User-agent: Baiduspider
Allow: .gif$
Disallow: .jpg$
Disallow: .jpeg$
Disallow: .png$
Disallow: .bmp$
意為允許抓取網頁和gif格式圖片,不允許抓取其他格式圖片
10、僅禁止Baiduspider抓取.jpg格式圖片
User-agent: Baiduspider
Disallow: .jpg$
新手在學習SEO的時候沒有必要寫這麼詳細的robots.txt檔,把主要的寫出來就可以了,如果寫的不好還會得到不好的效果,上述的例子比較齊全,新手要認真的看,把思路理清,整合一個適合自己網站的檔,熟悉之後就能使用到多個網站了。