剛從事 SEO 的人常分不清楚Robots和nofollow的區別和操作方式,今天就來談一下這個..
1、搜尋引擎蜘蛛爬蟲的原理
當蜘蛛下載一個網頁;保存一個txt純文字;就是那個快照 快照緩存文本;會提取中間的[url]、<a>提取出來,站外連結,站內連結,再次進行抓取
2、什麼是robots協議
robots.txt 協議:早期是為了放置搜尋引擎的抓取一些隱私的頁面。它是協議,它不是一個命令。
3、robots.txt協議的作用
(1)、遮罩無內容頁面。(無內容頁面會行銷頁面品質)
登錄頁、註冊頁、商城的載入頁、商城的購物籃、個人資訊頁,這些頁面都要遮罩掉。
(2)、遮罩重複的頁面。(重複的對於站內頁面的品質也是會受到非常嚴重的影響的)
(3)、遮罩死連結頁面。(遮罩因為外連而引用死連結)
舉例:一網站首頁:
有2個解決辦法
第一、不給與連結入口,路徑標準化(帶‘/’不帶‘/’)。
第二、直接用robots.txt遮罩掉。
User-agent: *
Disallow: /portal.php
Disallow: /index.php
4、Robots.txt的使用和操作
User-agent:定義搜尋引擎的,Allow:允許的,Disallow:不允許禁止。
爬蟲名稱:谷歌(Googlebot),雅虎(Yahoo Slurp)
我們查IIS日誌的時候就是直接查爬蟲的名字。
HTTP狀態碼(見下方):
User-agent: *
Disallow: /
注意:冒號後面一定要有空格。
(1)Robots.txt的常見語法:(User-agent: 定義搜尋引擎 Disallow: 禁止 Allow: 允許)
(2)User-agent語法的使用:定義所有搜尋引擎用 * 百度蜘蛛 Baiduspider 谷歌機器人 Googlebot
(3)語法的細節使用:冒號後面要有空格,語法的第一個字母大寫。
(4)語法的搭配使用
User-agent 放在第一,起到定義搜尋引擎,意識就是之後的語法是針對User-agent定義所在的搜尋引擎有效的
(5)資料夾的使用
A、斜杠的問題:
單一的斜杠代表 根目錄,
'Disallow: /seo/'和'Disallow: /seo'它們的區別是什麼查看。
第二個是包含第一個的,並且還有其它的含義。
Disallow: /seo/ 禁止爬取該網站的 SEO目錄
Disallow: /seo 它還能夠禁止所有以SEO開頭的目錄和檔。
(6)、關於Allow語法
(在語法沒有明確禁止的網頁和目錄就代表是允許抓取)
Allow:它的使用一般都是結合‘Disallow’它不像單獨出現,只有在Disallow比較繁雜的時候才會產生高效性。
舉例:http://www.google.com/robots.txt
Disallow: /citations?
Allow: /citations?user=
Allow: /citations?view_op=new_profile
遮罩所有 以 citations? 開頭的動態路徑,它又發現這個動態路徑下面有2種動態路徑是必須收錄的,難道我們真的一個一個動態路徑去遮罩嗎?這個就是Allows的高效性。
(7)匹配符 $ *
萬用字元是整個robots.txt 裡面的核心內容
[1]、萬用字元的作用
$ 是結束符(所有以他結尾的都能夠進行匹配)。
* 匹配零或者多個任意字元。
? 不是匹配符,是動態路徑。
萬用字元的出現讓robots.txt代碼更加精簡,用更少的代碼能夠達到同樣的效果(匹配要遮罩N個路徑)。
[2]、萬用字元的使用
案例:我要遮罩我網站所有以html結尾的路徑。
User-agent: *
Disallow: /*.html$
禁止具有唯一性,必須加上 某個絕對位址的。
錯誤案例:
User-agent: *
Disallow: /*.html
此語法禁止所有帶有.html路徑包括動態路徑的.html=?此類
例:
Disallow: /places/
Allow: /places/$
只收錄/places/這個路徑,不收錄這個路徑裡面所有的頁面和路徑。
案例3:
Disallow: /wml? 遮罩所有以wml?開頭的路徑。
Disallow: /wml/? 遮罩所有以wml目錄後面的動態路徑
(?不是萬用字元)
案例4:
User-agent: *
Disallow: /*?*
遮罩我們網站的所有動態路徑
5、什麼是nofollow
nofollow 所有連結標記中的一種屬性(常用於<a>標籤和[url])語法為rel="nofollow"
這個標籤的作用就是告知搜尋引擎不要計算該連結的權重並且不要追蹤此連結,這個標籤是谷歌、雅虎、MSN(現在叫做Bing) 三家搜索引擎為了防止垃圾連結的氾濫而制定的一個標籤,現在被其他搜尋引擎採用。
6、nofollow的正確使用
禁止權重追蹤
加了rel="nofollow",這個連結的權重不計算的。
這個連結白做了(從SEO角度來說不傳遞權重了,並不是這個連結沒用,這個連結還是可以點擊的。
如果一個頁面連結裡面加入nofollow,那麼連結的文字對於該頁面排名是沒有貢獻的。
如:<a href="http://wife.match99.org/thread-256-1-1.html" target="_blank"><font color="#0000FF"><ins>大陸新娘</ins></font></a>
(1)、站內的廣告都會加入nofollow連結(我們會受到權重,受到牽連降權的)。
(2)、對於不信用的連結我們也加。
留言列表