一般來說,儘量讓搜尋引擎抓取和索引更多內容是 SEO 們經常頭疼的一個問題,沒有收錄、索引就無從談排名。尤其對達到一定規模的網站來說,使網站充分收錄是個頗令人費神的SEO技術,當頁面達到比如說幾十萬,無論網站架構怎麼設計、多麼優化,100%收錄都是不可能的,只能儘量提高收錄率。
但有時候怎麼阻止搜尋引擎收錄也可能成為一個問題,最近越來越成為問題。需要阻止收錄的情況如保密資訊、複製內容、廣告連結等。過去常用的阻止收錄方法包括密碼保護、把內容放在表格後面、使用JS/Ajax、使用Flash等。今天看到Google網管博客一篇文章,這些方法都不保險。
怎樣使頁面不被收錄是個值得思考的問題,沒意識到嚴重性的朋友可以想想自己網站上有多少複製內容、低品質內容、各種無搜尋價值(但用戶覺得方便、有用所以又不能拿掉)的分類、過濾URL。
使用Flash
Google幾年前就開始嘗試抓取Flash內容了,簡單文字性內容已經能抓取。Flash裡面的連結也能被跟蹤。
表格
Google蜘蛛也能填表,也能抓取POST請求頁面。這個早就能從日誌中看到。
JS/Ajax
使用JS連結一直以來被當作不搜尋引擎友好的方法,因此可以阻止蜘蛛爬行,但兩三年前我就看到JS連結不能阻止Google蜘蛛抓取,不僅JS中出現的URL會被爬,簡單的JS還能被執行找到更多URL。
前幾天有人發現很多網站使用的Facebook評論外掛程式裡的評論也照樣被爬、被收錄,外掛程式本身是個AJAX。
Robots文件
目前唯一確保內容不被收錄的方法是robots檔禁止。但也有個壞處,會流失權重,雖然內容是不能收錄了,但頁面成了只接受連結權重、不流出權重的無底洞。
Nofollow
Nofollow並不能保證不被收錄。就算自己網站所有指向頁面的連結都加了NF,也不能保證別人網站不給這個頁面弄個連結,搜尋引擎還是能發現這個頁面。
Meta Noindex + Follow
為防止收錄又能傳遞權重,可以在頁面上使用meta noindex和 meta follow,這樣頁面不收錄,但能流出權重。確實如此,或許也是個比較好的方法。也有一個問題,還是會浪費蜘蛛爬行時間。
留言列表