詳細資訊:
•日期:  2011-06-27  
•主題: 如何使網站不被搜尋引擎搜尋到
•作者: 網頁設計
•內容:


我們經常在找尋資料的時候,常常會看到一些很奇怪的網頁資料。
例如有些頁面是預先設計製作,尚未完成或著是尚未到達公佈的時間,但已預先放置在網站下。這種情況都有可能被搜尋引擎找到。

該如何做才能讓搜尋引擎不要檢索這些不應該出現的頁面呢?
其實方法很簡單,只要寫個簡單的文字檔(robots.txt),放在網站的根目錄即可。
當這些搜尋引擎crawler到達web伺服器的時候,會先去根目錄尋找是否有robots.txt這個檔案。robots.txt裡面的內容就是告訴搜尋引擎哪些資料夾或者是哪些網頁不要檢索。當spider或者crawler看過這個檔案之後,就會依循robots.txt內容的指示,略過這些資料夾或者網頁,而檢索其他網頁。

以Yahoo來說,Yahoo!的crawler名稱叫做Slurp,因此如果不想讓Yahoo檢索你的網頁,在robots.txt裡面就應該這麼寫:

User-Agent:Slurp
Disallow:/test/

然後儲存成為robots.txt就可以了。User-Agent是用來告訴搜尋引擎crawler的名字,而Disallow則是告知搜尋引擎不可以做哪些事情。因此如果你不希望所有的搜尋引擎檢索test資料夾,可以使用萬用字元(*)代表所有的搜尋引擎。寫法就變成:
User-Agent:*
Disallow:/*
可以加上更多的Disallow陳述,說明不要檢索哪些資料夾。

如果你只希望某個搜尋引擎檢索這個資料夾,但不許其他搜尋引擎檢索的話,那麼寫法就會變成:

User-Agent:* (所有的搜尋引擎)
Disallow:/*User-Agent:Slurp (Yahoo搜尋引擎)
Allow:/*
如果只是想設定某張網頁不要被檢索,那麼就更簡單了。只要在網頁的meta裡面加上以下這一段程式碼即可:
<meta name="robots" content="noindex,nofollow">

一個網站只需要有一個robots.txt檔案,放置在網站根目錄底下即可實行

•夾檔:  附件 無附件