中文網賺論壇基本設置完成,歡迎各位站長前往交流網路賺錢!

SEO搜索引擎優化實用技巧 禁止搜索部份網頁

網路賺錢站長做好網站的初步建設之後,當然希望各家搜索引擎常來收錄網頁資料,正規做站引流量賺錢好像不怎有必要禁止搜索引擎來收錄才對,至少5imm以前都是這麼認為的。

在前面的文章提到過,5imm買Google adwords及奇摩關鍵字廣告賺錢,當時為了區分訪客流量並藉此統計Google AdWords及奇摩關鍵字廣告的成效,同一張銷售頁 sale.html 又複製出 sale-adwords.html 及 sale-yahoo.html,自己網站上的訪客引導到sale.html ,買Google AdWords則引導到sale-adwords.html ,至於奇摩關鍵字廣告來的則是sale-yahoo.html。這是一個好方法,用來區分網站本身來客或是花錢買廣告介紹來的客人。但是同樣內容的網頁,命名為不同的檔案名稱放在自己的網站上,是早期針對SEO搜索引擎優化一種作弊的方法,現在這樣做可能會被搜索引擎認為是要作弊而給予減分。怎麼辦呢?

解決的辦法就是不要讓搜索引擎去拜訪這些網頁就行了,做法基本上有兩種:

一、在個別網頁裏加上禁止拜訪的語法,5imm不推薦,因為一方面你要在每張不希望搜索引擎拜訪的網頁裏,一張網頁一張網頁的加上語法,比較麻煩,另一方面在實際作業時,因為這些網頁經常在自己的電腦裏被複製、改寫使用,很可能一個不小心留下這個禁止拜訪的語法,結果導致希望能被收錄的網頁卻禁止拜訪。

二、在網站的根目錄裏加一個robots.txt文件,告訴搜索引擎網站裏的那些網頁不要拜訪。5imm推薦這種做法,統一管理比較不容易出錯。關於robots.txt文件相關格式、語法,5imm就可能需要的部份,摘錄「百度搜索幫助中心-禁止搜索引擎收錄的方法」如下:

什麼是robots.txt文件?
搜索引擎使用spider程式自動訪問互聯網上的網頁並獲取網頁資訊。spider在訪問一個網站時,會首先會檢查該網站的根域下是否有一個叫做robots.txt的純文字檔案,這個檔用於指定spider在您網站上的抓取範圍。您可以在您的網站中創建一個robots.txt,在檔中聲明該網站中不想被搜索引擎收錄的部分或者指定搜索引擎只收錄特定的部分。

請注意,僅當您的網站包含不希望被搜索引擎收錄的內容時,才需要使用robots.txt文件。如果您希望搜索引擎收錄網站上所有內容,請勿建立robots.txt文件。

robots.txt文件放在哪里?
robots.txt檔應該放置在網站根目錄下。舉例來說,當spider訪問一個網站(比如http://www.abc.com)時,首先會檢查該網站中是否存在http://www.abc.com/robots.txt 這個檔,如果Spider找到這個檔,它就會根據這個檔的內容,來確定它訪問許可權的範圍。

網站 URL

相應的 robots.txt的 URL

http://www.w3.org/

http://www.w3.org/robots.txt

http://www.w3.org:80/

http://www.w3.org:80/robots.txt

http://www.w3.org:1234/

http://www.w3.org:1234/robots.txt

http://w3.org/

http://w3.org/robots.txt

robots.txt檔的格式
"robots.txt"檔包含一條或更多的記錄,這些記錄通過空行分開(以CR,CR/NL, or NL作為結束符),每一條記錄的格式如下所示:
"<field>:<optionalspace><value><optionalspace>"。

在該檔中可以使用#進行注解,具體使用方法和UNIX中的慣例一樣。該檔中的記錄通常以一行或多行User-agent開始,後面加上若干Disallow和Allow行,詳細情況如下:

User-agent:
   該項的值用於描述搜索引擎robot的名字。在"robots.txt"檔中,如果有多條User-agent記錄說明有多個robot會受到"robots.txt"的限制,對該檔來說,至少要有一條User-agent記錄。如果該項的值設為*,則對任何robot均有效,在"robots.txt"文件中,"User-agent:*"這樣的記錄只能有一條。如果在"robots.txt"文件中,加入"User-agent:SomeBot"和若干Disallow、Allow行,那麼名為"SomeBot"只受到"User-agent:SomeBot"後面的Disallow和Allow行的限制。

Disallow:
   該項的值用於描述不希望被訪問的一組URL,這個值可以是一條完整的路徑,也可以是路徑的非空首碼,以Disallow項的值開頭的URL不會被robot訪問。例如"Disallow:/help"禁止robot訪問/help.html、/helpabc.html、/help/index.html,而"Disallow:/help/"則允許robot訪問/help.html、/helpabc.html,不能訪問/help/index.html。"Disallow:"說明允許robot訪問該網站的所有url,在"/robots.txt"檔中,至少要有一條Disallow記錄。如果"/robots.txt"不存在或者為空檔,則對於所有的搜索引擎robot,該網站都是開放的。

如果需要更多說明,請自行參考「百度搜索幫助中心-禁止搜索引擎收錄的方法」。

暂无留言

我要留言
(必填)
(必填,绝不公开)