robots.txt文件的作用和標准寫法

作者:和奇一號發表于:2015-02-23

seo工作者應該不陌生,robots.txt文件是每一個搜索引擎蜘蛛到你的網站之後要尋找和訪問的第一個文件,robots.txt是你對搜索
引擎制定的一個如何索引你的網站的規則。通過該文件,搜索引擎就可以知道在你的網站中哪些文件是可以被索引的,哪些文件是被拒絕索引的,我們就可以很方便
地控制搜索索引網站內容了。

robots.txt文件的作用:

1、屏蔽網站內的死鏈接。2、屏蔽搜索引擎蜘蛛抓取站點內重複內容和頁面。3、阻止搜索引擎索引網站隱私性的內容。

因此建立robots.txt文件是很有必要的,網站中重複的內容、頁面或者404信息過多,搜索引擎蜘蛛就會認爲該網站價值較低,從而降低對該網站的“印象分”,這就是我們經常聽到的“降低權重”,這樣網站的排名就不好了。

robots.txt文件需要注意的最大問題是:必須放置在一個站點的根目錄下,而且文件名必須全部小寫。

robots.txt文件的基本語法只有兩條,第一條是:User-agent,即搜索引擎蜘蛛的名稱;第二條是:Disallow,即要攔截的部分。

下面我們看一下撰寫基本的robots.txt文件所需要知道的一些語法和作用。

(1),允許所有的搜索引擎訪問網站的所有部分或者建立一個空白的文本文檔,命名爲robots.txt。

User-agent:*Disallow:或者User-agent:*Allow:/

(2),禁止所有搜索引擎訪問網站的所有部分。

User-agent:*Disallow:/

(3),禁止百度索引你的網站。

User-agent:BaiduspiderDisallow:/

(4),禁止Google索引你的網站。

User-agent:GooglebotDisallow:/

(5),禁止除百度以外的一切搜索引擎索引你的網站。

User-agent:BaiduspiderDisallow:User-agent:*Disallow:/

(6),禁止除Google以外的一切搜索引擎索引你的網站。

User-agent:GooglebotDisallow:User-agent:*Disallow:/

(7),禁止和允許搜索引擎訪問某個目錄,如:禁止訪問admin目錄;允許訪問images目錄。

User-agent:*Disallow:/admin/Allow:/images/

(8),禁止和允許搜索引擎訪問某個後綴,如:禁止訪問admin目錄下所有php文件;允許訪問asp文件。

User-agent:*Disallow:/admin/*.php$Allow:/admin/*.asp$

(9),禁止索引網站中所有的動態頁面(這裏限制的是有“?”的域名,如:index.php?id=8)。

User-agent:*Disallow:/*?*