日本久久99,色婷婷我要去我去也97,久久久久人妻精品一区三寸蜜桃,91人妻在线超碰,亚洲欧洲综合av在线

第三屆中國IDC產(chǎn)業(yè)年度大典(北京 2009年1月7日) 第二屆大典回顧 第一屆大典回顧

新聞資訊 國內(nèi) 情報 法規(guī)  技術(shù) CDN 機(jī)房 云計算  名錄 電信運(yùn)營商  企業(yè)應(yīng)用 網(wǎng)站營銷 SEO  訪談 供求 下載 搜索
通信 國際 分析 報告 活動  虛擬化 存儲 綠色科技  機(jī)房 IDC服務(wù)商  網(wǎng)游 電子商務(wù) 視頻 方案  專題 調(diào)查 論壇 測速
 
 您現(xiàn)在的位置:中國IDC圈 >> SEO(搜索優(yōu)化)

教你robots文件使用方法屏蔽搜索抓取方法

來源:chinaz 時間:2009-2-9 作者:佚名 保存本文 進(jìn)入論壇 

  搜索引擎通過一種程序robot(又稱spider),自動訪問互聯(lián)網(wǎng)上的網(wǎng)頁并獲取網(wǎng)頁信息。

  您可以在您的網(wǎng)站中創(chuàng)建一個純文本文件robots.txt,在這個文件中聲明該網(wǎng)站中不想被robot訪問的部分,這樣,該網(wǎng)站的部分或全部內(nèi)容就可以不被搜索引擎收錄了,或者指定搜索引擎只收錄指定的內(nèi)容。robots.txt文件應(yīng)該放在網(wǎng)站根目錄下。

  當(dāng)一個搜索機(jī)器人(有的叫搜索蜘蛛)訪問一個站點(diǎn)時,它會首先檢查該站點(diǎn)根目錄下是否存在robots.txt,如果存在,搜索機(jī)器人就會按照該文件中的內(nèi)容來確定訪問的范圍;如果該文件不存在,那么搜索機(jī)器人就沿著鏈接抓取。

  robots.txt文件的格式:

  “robots.txt”文件包含一條或更多的記錄,這些記錄通過空行分開(以CR,CR/NL, or NL作為結(jié)束符),每一條記錄的格式如下所示:

  “<field>:<optionalspace><value><optionalspace>”。

  在該文件中可以使用#進(jìn)行注解,具體使用方法和UNIX中的慣例一樣。該文件中的記錄通常以一行或多行User-agent開始,后面加上若干Disallow行,詳細(xì)情況如下:

  User-agent:

  該項的值用于描述搜索引擎robot的名字,在 “robots.txt”文件中,如果有多條User-agent記錄說明有多個robot會受到該協(xié)議的限制,對該文件來說,至少要有一條User- agent記錄。如果該項的值設(shè)為*,則該協(xié)議對任何機(jī)器人均有效,在“robots.txt”文件中,“User-agent:*”這樣的記錄只能有一條。

  Disallow:

  該項的值用于描述不希望被訪問到的一個URL,這個URL可以是一條完整的路徑,也可以是部分的,任何以Disallow開頭的URL均不會被robot 訪問到。例如“Disallow:/help”對/help.html 和/help/index.html都不允許搜索引擎訪問,而“Disallow:/help/”則允許robot訪問/help.html,而不能訪問 /help/index.html.任何一條Disallow記錄為空,說明該網(wǎng)站的所有部分都允許被訪問,在“/robots.txt”文件中,至少要有一條Disallow記錄。如果“/robots.txt”是一個空文件,則對于所有的搜索引擎robot,該網(wǎng)站都是開放的。

  robots.txt文件用法舉例:

  例1. 禁止所有搜索引擎訪問網(wǎng)站的任何部分 下載該robots.txt文件 User-agent: * Disallow: /

  例2. 允許所有的robot訪問 (或者也可以建一個空文件 “/robots.txt” file) User-agent: *Disallow:

  例3. 禁止某個搜索引擎的訪問 User-agent: BadBotDisallow: /

  例4. 允許某個搜索引擎的訪問 User-agent: baiduspiderDisallow: User-agent: *Disallow: /

  例 5.一個簡單例子  在這個例子中,該網(wǎng)站有三個目錄對搜索引擎的訪問做了限制,即搜索引擎不會訪問這三個目錄! ⌒枰⒁獾氖菍γ恳粋目錄必須分開聲明,而不要寫成 “Disallow: /cgi-bin/ /tmp/”! ser-agent:后的*具有特殊的含義,代表“any robot”,所以在該文件中不能有“Disallow: /tmp/*” or “Disallow:*.gif”這樣的記錄出現(xiàn)。 User-agent: *Disallow: /cgi-bin/Disallow: /tmp/Disallow: /~joe/

  Robot特殊參數(shù):

  1. Google

  允許 Googlebot:

  如果您要攔截除 Googlebot 以外的所有漫游器訪問您的網(wǎng)頁,可以使用下列語法:

  User-agent:Disallow:/

  User-agent:Googlebot

  Disallow:

  Googlebot 跟隨指向它自己的行,而不是指向所有漫游器的行。

  “Allow”擴(kuò)展名:

  Googlebot 可識別稱為“Allow”的 robots.txt 標(biāo)準(zhǔn)擴(kuò)展名。其他搜索引擎的漫游器可能無法識別此擴(kuò)展名,因此請使用您感興趣的其他搜索引擎進(jìn)行查找。“Allow”行的作用原理完全與 “Disallow”行一樣。只需列出您要允許的目錄或頁面即可。

  您也可以同時使用“Disallow”和“Allow”。例如,要攔截子目錄中某個頁面之外的其他所有頁面,可以使用下列條目:

  User-Agent:Googlebot

  Disallow:/folder1/

  Allow:/folder1/myfile.html

  這些條目將攔截 folder1 目錄內(nèi)除 myfile.html 之外的所有頁面。

  如果您要攔截 Googlebot 并允許 Google 的另一個漫游器(如 Googlebot-Mobile),可使用“Allow”規(guī)則允許該漫游器的訪問。例如:

  User-agent:Googlebot

  Disallow:/

  User-agent:Googlebot-Mobile

  Allow:

  使用 * 號匹配字符序列:

  您可使用星號 (*) 來匹配字符序列。例如,要攔截對所有以 private 開頭的子目錄的訪問,可使用下列條目:

  User-Agent:Googlebot

  Disallow:/private*/

  要攔截對所有包含問號 (?) 的網(wǎng)址的訪問,可使用下列條目:

  User-agent:*

  Disallow:/*?*

  使用 $ 匹配網(wǎng)址的結(jié)束字符

  您可使用 $ 字符指定與網(wǎng)址的結(jié)束字符進(jìn)行匹配。例如,要攔截以 .asp 結(jié)尾的網(wǎng)址,可使用下列條目:

  User-Agent:Googlebot

  Disallow:/*.asp$

  您可將此模式匹配與 Allow 指令配合使用。例如,如果 ? 表示一個會話 ID,您可排除所有包含該 ID 的網(wǎng)址,確保 Googlebot 不會抓取重復(fù)的網(wǎng)頁。但是,以 ? 結(jié)尾的網(wǎng)址可能是您要包含的網(wǎng)頁版本。在此情況下,可對 robots.txt 文件進(jìn)行如下設(shè)置:

  User-agent:*

  Allow:/*?$

  Disallow:/*?

  Disallow:/ *?一行將攔截包含 ? 的網(wǎng)址(具體而言,它將攔截所有以您的域名開頭、后接任意字符串,然后是問號 (?),而后又是任意字符串的網(wǎng)址)。

  Allow: /*?$ 一行將允許包含任何以 ? 結(jié)尾的網(wǎng)址(具體而言,它將允許包含所有以您的域名開頭、后接任意字符串,然后是問號 (?),問號之后沒有任何字符的網(wǎng)址)。

  Sitemap 網(wǎng)站地圖:

  對網(wǎng)站地圖的新的支持方式,就是在robots.txt文件里直接包括sitemap文件的鏈接。

  就像這樣:

  Sitemap: http://www.eastsem.com/sitemap.xml

  目前對此表示支持的搜索引擎公司有Google, Yahoo, Ask and MSN.

  不過,我建議還是在Google Sitemap 進(jìn)行提交,里面有很多功能可以分析你的鏈接狀態(tài)。

[1] [2] 下一頁  

【責(zé)任編輯:junlee】

最新推薦  
 經(jīng)濟(jì)危機(jī)下 企業(yè)郵箱應(yīng)用走俏
 億恩聯(lián)通GDC數(shù)據(jù)中心機(jī)房 打造國內(nèi)最專業(yè)的
 美橙建站寶典系列:域名陷阱見招拆招(一)
 熱烈祝賀五舟銷售第一臺Nehelam架構(gòu)的服務(wù)器
 博鰲論壇聚焦互聯(lián)網(wǎng)經(jīng)濟(jì) 電子商務(wù)逆勢看好
 演繹“水泥+鼠標(biāo)”新模式 建站基石先穩(wěn)好
 世紀(jì)互聯(lián)云計算正式商用 落地IDC行業(yè)
 第三屆中國制造業(yè)CIO年會在京隆重召開
 防止網(wǎng)頁木馬  如何加強(qiáng)網(wǎng)站安全后盾
 高性價比服務(wù)器主板華碩P5BV-C-2L震撼上市
相關(guān)文章  
性能最大化 重視服務(wù)器的文件碎片
PPLive否認(rèn)購買ppsoso.com 稱是一場炒作
雅虎中國郵箱服務(wù)器緊缺取消搜索引用戶
迅雷看看“屏蔽”海外IP 官方稱因服務(wù)器
土豆網(wǎng)加入百度聯(lián)盟 達(dá)成獨(dú)家搜索合作
Hitwise:搜索關(guān)鍵詞越來越長
從搜索引擎優(yōu)化五個問題 來看提高品牌經(jīng)
傳土豆優(yōu)酷雙雙屏蔽國外IP 為降低成本過
優(yōu)酷網(wǎng)向搜索引擎屏蔽視頻
網(wǎng)易宣布其搜索門戶啟用新域名youdao.c
 文章評論
Chinaitlab Group 旗下網(wǎng)站:
北京盛世創(chuàng)富廣告?zhèn)髅接邢薰?BR>北京運(yùn)營中心:北京市海淀區(qū)中關(guān)村南大街9號理工科技大廈2107室 服務(wù)電話:86-10-85655622
深圳研發(fā)中心:深圳市福田保稅區(qū)英達(dá)利科技數(shù)碼園C座701D 服務(wù)電話:86-755-82044560
Copyright©2001 - 2009 All Rights Reserved