|
||||||||||
|
||||||||||
您現(xiàn)在的位置:中國IDC圈 >> SEO(搜索優(yōu)化) |
教你robots文件使用方法屏蔽搜索抓取方法 |
Robots.txt帶來的好處: 1. 幾乎所有的搜索引擎Spider都遵循robots.txt給出的爬行規(guī)則,協(xié)議規(guī)定搜索引擎Spider進入某個網(wǎng)站的入口即是該網(wǎng)站的 robots.txt,當然,前提是該網(wǎng)站存在此文件。對于沒有配置robots.txt的網(wǎng)站,Spider將會被重定向至404 錯誤頁面,相關研究表明,如果網(wǎng)站采用了自定義的404錯誤頁面,那么Spider將會把其視作robots.txt——雖然其并非一個純粹的文本文件 ——這將給Spider索引網(wǎng)站帶來很大的困擾,影響搜索引擎對網(wǎng)站頁面的收錄。 2. robots.txt可以制止不必要的搜索引擎占用服務器的寶貴帶寬,如email retrievers,這類搜索引擎對大多數(shù)網(wǎng)站是沒有意義的;再如image strippers,對于大多數(shù)非圖形類網(wǎng)站來說其也沒有太大意義,但卻耗用大量帶寬。 3. robots.txt可以制止搜索引擎對非公開頁面的爬行與索引,如網(wǎng)站的后臺程序、管理程序,事實上,對于某些在運行中產(chǎn)生臨時頁面的網(wǎng)站來說,如果未配置robots.txt,搜索引擎甚至會索引那些臨時文件。 4. 對于內容豐富、存在很多頁面的網(wǎng)站來說,配置robots.txt的意義更為重大,因為很多時候其會遭遇到搜索引擎Spider給予網(wǎng)站的巨大壓力:洪水般的Spider訪問,如果不加控制,甚至會影響網(wǎng)站的正常訪問。 5. 同樣地,如果網(wǎng)站內存在重復內容,使用robots.txt限制部分頁面不被搜索引擎索引和收錄,可以避免網(wǎng)站受到搜索引擎關于 duplicate content的懲罰,保證網(wǎng)站的排名不受影響。 robots.txt帶來的風險及解決: 1. 凡事有利必有弊,robots.txt同時也帶來了一定的風險:其也給攻擊者指明了網(wǎng)站的目錄結構和私密數(shù)據(jù)所在的位置。雖然在Web服務器的安全措施配置得當?shù)那疤嵯逻@不是一個嚴重的問題,但畢竟降低了那些不懷好意者的攻擊難度。 比如說,如果網(wǎng)站中的私密數(shù)據(jù)通過www.yourdomain.com/private/index.html 訪問,那么,在robots.txt的設置可能如下: User-agent: * Disallow: /private/ 這樣,攻擊者只需看一下robots.txt即可知你要隱藏的內容在哪里,在瀏覽器中輸入www.yourdomain.com/private/ 便可訪問我們不欲公開的內容。對這種情況,一般采取如下的辦法: 設置訪問權限,對/private/中的內容實施密碼保護,這樣,攻擊者便無從進入。 另一種辦法是將缺省的目錄主文件index.html更名為其他,比如說abc-protect.html,這樣,該內容的地址即變成 www.yourdomain.com/private/abc-protect.htm,同時,制作一個新的index.html文件,內容大致為“你沒有權限訪問此頁”之類,這樣,攻擊者因不知實際的文件名而無法訪問私密內容。 2. 如果設置不對,將導致搜索引擎將索引的數(shù)據(jù)全部刪除。 User-agent: * Disallow: / 上述代碼將禁止所有的搜索引擎索引數(shù)據(jù)。 目前看來,絕大多數(shù)的搜索引擎機器人都遵守robots.txt的規(guī)則,而對于Robots META標簽,目前支持的并不多,但是正在逐漸增加,如著名搜索引擎GOOGLE就完全支持,而且GOOGLE還增加了一個指令“archive”,可以限制GOOGLE是否保留網(wǎng)頁快照。例如: <META NAME=“googlebot” CONTENT=“index,follow,noarchive”> 表示抓取該站點中頁面并沿著頁面中鏈接抓取,但是不在GOOLGE上保留該頁面的網(wǎng)頁快照。
|
【責任編輯:junlee】
|
文章評論
|
|
|
|||||||||||||||||||||||||||||||
|
|||||||||||||||||||||||||||||||
|
|||||||||||||||||||||||||||||||
|
|||||||||||||||||||||||||||||||
|
|||||||||||||||||||||||||||||||
|
|||||||||||||||||||||||||||||||
|
|||||||||||||||||||||||||||||||
|
|||||||||||||||||||||||||||||||
|
|||||||||||||||||||||||||||||||
|
Chinaitlab Group 旗下網(wǎng)站: |
關于我們 | 廣告服務| 成功客戶 | 友情鏈接 | 網(wǎng)站歷史 | 聯(lián)系我們 | 招聘信息 | 免責聲明 |
|
北京盛世創(chuàng)富廣告?zhèn)髅接邢薰?BR>北京運營中心:北京市海淀區(qū)中關村南大街9號理工科技大廈2107室 服務電話:86-10-85655622 深圳研發(fā)中心:深圳市福田保稅區(qū)英達利科技數(shù)碼園C座701D 服務電話:86-755-82044560 Copyright©2001 - 2009 All Rights Reserved |
|