日本久久99,色婷婷我要去我去也97,久久久久人妻精品一区三寸蜜桃,91人妻在线超碰,亚洲欧洲综合av在线

第三屆中國IDC產(chǎn)業(yè)年度大典(北京 2009年1月7日) 第二屆大典回顧 第一屆大典回顧

新聞資訊 國內 情報 法規(guī)  技術 CDN 機房 云計算  名錄 電信運營商  企業(yè)應用 網(wǎng)站營銷 SEO  訪談 供求 下載 搜索
通信 國際 分析 報告 活動  虛擬化 存儲 綠色科技  機房 IDC服務商  網(wǎng)游 電子商務 視頻 方案  專題 調查 論壇 測速
 
 您現(xiàn)在的位置:中國IDC圈 >> SEO(搜索優(yōu)化)

教你robots文件使用方法屏蔽搜索抓取方法

來源:chinaz 時間:2009-2-9 作者:佚名 保存本文 進入論壇 

  Robots.txt帶來的好處:

  1. 幾乎所有的搜索引擎Spider都遵循robots.txt給出的爬行規(guī)則,協(xié)議規(guī)定搜索引擎Spider進入某個網(wǎng)站的入口即是該網(wǎng)站的 robots.txt,當然,前提是該網(wǎng)站存在此文件。對于沒有配置robots.txt的網(wǎng)站,Spider將會被重定向至404 錯誤頁面,相關研究表明,如果網(wǎng)站采用了自定義的404錯誤頁面,那么Spider將會把其視作robots.txt——雖然其并非一個純粹的文本文件 ——這將給Spider索引網(wǎng)站帶來很大的困擾,影響搜索引擎對網(wǎng)站頁面的收錄。

  2. robots.txt可以制止不必要的搜索引擎占用服務器的寶貴帶寬,如email retrievers,這類搜索引擎對大多數(shù)網(wǎng)站是沒有意義的;再如image strippers,對于大多數(shù)非圖形類網(wǎng)站來說其也沒有太大意義,但卻耗用大量帶寬。

  3. robots.txt可以制止搜索引擎對非公開頁面的爬行與索引,如網(wǎng)站的后臺程序、管理程序,事實上,對于某些在運行中產(chǎn)生臨時頁面的網(wǎng)站來說,如果未配置robots.txt,搜索引擎甚至會索引那些臨時文件。

  4. 對于內容豐富、存在很多頁面的網(wǎng)站來說,配置robots.txt的意義更為重大,因為很多時候其會遭遇到搜索引擎Spider給予網(wǎng)站的巨大壓力:洪水般的Spider訪問,如果不加控制,甚至會影響網(wǎng)站的正常訪問。

  5. 同樣地,如果網(wǎng)站內存在重復內容,使用robots.txt限制部分頁面不被搜索引擎索引和收錄,可以避免網(wǎng)站受到搜索引擎關于 duplicate content的懲罰,保證網(wǎng)站的排名不受影響。

  robots.txt帶來的風險及解決:

  1. 凡事有利必有弊,robots.txt同時也帶來了一定的風險:其也給攻擊者指明了網(wǎng)站的目錄結構和私密數(shù)據(jù)所在的位置。雖然在Web服務器的安全措施配置得當?shù)那疤嵯逻@不是一個嚴重的問題,但畢竟降低了那些不懷好意者的攻擊難度。

  比如說,如果網(wǎng)站中的私密數(shù)據(jù)通過www.yourdomain.com/private/index.html 訪問,那么,在robots.txt的設置可能如下:

  User-agent: *

  Disallow: /private/

  這樣,攻擊者只需看一下robots.txt即可知你要隱藏的內容在哪里,在瀏覽器中輸入www.yourdomain.com/private/ 便可訪問我們不欲公開的內容。對這種情況,一般采取如下的辦法:

  設置訪問權限,對/private/中的內容實施密碼保護,這樣,攻擊者便無從進入。

  另一種辦法是將缺省的目錄主文件index.html更名為其他,比如說abc-protect.html,這樣,該內容的地址即變成 www.yourdomain.com/private/abc-protect.htm,同時,制作一個新的index.html文件,內容大致為“你沒有權限訪問此頁”之類,這樣,攻擊者因不知實際的文件名而無法訪問私密內容。

  2. 如果設置不對,將導致搜索引擎將索引的數(shù)據(jù)全部刪除。

  User-agent: *

  Disallow: /

  上述代碼將禁止所有的搜索引擎索引數(shù)據(jù)。

  目前看來,絕大多數(shù)的搜索引擎機器人都遵守robots.txt的規(guī)則,而對于Robots META標簽,目前支持的并不多,但是正在逐漸增加,如著名搜索引擎GOOGLE就完全支持,而且GOOGLE還增加了一個指令“archive”,可以限制GOOGLE是否保留網(wǎng)頁快照。例如:

  <META NAME=“googlebot” CONTENT=“index,follow,noarchive”>

  表示抓取該站點中頁面并沿著頁面中鏈接抓取,但是不在GOOLGE上保留該頁面的網(wǎng)頁快照。

 

上一頁  [1] [2] 

【責任編輯:junlee】

最新推薦  
 經(jīng)濟危機下 企業(yè)郵箱應用走俏
 億恩聯(lián)通GDC數(shù)據(jù)中心機房 打造國內最專業(yè)的
 美橙建站寶典系列:域名陷阱見招拆招(一)
 熱烈祝賀五舟銷售第一臺Nehelam架構的服務器
 博鰲論壇聚焦互聯(lián)網(wǎng)經(jīng)濟 電子商務逆勢看好
 演繹“水泥+鼠標”新模式 建站基石先穩(wěn)好
 世紀互聯(lián)云計算正式商用 落地IDC行業(yè)
 第三屆中國制造業(yè)CIO年會在京隆重召開
 防止網(wǎng)頁木馬  如何加強網(wǎng)站安全后盾
 高性價比服務器主板華碩P5BV-C-2L震撼上市
相關文章  
性能最大化 重視服務器的文件碎片
PPLive否認購買ppsoso.com 稱是一場炒作
雅虎中國郵箱服務器緊缺取消搜索引用戶
迅雷看看“屏蔽”海外IP 官方稱因服務器
土豆網(wǎng)加入百度聯(lián)盟 達成獨家搜索合作
Hitwise:搜索關鍵詞越來越長
從搜索引擎優(yōu)化五個問題 來看提高品牌經(jīng)
傳土豆優(yōu)酷雙雙屏蔽國外IP 為降低成本過
優(yōu)酷網(wǎng)向搜索引擎屏蔽視頻
網(wǎng)易宣布其搜索門戶啟用新域名youdao.c
 文章評論
Chinaitlab Group 旗下網(wǎng)站:
北京盛世創(chuàng)富廣告?zhèn)髅接邢薰?BR>北京運營中心:北京市海淀區(qū)中關村南大街9號理工科技大廈2107室 服務電話:86-10-85655622
深圳研發(fā)中心:深圳市福田保稅區(qū)英達利科技數(shù)碼園C座701D 服務電話:86-755-82044560
Copyright©2001 - 2009 All Rights Reserved