虛擬主機被搜索引擎爬蟲訪問耗費大量流量解決方法
日期:2016/8/3 / 人氣:
問題場景:客戶使用虛擬主機,網站被搜索引擎爬蟲訪問耗費大量流量和帶寬,如何處理
解決方法:可以通過在站點根目錄下創建Robots.txt,Robots.txt文件是網站的一個文件,搜索引擎蜘蛛抓取網站首先就是抓取這個文件,根據里面的內容來決定對網站文件訪問的范圍。它能夠保護我們的一些文件不暴露在搜索引擎之下,從而有效的控制蜘蛛的爬取路徑。
1、首先,先了解一下目前搜索引擎和其對應的User-Agent,如下:
搜索引擎 User-Agent
AltaVista Scooter
baidu Baiduspider
Infoseek Infoseek
Hotbot Slurp
AOL Search Slurp
Excite ArchitextSpider
Google Googlebot
Goto Slurp
Lycos Lycos
MSN Slurp
Netscape Googlebot
NorthernLight Gulliver
WebCrawler ArchitextSpider
Iwon Slurp
Fast Fast
DirectHit Grabber
Yahoo Web Pages Googlebot
LooksmartWebPages Slurp
2、Robots.txt樣例代碼:
例1. 禁止所有搜索引擎訪問網站的任何部分
User-agent: *
Disallow: /
例2. 允許所有的搜索引擎訪問網站的任何部分
User-agent: *
Disallow:
例3. 僅禁止Baiduspider訪問您的網站
User-agent: Baiduspider
Disallow: /
例4. 僅允許Baiduspider訪問您的網站
User-agent: Baiduspider
Disallow:
例5. 禁止spider訪問特定目錄
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /data/
注意事項:1)三個目錄要分別寫。
2)請注意最后要帶斜杠。
3)帶斜杠與不帶斜杠的區別。
例6. 允許訪問特定目錄中的部分url
實現a目錄下只有b.htm允許訪問
User-agent: *
Allow: /a/b.htm
Disallow: /a/
作者:朋友圈科技
相關內容 Related
- 為什么響應式設計需要媒體查詢2016/8/5
- 虛擬主機被搜索引擎爬蟲訪問耗費大量流量解決方法2016/8/3
- 網站建設中如何創建完美的顏色組合2016/8/1
- 什么是長尾關鍵詞?2016/8/1
- 建設企業或個人網站的好處2016/7/8
- 前端開發者需要知道的常識2016/7/6
- 12種方法為您拓展業務通道2016/7/27
- SEO優化的三大技巧2016/7/24
- 10的方法來提高你的網站設計2016/7/24
- 網站統計用哪個比較好,百度?cnzz?2016/7/21