阿里云虚拟主机被搜索引擎爬虫访问耗费大量流量解决方法
<p><strong>问题场景:</strong></p>
<p>
客户使用虚拟主机,网站被搜索引擎爬虫访问耗费大量流量和带宽,如何处理。</p>
<p>
<strong>解决方法:</strong></p>
<p>
可以通过在站点根目录下创建 Robots.txt,Robots.txt 文件是网站的一个文件,搜索引擎蜘蛛抓取网站首先就是抓取这个文件,根据里面的内容来决定对网站文件访问的范围。它能够保护我们的一些文件不暴露在搜索引擎之下,从而有效的控制蜘蛛的爬取路径。</p>
<p>
注:Robot.txt协议不是强制协议,部分搜索引擎或者伪装成搜索引擎的爬虫不会遵守该协议,对于不遵守该协议的情况,以下方法无效。</p>
<p>
1. 首先,先了解一下目前搜索引擎和其对应的 User-Agent,如下:</p>
<p>
搜索引擎 User-Agent</p>
<p>
AltaVista Scooter</p>
<p>
baidu Baiduspider</p>
<p>
Infoseek Infoseek</p>
<p>
Hotbot Slurp</p>
<p>
AOL Search Slurp</p>
<p>
Excite ArchitextSpider</p>
<p>
Google Googlebot</p>
<p>
Goto Slurp</p>
<p>
Lycos Lycos</p>
<p>
MSN Slurp</p>
<p>
Netscape Googlebot</p>
<p>
NorthernLight Gulliver</p>
<p>
WebCrawler ArchitextSpider</p>
<p>
Iwon Slurp</p>
<p>
Fast Fast</p>
<p>
DirectHit Grabber</p>
<p>
Yahoo Web Pages Googlebot</p>
<p>
LooksmartWebPages Slurp</p>
<p>
2. Robots.tx t样例代码:</p>
<p>
例1. 禁止所有搜索引擎访问网站的任何部分</p>
<p>
User-agent:</p>
<p>
Disallow: /</p>
<p>
例2. 允许所有的搜索引擎访问网站的任何部分</p>
<p>
User-agent:</p>
<p>
Disallow:</p>
<p>
例3. 仅禁止Baiduspider访问您的网站</p>
<p>
User-agent: Baiduspider</p>
<p>
Disallow: /</p>
<p>
例4. 仅允许Baiduspider访问您的网站</p>
<p>
User-agent: Baiduspider</p>
<p>
Disallow:</p>
<p>
例5. 禁止spider访问特定目录</p>
<p>
User-agent: *</p>
<p>
Disallow: /cgi-bin/</p>
<p>
Disallow: /tmp/</p>
<p>
Disallow: /data/</p>
<p>
注意事项:</p>
<p>
三个目录要分别写。</p>
<p>
请注意最后要带斜杠。</p>
<p>
带斜杠与不带斜杠的区别。</p>
<p>
例6. 允许访问特定目录中的部分url</p>
<p>
实现a目录下只有b.htm允许访问</p>
<p>
User-agent: *</p>
<p>
Allow: /a/b.htm</p>
<p>
Disallow: /a/</p>
頁:
[1]