过二天再说 發表於 2023-9-23 00:00:00

阿里云虚拟主机被搜索引擎爬虫访问耗费大量流量解决方法

<p>
        <strong>问题场景:</strong></p>
<p>
        客户使用虚拟主机,网站被搜索引擎爬虫访问耗费大量流量和带宽,如何处理。</p>
<p>
        <strong>解决方法:</strong></p>
<p>
        可以通过在站点根目录下创建 Robots.txt,Robots.txt 文件是网站的一个文件,搜索引擎蜘蛛抓取网站首先就是抓取这个文件,根据里面的内容来决定对网站文件访问的范围。它能够保护我们的一些文件不暴露在搜索引擎之下,从而有效的控制蜘蛛的爬取路径。</p>
<p>
        注:Robot.txt协议不是强制协议,部分搜索引擎或者伪装成搜索引擎的爬虫不会遵守该协议,对于不遵守该协议的情况,以下方法无效。</p>
<p>
        1. 首先,先了解一下目前搜索引擎和其对应的 User-Agent,如下:</p>
<p>
        搜索引擎 User-Agent</p>
<p>
        AltaVista Scooter</p>
<p>
        baidu Baiduspider</p>
<p>
        Infoseek Infoseek</p>
<p>
        Hotbot Slurp</p>
<p>
        AOL Search Slurp</p>
<p>
        Excite ArchitextSpider</p>
<p>
        Google Googlebot</p>
<p>
        Goto Slurp</p>
<p>
        Lycos Lycos</p>
<p>
        MSN Slurp</p>
<p>
        Netscape Googlebot</p>
<p>
        NorthernLight Gulliver</p>
<p>
        WebCrawler ArchitextSpider</p>
<p>
        Iwon Slurp</p>
<p>
        Fast Fast</p>
<p>
        DirectHit Grabber</p>
<p>
        Yahoo Web Pages Googlebot</p>
<p>
        LooksmartWebPages Slurp</p>
<p>
        2. Robots.tx t样例代码:</p>
<p>
        例1. 禁止所有搜索引擎访问网站的任何部分</p>
<p>
        User-agent:</p>
<p>
        Disallow: /</p>
<p>
        例2. 允许所有的搜索引擎访问网站的任何部分</p>
<p>
        User-agent:</p>
<p>
        Disallow:</p>
<p>
        例3. 仅禁止Baiduspider访问您的网站</p>
<p>
        User-agent: Baiduspider</p>
<p>
        Disallow: /</p>
<p>
        例4. 仅允许Baiduspider访问您的网站</p>
<p>
        User-agent: Baiduspider</p>
<p>
        Disallow:</p>
<p>
        例5. 禁止spider访问特定目录</p>
<p>
        User-agent: *</p>
<p>
        Disallow: /cgi-bin/</p>
<p>
        Disallow: /tmp/</p>
<p>
        Disallow: /data/</p>
<p>
        注意事项:</p>
<p>
        三个目录要分别写。</p>
<p>
        请注意最后要带斜杠。</p>
<p>
        带斜杠与不带斜杠的区别。</p>
<p>
        例6. 允许访问特定目录中的部分url</p>
<p>
        实现a目录下只有b.htm允许访问</p>
<p>
        User-agent: *</p>
<p>
        Allow: /a/b.htm</p>
<p>
        Disallow: /a/</p>
頁: [1]
查看完整版本: 阿里云虚拟主机被搜索引擎爬虫访问耗费大量流量解决方法