敢怒敢言 發表於 2016-10-8 14:20:31

Python 爬虫使用动态切换ip防止封杀

<p>上次有说过,我在新公司有部分工作是负责爬虫业务的,爬虫机器有上百台,节点也要计划迁入了Docker平台上。&nbsp; 这两天遇到一个棘手的问题,就是因为我们为了追求数据量,在某些机房,用docker启动了不少爬虫节点,导致一些傻逼网站,开始封禁我们&hellip;. &hellip;&nbsp;&nbsp; (干死他们,哥们要是有资源,必须干掉ddos,让你防 !&nbsp; 当然我也就装装逼,没这个资源)</p>
<p>&nbsp;&nbsp;&nbsp;&nbsp; 对于爬虫被封禁 ! 爬虫一般来说只要你的ip够多,是不容易被封的。 一些中小网站要封杀你,他的技术成本也是很高的,因为大多数网站没有vps,他们用的是虚拟空间或者是sae,bae这样的paas云。 其实就算他们不考虑seo搜索优化,用ajax渲染网页数据,我也可以用webkit浏览器组件来搞定ajax之后的数据。</p>
<p>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 如果某个网站他就是闲的蛋疼,他就是喜欢从log里面,一行行的分析出你的ip,然后统计处频率高的网站, 那这个时候咋办?&nbsp;&nbsp; 其实方法很草比,就是用大量的主机,但是大量的主机是有了,你如果没有那么爬虫的种子量,那属于浪费资源&hellip; &hellip;&nbsp; 其实一个主机,多个ip是可以的。。。<br />这个时候是有两种方法可以解决的,第一个是用squid绑定多个ip地址,做正向代理&hellip;. 你的程序里面维持一组连接池,就是针对这几个正向proxy做的连接池。<br />正向代理和反向代理最大的区别就是,反向代理很多时候域名是固定的,而正向代理是通过一个http的代理端口,随意访问,只是在proxy端会修改http协议,去帮你访问<br />如果是python,其实单纯调用socket bind绑定某个ip就可以了,但是标题的轮训是个什么概念,就是维持不同的socket bind的对象,然后你就轮吧 !&nbsp;&nbsp; 跟一些业界做专门做爬虫的人聊过,他们用的基本都是这样的技术。&nbsp; </p>
<p>&nbsp;<br /># -*- coding=utf-8 -*-&nbsp; <br />import socket&nbsp; <br />import urllib2&nbsp; <br />import re&nbsp; <br />true_socket = socket.socket&nbsp; <br />&nbsp; <br />ipbind='xx.xx.xxx.xx'&nbsp; <br />&nbsp; <br />def bound_socket(*a, **k):&nbsp; <br />&nbsp;&nbsp;&nbsp; sock = true_socket(*a, **k)&nbsp; <br />&nbsp;&nbsp;&nbsp; sock.bind((ipbind, 0))&nbsp; <br />&nbsp;&nbsp;&nbsp; return sock&nbsp; <br />&nbsp; <br />socket.socket = bound_socket&nbsp; <br />&nbsp; <br />response = urllib2.urlopen('http://www.ip.cn')&nbsp; <br />html = response.read()&nbsp; <br />ip=re.search(r'code.(.*?)..code',html)&nbsp; <br />print ip.group(1)&nbsp; <br />在http://stackoverflow.com/ 上也找到一些个老外给与的解决方法的思路,他是借助于urllib2的HTTPHandler来构造的出口的ip地址。 </p>
<p>import functools<br />import httplib<br />import urllib2</p>
<p>class BoundHTTPHandler(urllib2.HTTPHandler):</p>
<p>&nbsp;&nbsp;&nbsp; def __init__(self, source_address=None, debuglevel=0):<br />&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; urllib2.HTTPHandler.__init__(self, debuglevel)<br />&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; self.http_class = functools.partial(httplib.HTTPConnection,<br />&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; source_address=source_address)</p>
<p>&nbsp;&nbsp;&nbsp; def http_open(self, req):<br />&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; return self.do_open(self.http_class, req)</p>
<p>handler = BoundHTTPHandler(source_address=(&quot;192.168.1.10&quot;, 0))<br />opener = urllib2.build_opener(handler)<br />urllib2.install_opener(opener)</p>
<p>&nbsp;<br />import functools<br />import httplib<br />import urllib2<br />&nbsp;<br />class BoundHTTPHandler(urllib2.HTTPHandler):<br />&nbsp;<br />&nbsp;&nbsp;&nbsp; def __init__(self, source_address=None, debuglevel=0):<br />&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; urllib2.HTTPHandler.__init__(self, debuglevel)<br />&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; self.http_class = functools.partial(httplib.HTTPConnection,<br />&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; source_address=source_address)<br />&nbsp;<br />&nbsp;&nbsp;&nbsp; def http_open(self, req):<br />&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; return self.do_open(self.http_class, req)<br />&nbsp;<br />handler = BoundHTTPHandler(source_address=(&quot;192.168.1.10&quot;, 0))<br />opener = urllib2.build_opener(handler)<br />urllib2.install_opener(opener)<br />那么就有一个现成的模块 netifaces&nbsp; ,其实netifaces模块,就是刚才上面socket绑定ip的功能封装罢了<br />地址:&nbsp;&nbsp; https://github.com/raphdg/netifaces</p>
<p>import netifaces<br />netifaces.interfaces()<br />netifaces.ifaddresses('lo0')<br />netifaces.AF_LINK<br />addrs = netifaces.ifaddresses('lo0')<br />addrs<br />[{'peer': '127.0.0.1', 'netmask': '255.0.0.0', 'addr': '127.0.0.1'}]</p>
<p>import netifaces<br />netifaces.interfaces()<br />netifaces.ifaddresses('lo0')<br />netifaces.AF_LINK<br />addrs = netifaces.ifaddresses('lo0')<br />addrs<br />[{'peer': '127.0.0.1', 'netmask': '255.0.0.0', 'addr': '127.0.0.1'}]<br />感谢阅读,希望能帮助到大家,谢谢大家对本站的支持!</p>
頁: [1]
查看完整版本: Python 爬虫使用动态切换ip防止封杀