scrapy抓取所有网站域名

心理援助中心 發表於 2019-9-4 01:27:00

<h3>需求分析</h3>
从一个门户网站出发，试图爬取该门户网站所有链接，如此递归下去，发现新域名则保存起来，每个域名网站只爬取一次。有了这些数据在通过外部DNS获得IP，就可以自己搭建DNS服务器了
 
<h3>创建项目</h3>
创建一个项目，名叫crawl_all_domainname
<div class="cnblogs_Highlighter">
<pre class="ply_style_code_01">scrapy startproject crawl_all_domainname</pre>
</div>
创建爬虫脚本domain.py, 从han123.com开始爬行
<div class="cnblogs_Highlighter">
<pre class="ply_style_code_01">cd crawl_all_domainname/crawl_all_domainname
crawl_all_domainname>scrapy genspider domain hao123.com　　</pre>
</div>
修改配置文件，忽略robots.txt
<div class="cnblogs_Highlighter">
<pre class="ply_style_code_01">ROBOTSTXT_OBEY = False</pre>
</div>
<h3>代码实现</h3>
<div class="cnblogs_code">
<pre># -*- coding: utf-8 -*-
import scrapy
from urllib import parse
import re

already_crawl_dn=[]
class DomainSpider(scrapy.Spider):
name = 'domain'
start_urls = ['http://hao123.com/']

def parse(self, response):

 #将已爬取的域名存入列表already_crawl
 domain = parse.urlparse(response._url).netloc.lstrip('www.')
 already_crawl_dn.append(domain)
 print('Crawl %s Done' % domain)


 #1.提取html页面中所有a标签中的href属性
 #2.提取有效url(http://www...或https://www...)
 #3.将url转化为域名，在用set去重 
 dns = set()

 #4.提取urls中没有爬取过的url，
 dns =

 #将新发现未爬取的域名交给蜘蛛
 for dn in dns:
 yield scrapy.Request("https://www." + dn, callback=self.parse)

def close(spider, reason):
 print(already_crawl_dn)</pre>
</div>
 现在已经可以抓取域名了，目前有个问题是这些域名存在列表（内存）中，随着程序运行内存会慢慢被占满。我没找的最新的全球域名数统计，但找到了：
<div class="cnblogs_Highlighter">
<pre class="ply_style_code_01">截至2015年6月，中国域名总数为2231万个，其中“.CN”域名总数为1225万个，占中国域名总数比例为54.9%，“.中国”域名总数为26万个</pre>
</div>
 假设目前全球域名总数1亿个，每个域名长度10个字符（统计了100个域名的平均长度）
查看1亿个域名所占用内存
<div class="cnblogs_Highlighter">
<pre class="ply_style_code_01">In : domainNames = ['xxxxxx.com'] * 100000000

In : import sys

In : sys.getsizeof(domainNames) / 1024 / 1024
Out: 762.9395141601562</pre>
</div>
占用了762M，以现在电脑配置绰绰有余了，在看看所需时间
抓取每个域名的平均实际1s（统计了100个域名的平均时间），1亿个需要4年。即使全球目前真的有1亿个域名，这个程序也不能将他们全部找到，因为为了节约时间我没有访问所有网页，
每个域名网站只访问了一次（只访问了主页）。
  
来源：https://www.cnblogs.com/plyonfly/p/11456676.html

頁: [1]

圆梦公社's Archiver

scrapy抓取所有网站域名