Python：软科中国大学排名爬虫(2021.11.5)

海康萤石智能家居 發表於 2021-11-6 13:53:00

Python：软科中国大学排名爬虫(2021.11.5)

<p></p><div class="toc"><div class="toc-container-header">目录</div><ul><li>爬虫对象选择</li><li>数据处理</li><li>完整代码</li><li>从 API 获取数据</li></ul></div><p></p>
<h1 id="爬虫对象选择">爬虫对象选择</h1>
<p>打开软科中国大学排名，观察这个页面结构复杂且一页只显示了 30 所大学。<br>
<img src="https://img2020.cnblogs.com/blog/1774310/202111/1774310-20211106130009997-1870456813.png" alt="" loading="lazy"><br>
而且点击了翻页，发现 url 没有发生变化，说明该页面有可能是已经获取了所有数据，然后使用 JavaScript 动态生成。此时可能就很麻烦了，因为没有办法通过 get 传参的方式来切换网页进行爬取。<br>
<img src="https://img2020.cnblogs.com/blog/1774310/202111/1774310-20211106130043309-1481701262.png" alt="" loading="lazy"><br>
从开发者工具中的“network”可以看到，大量的 JavaScript 脚本被执行。<br>
<img src="https://img2020.cnblogs.com/blog/1774310/202111/1774310-20211106131039987-1640402402.png" alt="" loading="lazy"><br>
查看“fetch/XHR”，fetch 和 XHR 都是是获取远端数据的方式，fetch 是原生 js 方法，XMLHttpRequest（XHR）是一个构造函数，通过 XMLHttpRequest 可以在不刷新页面的情况下请求特定 URL。但是无论如何这 2 种方式都是向后端获取数据的，但是依次查看这些信息也没有找到所有大学的数据。<br>
<img src="https://img2020.cnblogs.com/blog/1774310/202111/1774310-20211106131456540-226744136.png" alt="" loading="lazy"><br>
因此接下来就需要去找到底是哪个接口能找到这些数据，在开发者工具中搜索随便一所大学，例如清华大学。可以看到在 2 个资源中出现过这个字符串，第一个是“软科中国大学排名”的页面，也就是我们进入网页后能看得到的。<br>
<img src="https://img2020.cnblogs.com/blog/1774310/202111/1774310-20211106131927167-1353288419.png" alt="" loading="lazy"><br>
第二个出现在“payload.js”文件中，可以看到在 univData 中出现了清华大学和其他大学的参数，说明这个 JavaScript 文件保存了所有大学的信息。(使用谷歌浏览器和火狐浏览器，在开发者工具中可以自动格式化解析这些网络资源，看着比较友好，用其他的浏览器也可以，不过看到的可能是没有编码过的，但是不影响分析)。<br>
<img src="https://img2020.cnblogs.com/blog/1774310/202111/1774310-20211106132151296-128739866.png" alt="" loading="lazy"><br>
访问“payload.js”文件资源，可以看到这些数据确实存在此处，所以这就是我们要爬虫的对象。</p>
<pre><code>https://www.shanghairanking.cn/_nuxt/static/1635996352/rankings/bcur/2021/payload.js
</code></pre>
<p><img src="https://img2020.cnblogs.com/blog/1774310/202111/1774310-20211106132427616-1935611194.png" alt="" loading="lazy"><br>
<img src="https://img2020.cnblogs.com/blog/1774310/202111/1774310-20211106132448319-475651822.png" alt="" loading="lazy"><br>
使用 requests 库进行爬取，编写代码如下：</p>
<pre><code>url = 'https://www.shanghairanking.cn/_nuxt/static/1635996352/rankings/bcur/2021/payload.js'
r = requests.get(url, timeout=20)
if r.status_code == 200:
r.encoding = 'utf-8'
content = r.text
</code></pre>
<h1 id="数据处理">数据处理</h1>
<p>我们把“payload.js”文件爬下来以后，是不能直接用 JSON 进行解析的，因为这个文件中掺杂了 JavaScript 的代码。<br>
<img src="https://img2020.cnblogs.com/blog/1774310/202111/1774310-20211106132820658-1078292368.png" alt="" loading="lazy"><br>
同时这些键值对中，键的部分没有用括号进行包括，此时对于 Python 而言会认为这是个变量。无论是用 json 库还是 eval 都不能直接解析，都会报错。<br>
<img src="https://img2020.cnblogs.com/blog/1774310/202111/1774310-20211106133029541-984522268.png" alt="" loading="lazy"><br>
所以比较好的方式就是直接处理字符串，首先这些数据的顺序就是排名的顺序，因此按顺序提取大学的信息可以得到排名。例如此处我还想获取这些大学的省份信息，除了要切分出“univNameCn”字段信息，还要切分出“province”字段。(软科排名网站使用一个字母代表一个省份或者市，例如“v”代表北京市，“N”代表福建省)<br>
<img src="https://img2020.cnblogs.com/blog/1774310/202111/1774310-20211106133649421-1679043434.png" alt="" loading="lazy"><br>
根据实际需求，使用字符串切分的方式提取出我们想要的信息，例如：</p>
<pre><code>colleges = []
while content.find('univNameCn:"') != -1:
acollege = []
#切分出大学名称
content = content
collegeName = content[:content.find('"')]
acollege.append(collegeName)
#切分出省份
content = content
province = content[:content.find(',')]
acollege.append(province)
colleges.append(acollege)
</code></pre>
<h1 id="完整代码">完整代码</h1>
<p>例如我要输出软科排名前 10 的福建省大学是哪些，一个简单的爬虫 demo 如下：</p>
<pre><code>import requests

url = 'https://www.shanghairanking.cn/_nuxt/static/1635996352/rankings/bcur/2021/payload.js'
r = requests.get(url, timeout=20)
if r.status_code == 200:
r.encoding = 'utf-8'
content = r.text
colleges = []
while content.find('univNameCn:"') != -1:
   acollege = []
   #切分出大学名称
   content = content
   collegeName = content[:content.find('"')]
   acollege.append(collegeName)
   #切分出省份
   content = content
   province = content[:content.find(',')]
   acollege.append(province)
   colleges.append(acollege)

print("{:^10}\t{:^6}".format("排名","学校名称"))
num = 10
for i in range(len(colleges)):
   if colleges == 'N':
         print("{:^10}\t{:^6}".format(str(i + 1), colleges))
         num -= 1
         if num == 0:
            break
</code></pre>
<p>输出的结果如下所示：<br>
<img src="https://img2020.cnblogs.com/blog/1774310/202111/1774310-20211106134136230-711232970.png" alt="" loading="lazy"></p>
<h1 id="从-api-获取数据">从 API 获取数据</h1>
<p>例如在 2021 年 4 月份，有其他的博主通过 network 找到了软科排名网站返回数据的 API，例如可以参考《python爬虫小案例_中国大学排名（2021.04.11）》这篇博客。</p>
<pre><code>https://www.shanghairanking.cn/api/pub/v1/bcur?bcur_type=11&year=2021
</code></pre>
<p>从这个 API 中可以获取某一年份的大学排名信息，且不存在编码问题，键值对也是字符串可以直接被 json 解析。但是现在我直接用开发者工具找是找不到了，不过这个 API 还能用。当网页结构发生改变之时，如果以前的方法不能用了就得另找其他途径了。<br>
<img src="https://img2020.cnblogs.com/blog/1774310/202111/1774310-20211106134658251-1164110222.png" alt="" loading="lazy"></p><br><br>
来源：https://www.cnblogs.com/linfangnan/p/15516735.html

頁: [1]

圆梦公社's Archiver

Python：软科中国大学排名爬虫(2021.11.5)