第一个爬虫程序的开发

江绘巧 發表於 2025-9-2 20:16:00

要点：
<ol>
<li>先要进行调用urlopen函数。</li>
<li>设置网址的变量。</li>
<li>内容获取： 
<code>1.直接获只会得到源代码，是html文件。</code> 
<code>2.若需要以网页的形式进行展示，需要将源代码以html的文件进行保存，并保存到本地，再执行命令。</code></li>
</ol>
<details>
<summary>点击查看代码</summary>
<pre><code>from idlelib.iomenu import encoding
from urllib.request import urlopen# 在url这个库里面请求模块里调用一个urlopen这个函数模拟浏览器

url = "http://www.baidu.com" # 网址

resp = urlopen(url) # 获取网页内容

# print(resp.read().decode("UTF-8"))# 打印内容.decode是为了字节解码,需要填写字符集（搜索charset,可以找出字符集），可以拿到页码面源代码

with open("mybaidyu.html",mode = "w",encoding = "utf-8") as f:
f.write(resp.read().decode("UTF-8")) #将源代码以html文件的形式存放在本地，之后可以打开，注意这是自己的网址，从页面源代码中提取内容到自己的网址
</code></pre>
</details>
访问网页的基本过程 
向服务器发送请求，服务器拼装html文件，在对客户端进行响应，发送源代码给客户端，用户电脑会自动执行接受到的html文件。
<img src="https://img2024.cnblogs.com/blog/3697751/202509/3697751-20250902204949231-713575180.png"> 
来源：https://www.cnblogs.com/wangxiaojian-wangjun/p/19070661

頁: [1]

圆梦公社's Archiver

第一个爬虫程序的开发