聚善缘 發表於 2025-12-8 14:03:00

国产化Word处理组件Spire.DOC教程:通过Python将HTML转换为TXT文本

<p>HTML(超文本标记语言)是一种用于创建网页的标记语言,能让开发者构建内容丰富、视觉吸引力强的页面布局。然而,HTML 文件通常包含大量标签,若仅需获取主要内容,这些标签会使其难以阅读。<strong>通过 Python 将 HTML 转换为文本</strong>,可轻松解决这一问题。与原始 HTML 不同,转换后的文本文件会剥离所有不必要的标记,仅保留干净易读的内容,更便于存储、分析或进一步处理。</p>
<h2>安装 HTML 转文本 Python 库</h2>
<p>推荐使用<strong>&nbsp;</strong><strong>Spire.Doc for Python</strong><strong>&nbsp;</strong>实现转换。该 Python Word 库不仅是轻量高效的 HTML 转文本工具,还支持几乎所有 Word 操作(如创建、内容编辑等),兼容性强、上手简单。</p>
<p style="text-align: center"><span style="color: rgba(230, 126, 35, 1)"><strong>Spire.Doc for Python试用下载</strong></span></p>
<p style="text-align: center"><span style="color: rgba(230, 126, 35, 1)"><strong>请联系慧都科技,</strong></span><span style="color: rgba(230, 126, 35, 1)"><strong>技术交流Q群(125237868)</strong></span></p>
<p><strong>通过 pip 命令安装(推荐)</strong></p>
<p>打开终端 / 命令行,执行以下命令即可自动完成安装:</p>
<pre class="prettyprint highlighter-hljs"><code>pip install spire.doc</code></pre>
<h2>Python 将 HTML 文件转换为文本</h2>
<p>借助<strong>&nbsp;Spire.Doc for Python</strong>,仅需 3 个简单步骤即可将本地 HTML 文件转换为纯文本:创建&nbsp;Document&nbsp;对象 → 加载 HTML 文件 → 保存为 TXT 格式。整个过程简洁高效,新手也能轻松上手!下面详细介绍代码实现:</p>
<p><strong>代码示例 — HTML 文件转 TXT 文本文件</strong></p>
<pre class="prettyprint lang-py highlighter-hljs"><code>from spire.doc import *
from spire.doc.common import *

# 打开 HTML 文件
document = Document()
document.LoadFromFile("sample.html.html", FileFormat.Html, XHTMLValidationType.none)

# 保存为文本文件
document.SaveToFile("HTML转文本.txt", FileFormat.Txt)

document.Close()</code></pre>
<p><strong>转换效果预览(源文件 vs 输出文件):</strong></p>
<p><img src="https://image.evget.com/attachment/keditor/image/20251208/132905_1.png"></p>
<p><strong>请注意</strong>:若 HTML 文件包含表格,输出的文本文件将仅保留表格中的数据,无法保留原始表格格式。若希望移除标记的同时保留特定样式,建议先将 HTML 转换为 Word 文档,这样可保留标题、表格等格式,让内容更易于编辑和使用。</p>
<h2>Python 将 HTML 字符串转换为文本</h2>
<p>如果仅需提取网页部分内容(如爬取的 HTML 片段),可直接将 HTML 字符串转换为文本,无需加载完整 HTML 文件,更灵活高效。</p>
<p><strong>Spire.Doc&nbsp;转换 HTML 字符串到文本文件的实现步骤:</strong></p>
<ol>
<li>直接输入 HTML 字符串或从本地文件读取;</li>
<li>创建&nbsp;Document&nbsp;对象并添加节(Section)和段落(Paragraph);</li>
<li>使用&nbsp;Paragraph.AppendHTML()&nbsp;方法将 HTML 字符串插入段落;</li>
<li>通过&nbsp;Document.SaveToFile()&nbsp;方法将文档保存为 .txt 文件。</li>
</ol>
<p><strong>代码示例 — HTML 字符串转 TXT 文本文件</strong></p>
<pre class="prettyprint lang-py highlighter-hljs"><code>from spire.doc import *
from spire.doc.common import *

# 获取 HTML 字符串(可注释下方代码,取消注释读取本地文件的逻辑)
# with open(inputFile) as fp:
#   html = fp.read()

# 定义 HTML 字符串
html = """
&lt;html&gt;
   &lt;body&gt;
         &lt;h1&gt;示例HTML内容&lt;/h1&gt;
         &lt;p&gt;这是一个包含&lt;strong&gt;粗体&lt;/strong&gt;和&lt;em&gt;斜体&lt;/em&gt;文本的段落。&lt;/p&gt;
         &lt;p&gt;另一行带有&lt;a href='https://example.com'&gt;链接&lt;/a&gt;。&lt;/p&gt;
         &lt;ul&gt;
             &lt;li&gt;列表项1&lt;/li&gt;
            &lt;li&gt;列表项2(带有&lt;em&gt;斜体&lt;/em&gt;文本)&lt;/li&gt;
         &lt;/ul&gt;
         &lt;p&gt;特殊字符:© &amp; ®&lt;/p&gt;
   &lt;/body&gt;
&lt;/html&gt;
"""

# 创建新文档
document = Document()
section = document.AddSection()

# 将 HTML 字符串插入段落
section.AddParagraph().AppendHTML(html)

# 保存为 TXT 文件
document.SaveToFile("HTML字符串转文本.txt", FileFormat.Txt)
document.Close()</code></pre>
<p><strong>转换后的 TXT 文件预览:</strong></p>
<p><img src="https://image.evget.com/attachment/keditor/image/20251208/133150_6.png"></p>
<p style="text-align: center"><span style="color: rgba(230, 126, 35, 1)"><strong>Spire.Doc for Python试用下载</strong></span></p>
<p style="text-align: center"><span style="color: rgba(230, 126, 35, 1)"><strong>请联系慧都科技,</strong></span><span style="color: rgba(230, 126, 35, 1)"><strong>技术交流Q群(125237868)</strong></span></p><br><br>
来源:https://www.cnblogs.com/software-Development/p/19321474
頁: [1]
查看完整版本: 国产化Word处理组件Spire.DOC教程:通过Python将HTML转换为TXT文本