通过 C# 读取并导出 PDF 书签
<p>PDF 书签(大纲)是文档导航的核心要素,尤其对于长文档或技术手册,提取书签信息可用于生成目录、索引或进行文档结构分析。本文将介绍如何使用 Free Spire.PDF for .NET 库,通过 C# 代码完整读取 PDF 文件中的所有书签(包括多级嵌套书签),并将标题、显示样式等信息导出到文本文件。</p><h2 id="1-环境准备">1. 环境准备</h2>
<h3 id="11-安装免费库">1.1 安装免费库</h3>
<p>在 Visual Studio 中通过 NuGet 包管理器安装 <code>Free Spire.PDF</code>:</p>
<pre><code class="language-bash">Install-Package FreeSpire.PDF
</code></pre>
<p>该免费版本支持读取 PDF 书签等基础操作,无需额外授权文件,但有单文件10页的页数限制。</p>
<h3 id="12-引用命名空间">1.2 引用命名空间</h3>
<p>代码中需要引入以下命名空间:</p>
<pre><code class="language-csharp">using System;
using System.IO;
using System.Text;
using Spire.Pdf;
using Spire.Pdf.Bookmarks;
</code></pre>
<h2 id="2-核心实现逻辑">2. 核心实现逻辑</h2>
<p>整体流程分为四步:</p>
<ol>
<li>加载目标 PDF 文档。</li>
<li>获取文档的 <code>PdfBookmarkCollection</code> 书签集合。</li>
<li>递归遍历每个书签及其子书签,提取标题和显示样式。</li>
<li>将提取的内容写入文本文件。</li>
</ol>
<h3 id="21-加载文档并获取书签集合">2.1 加载文档并获取书签集合</h3>
<pre><code class="language-csharp">PdfDocument pdf = new PdfDocument();
pdf.LoadFromFile(@"D:\test.pdf");
PdfBookmarkCollection bookmarks = pdf.Bookmarks;
</code></pre>
<p><code>Bookmarks</code> 属性返回一个集合,包含顶层书签。如果文档没有书签,<code>Count</code> 为 0。</p>
<h3 id="22-递归遍历书签树">2.2 递归遍历书签树</h3>
<p>书签结构是典型的树形结构:每个书签节点可能拥有子书签集合(通过 <code>Count</code> 属性和索引器访问)。我们设计两个方法:</p>
<ul>
<li><code>GetBookmarks</code>:处理顶层书签,创建 <code>StringBuilder</code> 并启动递归。</li>
<li><code>GetChildBookmark</code>:递归处理子书签。</li>
</ul>
<pre><code class="language-csharp">public static void GetBookmarks(PdfBookmarkCollection bookmarks, string result)
{
StringBuilder content = new StringBuilder();
if (bookmarks.Count > 0)
{
content.AppendLine("Pdf bookmarks:");
foreach (PdfBookmark parentBookmark in bookmarks)
{
// 获取标题
content.AppendLine(parentBookmark.Title);
// 获取显示样式(如普通、粗体、斜体等)
content.AppendLine(parentBookmark.DisplayStyle.ToString());
// 递归处理子书签
GetChildBookmark(parentBookmark, content);
}
}
File.WriteAllText(result, content.ToString());
}
</code></pre>
<p>递归方法:</p>
<pre><code class="language-csharp">public static void GetChildBookmark(PdfBookmark parentBookmark, StringBuilder content)
{
if (parentBookmark.Count > 0)
{
foreach (PdfBookmark childBookmark in parentBookmark)
{
content.AppendLine(childBookmark.Title);
content.AppendLine(childBookmark.DisplayStyle.ToString());
GetChildBookmark(childBookmark, content);
}
}
}
</code></pre>
<h3 id="23-完整代码示例">2.3 完整代码示例</h3>
<p>以下是一个控制台应用程序的完整实现,将书签信息输出到 <code>GetPdfBookmarks.txt</code> 文件。</p>
<pre><code class="language-csharp">using System;
using System.IO;
using System.Text;
using Spire.Pdf;
using Spire.Pdf.Bookmarks;
namespace GetBookmark
{
internal class Program
{
static void Main(string[] args)
{
PdfDocument pdf = new PdfDocument();
pdf.LoadFromFile(@"D:\testp\test.pdf");
PdfBookmarkCollection bookmarks = pdf.Bookmarks;
string result = "GetPdfBookmarks.txt";
GetBookmarks(bookmarks, result);
Console.WriteLine("书签提取完成,结果已保存至:" + result);
}
public static void GetBookmarks(PdfBookmarkCollection bookmarks, string result)
{
StringBuilder content = new StringBuilder();
if (bookmarks.Count > 0)
{
content.AppendLine("Pdf bookmarks:");
foreach (PdfBookmark parentBookmark in bookmarks)
{
content.AppendLine(parentBookmark.Title);
content.AppendLine(parentBookmark.DisplayStyle.ToString());
GetChildBookmark(parentBookmark, content);
}
}
else
{
content.AppendLine("该 PDF 文档不包含任何书签。");
}
File.WriteAllText(result, content.ToString());
}
public static void GetChildBookmark(PdfBookmark parentBookmark, StringBuilder content)
{
if (parentBookmark.Count > 0)
{
foreach (PdfBookmark childBookmark in parentBookmark)
{
content.AppendLine(childBookmark.Title);
content.AppendLine(childBookmark.DisplayStyle.ToString());
GetChildBookmark(childBookmark, content);
}
}
}
}
}
</code></pre>
<h2 id="3-输出格式说明">3. 输出格式说明</h2>
<p>生成的文本文件每两行代表一个书签:第一行是标题,第二行是显示样式。例如:</p>
<pre><code>Pdf bookmarks:
第1章 简介
Regular
1.1 背景
Bold
1.2 目标
Italic
第2章 实现
Regular
2.1 环境搭建
Regular
</code></pre>
<p><code>DisplayStyle</code> 是一个枚举,可能的值包括:</p>
<ul>
<li><code>Regular</code>:普通文本</li>
<li><code>Bold</code>:粗体</li>
<li><code>Italic</code>:斜体</li>
</ul>
<p>根据 PDF 文件的实际书签样式,输出结果会相应变化。</p>
<h2 id="4-注意事项与扩展">4. 注意事项与扩展</h2>
<h3 id="41-书签可能为空">4.1 书签可能为空</h3>
<p>若 PDF 没有书签,<code>bookmarks.Count</code> 为 0,代码会写入提示信息,避免空文件。</p>
<h3 id="42-目标页码与动作的获取">4.2 目标页码与动作的获取</h3>
<p>上述示例仅获取了标题和样式。如果需要获取书签跳转的目标页码,可以使用 <code>PdfBookmark.Action</code> 属性(需判断动作类型)。例如:</p>
<pre><code class="language-csharp">if (parentBookmark.Action is PdfGoToAction goToAction)
{
int pageIndex = pdf.Pages.IndexOf(goToAction.Destination.Page);
content.AppendLine($"跳转至第 {pageIndex + 1} 页");
}
</code></pre>
<p>由于 Free Spire.PDF 对 <code>Action</code> 的支持较为完整,可根据实际需求扩展。</p>
<h3 id="43-性能考虑">4.3 性能考虑</h3>
<p>对于包含数千个书签的 PDF,递归遍历不会有明显性能问题。但若需频繁提取,可考虑将 <code>StringBuilder</code> 替换为 <code>StreamWriter</code> 流式写入,降低内存占用。</p>
<h3 id="44-编码处理">4.4 编码处理</h3>
<p><code>File.WriteAllText</code> 默认使用 UTF-8 编码,如需指定编码(如 GB2312),可改用 <code>StreamWriter</code>。</p>
<h2 id="5-总结">5. 总结</h2>
<p>本文演示了如何利用免费 .NET 库完整提取 PDF 文档的多级书签信息。关键技术点包括:</p>
<ul>
<li>通过 <code>PdfDocument.Bookmarks</code> 获取根书签集合。</li>
<li>递归遍历 <code>PdfBookmark</code> 节点的 <code>Count</code> 和索引器。</li>
<li>读取 <code>Title</code> 和 <code>DisplayStyle</code> 属性。</li>
<li>将结构化数据写入文本文件。</li>
</ul>
<p>这种方法不依赖 Adobe Acrobat 或其他 GUI 工具,非常适合集成到后台服务或文档处理管道中。开发者可以根据上述模式进一步扩展,获取书签的页码、缩放方式甚至修改书签结构。</p><br><br>
来源:https://www.cnblogs.com/jazz-z/p/19875607
頁:
[1]