通过 C# 读取并导出 PDF 书签

山脚發表於 2026-4-16 10:18:00

<p>PDF 书签（大纲）是文档导航的核心要素，尤其对于长文档或技术手册，提取书签信息可用于生成目录、索引或进行文档结构分析。本文将介绍如何使用 Free Spire.PDF for .NET 库，通过 C# 代码完整读取 PDF 文件中的所有书签（包括多级嵌套书签），并将标题、显示样式等信息导出到文本文件。</p>
<h2 id="1-环境准备">1. 环境准备</h2>
<h3 id="11-安装免费库">1.1 安装免费库</h3>
<p>在 Visual Studio 中通过 NuGet 包管理器安装 <code>Free Spire.PDF</code>：</p>
<pre><code class="language-bash">Install-Package FreeSpire.PDF
</code></pre>
<p>该免费版本支持读取 PDF 书签等基础操作，无需额外授权文件，但有单文件10页的页数限制。</p>
<h3 id="12-引用命名空间">1.2 引用命名空间</h3>
<p>代码中需要引入以下命名空间：</p>
<pre><code class="language-csharp">using System;
using System.IO;
using System.Text;
using Spire.Pdf;
using Spire.Pdf.Bookmarks;
</code></pre>
<h2 id="2-核心实现逻辑">2. 核心实现逻辑</h2>
<p>整体流程分为四步：</p>
<ol>
<li>加载目标 PDF 文档。</li>
<li>获取文档的 <code>PdfBookmarkCollection</code> 书签集合。</li>
<li>递归遍历每个书签及其子书签，提取标题和显示样式。</li>
<li>将提取的内容写入文本文件。</li>
</ol>
<h3 id="21-加载文档并获取书签集合">2.1 加载文档并获取书签集合</h3>
<pre><code class="language-csharp">PdfDocument pdf = new PdfDocument();
pdf.LoadFromFile(@"D:\test.pdf");
PdfBookmarkCollection bookmarks = pdf.Bookmarks;
</code></pre>
<p><code>Bookmarks</code> 属性返回一个集合，包含顶层书签。如果文档没有书签，<code>Count</code> 为 0。</p>
<h3 id="22-递归遍历书签树">2.2 递归遍历书签树</h3>
<p>书签结构是典型的树形结构：每个书签节点可能拥有子书签集合（通过 <code>Count</code> 属性和索引器访问）。我们设计两个方法：</p>
<ul>
<li><code>GetBookmarks</code>：处理顶层书签，创建 <code>StringBuilder</code> 并启动递归。</li>
<li><code>GetChildBookmark</code>：递归处理子书签。</li>
</ul>
<pre><code class="language-csharp">public static void GetBookmarks(PdfBookmarkCollection bookmarks, string result)
{
StringBuilder content = new StringBuilder();
if (bookmarks.Count > 0)
{
   content.AppendLine("Pdf bookmarks:");
   foreach (PdfBookmark parentBookmark in bookmarks)
   {
         // 获取标题
         content.AppendLine(parentBookmark.Title);
         // 获取显示样式（如普通、粗体、斜体等）
         content.AppendLine(parentBookmark.DisplayStyle.ToString());
         // 递归处理子书签
         GetChildBookmark(parentBookmark, content);
   }
}
File.WriteAllText(result, content.ToString());
}
</code></pre>
<p>递归方法：</p>
<pre><code class="language-csharp">public static void GetChildBookmark(PdfBookmark parentBookmark, StringBuilder content)
{
if (parentBookmark.Count > 0)
{
   foreach (PdfBookmark childBookmark in parentBookmark)
   {
         content.AppendLine(childBookmark.Title);
         content.AppendLine(childBookmark.DisplayStyle.ToString());
         GetChildBookmark(childBookmark, content);
   }
}
}
</code></pre>
<h3 id="23-完整代码示例">2.3 完整代码示例</h3>
<p>以下是一个控制台应用程序的完整实现，将书签信息输出到 <code>GetPdfBookmarks.txt</code> 文件。</p>
<pre><code class="language-csharp">using System;
using System.IO;
using System.Text;
using Spire.Pdf;
using Spire.Pdf.Bookmarks;

namespace GetBookmark
{
internal class Program
{
   static void Main(string[] args)
   {
         PdfDocument pdf = new PdfDocument();
         pdf.LoadFromFile(@"D:\testp\test.pdf");

         PdfBookmarkCollection bookmarks = pdf.Bookmarks;
         string result = "GetPdfBookmarks.txt";
         GetBookmarks(bookmarks, result);

         Console.WriteLine("书签提取完成，结果已保存至：" + result);
   }

   public static void GetBookmarks(PdfBookmarkCollection bookmarks, string result)
   {
         StringBuilder content = new StringBuilder();
         if (bookmarks.Count > 0)
         {
            content.AppendLine("Pdf bookmarks:");
            foreach (PdfBookmark parentBookmark in bookmarks)
            {
               content.AppendLine(parentBookmark.Title);
               content.AppendLine(parentBookmark.DisplayStyle.ToString());
               GetChildBookmark(parentBookmark, content);
            }
         }
         else
         {
            content.AppendLine("该 PDF 文档不包含任何书签。");
         }
         File.WriteAllText(result, content.ToString());
   }

   public static void GetChildBookmark(PdfBookmark parentBookmark, StringBuilder content)
   {
         if (parentBookmark.Count > 0)
         {
            foreach (PdfBookmark childBookmark in parentBookmark)
            {
               content.AppendLine(childBookmark.Title);
               content.AppendLine(childBookmark.DisplayStyle.ToString());
               GetChildBookmark(childBookmark, content);
            }
         }
   }
}
}
</code></pre>
<h2 id="3-输出格式说明">3. 输出格式说明</h2>
<p>生成的文本文件每两行代表一个书签：第一行是标题，第二行是显示样式。例如：</p>
<pre><code>Pdf bookmarks:
第1章简介
Regular
1.1 背景
Bold
1.2 目标
Italic
第2章实现
Regular
2.1 环境搭建
Regular
</code></pre>
<p><code>DisplayStyle</code> 是一个枚举，可能的值包括：</p>
<ul>
<li><code>Regular</code>：普通文本</li>
<li><code>Bold</code>：粗体</li>
<li><code>Italic</code>：斜体</li>
</ul>
<p>根据 PDF 文件的实际书签样式，输出结果会相应变化。</p>
<h2 id="4-注意事项与扩展">4. 注意事项与扩展</h2>
<h3 id="41-书签可能为空">4.1 书签可能为空</h3>
<p>若 PDF 没有书签，<code>bookmarks.Count</code> 为 0，代码会写入提示信息，避免空文件。</p>
<h3 id="42-目标页码与动作的获取">4.2 目标页码与动作的获取</h3>
<p>上述示例仅获取了标题和样式。如果需要获取书签跳转的目标页码，可以使用 <code>PdfBookmark.Action</code> 属性（需判断动作类型）。例如：</p>
<pre><code class="language-csharp">if (parentBookmark.Action is PdfGoToAction goToAction)
{
int pageIndex = pdf.Pages.IndexOf(goToAction.Destination.Page);
content.AppendLine($"跳转至第 {pageIndex + 1} 页");
}
</code></pre>
<p>由于 Free Spire.PDF 对 <code>Action</code> 的支持较为完整，可根据实际需求扩展。</p>
<h3 id="43-性能考虑">4.3 性能考虑</h3>
<p>对于包含数千个书签的 PDF，递归遍历不会有明显性能问题。但若需频繁提取，可考虑将 <code>StringBuilder</code> 替换为 <code>StreamWriter</code> 流式写入，降低内存占用。</p>
<h3 id="44-编码处理">4.4 编码处理</h3>
<p><code>File.WriteAllText</code> 默认使用 UTF-8 编码，如需指定编码（如 GB2312），可改用 <code>StreamWriter</code>。</p>
<h2 id="5-总结">5. 总结</h2>
<p>本文演示了如何利用免费 .NET 库完整提取 PDF 文档的多级书签信息。关键技术点包括：</p>
<ul>
<li>通过 <code>PdfDocument.Bookmarks</code> 获取根书签集合。</li>
<li>递归遍历 <code>PdfBookmark</code> 节点的 <code>Count</code> 和索引器。</li>
<li>读取 <code>Title</code> 和 <code>DisplayStyle</code> 属性。</li>
<li>将结构化数据写入文本文件。</li>
</ul>
<p>这种方法不依赖 Adobe Acrobat 或其他 GUI 工具，非常适合集成到后台服务或文档处理管道中。开发者可以根据上述模式进一步扩展，获取书签的页码、缩放方式甚至修改书签结构。</p><br><br>
来源：https://www.cnblogs.com/jazz-z/p/19875607

頁: [1]

圆梦公社's Archiver

通过 C# 读取并导出 PDF 书签