使用 Rust 进行 PDF 脱敏——为何“删除文本”并不足够

所有测试均在一台使用了八年的 MacBook Air 上运行。
所有结果均来自一位独立开发者发布的七款 Mac 应用程序。无任何赞助观点。
真正的 PDF 脱敏比看起来要困难得多。简单粗暴的方法——在文本上绘制一个黑色矩形——实际上并未从文件中移除文本。
以下是正确脱敏所需的步骤。

简单脱敏方法的问题
即使在敏感文本上绘制了黑色矩形，该 PDF 文件的结构中仍然包含这些文本。任何拥有 PDF 编辑器的人都可以移除该矩形并阅读原始内容。
这已导致真实的安全事件。法律文件、医疗记录、政府报告——全都因为有人在文本上画了个框并称之为“已脱敏”而泄露。

实际脱敏所需的操作

识别需要脱敏的内容（文本、图像或区域）
从 PDF 的内容流中移除实际内容
用填充矩形替换
移除文档结构中的任何引用
重建 PDF，确保对象流中不包含已脱敏的内容

第二步是简单实现失败的地方。移除可见的渲染效果并不等同于移除数据。

lopdf 的方法
使用 lopdf 时，你直接处理 PDF 对象。脱敏意味着修改内容流：
rustfn redact_text_in_stream(content: &[u8], target: &str) -> Vec {
// 解析 PDF 内容流操作
// 查找包含目标文本的文本渲染操作
// 用空格替换文本内容或移除操作
// 重建内容流

// 这确实非常复杂——PDF 内容流
// 将文本定位和渲染命令交错在一起
todo!("非平凡实现")

}
PDF 内容流并非纯文本。它们是一系列操作符和操作数的序列。文本分布在多个操作符中：字体选择、定位、编码、渲染。完整的脱敏实现需要解析所有这些内容。

我在 PDF Vault 中发布的功能
Hiyoko PDF Vault 实现了基于区域的脱敏：用户选择一个区域，我们移除在该区域内渲染的所有内容操作，然后用实心矩形填充。
这并非法医级脱敏。但它从文件结构中移除了内容，而不仅仅是覆盖它。对于其使用场景——个人文档，而非机密政府文件——这是合适的。
对于需要认证脱敏的真正敏感文档，带有记录审计轨迹的专业工具才是正确的选择。我在应用描述中对此如实说明。

结论
在专业工具中，真正的 PDF 脱敏是一个已解决的问题。在 Rust 实现中，这是可行的，但需要仔细解析 PDF 内容流。简单粗暴的方法（绘制矩形）绝不应被称为脱敏。
在决定如何实现之前，请先了解你的用户真正需要的脱敏级别。

如果本文对你有用，点个 ❤️ 的帮助比你想象的要大——谢谢！
Hiyoko PDF Vault → https://hiyokoko.gumroad.com/l/HiyokoPDFVault
X → @hiyoyok

免责声明：本文内容来自互联网，该文观点不代表本站观点。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，请到页面底部单击反馈，一经查实，本站将立刻删除。