从扫描图像到结构化数据：使用 Pydantic 和大语言模型将医疗报告转换为 JSON

你是否曾对着一堆纸质医疗报告，希望自己能像使用“查找”功能一样快速检索自己的健康历史？📑 我们都经历过这种情况。每家医院的报告布局不同、计量单位各异，还有那些晦涩难懂的缩写，让手动录入数据成为一场噩梦。

在数据工程领域，将非结构化的“杂乱”文档转化为结构化数据提取管道是一项超能力。今天，我们将构建一个稳健的系统，利用 Pydantic、Instructor 和 Azure 表单识别器，将扫描的医疗报告转换为符合医学标准（如 LOINC）的标准 JSON 格式，并实现 100% 的类型安全。🚀

为何仅靠“提示词”是不够的

如果你只是将光学字符识别（OCR）文本扔给大语言模型并要求输出“JSON”，它最终会失败。它可能会捏造字段、更改数据类型，或者遗漏闭合括号。要构建生产级的健康科技产品，我们需要验证。

通过结合使用 Pydantic 进行模式定义，以及使用 Instructor 来引导大语言模型，我们确保输出的不仅仅是“类似 JSON”的文本，而是严格类型的 Python 对象。

架构：从像素到模式

以下是数据从模糊的 JPEG 图像流向清晰、可查询的数据库的过程：

graph TD
    A[扫描报告/图像] -->|OCR 提取| B[Azure AI 文档智能]
    B -->|原始文本和表格| C[Instructor + 大语言模型]
    C -->|模式强制| D[Pydantic 模型]
    D -->|验证检查| E{是否有效？}
    E -->|否| C
    E -->|是| F[标准化 JSON - 兼容 LOINC]
    F -->|存储| G[PostgreSQL/向量数据库]

第一步：定义医疗模式

首先，我们精确定义“医学检验”的样子。我们要捕获检验名称、结果、单位，以及那个令人头疼的参考范围。

from pydantic import BaseModel, Field
from typing import List, Optional

class MedicalTestResult(BaseModel):
    test_name: str = Field(..., description="检验名称，例如‘血红蛋白’或‘糖化血红蛋白’")
    value: float = Field(..., description="检验的数值结果")
    unit: str = Field(..., description="计量单位，例如

免责声明：本文内容来自互联网，该文观点不代表本站观点。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，请到页面底部单击反馈，一经查实，本站将立刻删除。