智诊科技智诊科技

WiseOCR 医学文档智能识别

1. 接口介绍

支持用户上传 PDF 文件或图片文件(如纸质医学报告单扫描件、拍照图片),系统基于视觉大模型自动完成 OCR 识别,将文档中的文字内容转换为结构化的 Markdown 格式输出,便于后续的信息解析、存储与展示。

2. 请求地址

POST https://openapi.wisediag.com/v1/ocr/pdf

3. 请求参数

请求方式为 multipart/form-data

字段名类型必填说明
fileFile待识别的本地文件(PDF 或图片),详见下「file 参数说明」
dpiInteger可选PDF 页面渲染 DPI,范围 72–600(默认:200,仅对 PDF 生效)
promptString可选自定义 OCR 提示词(不传则使用内置默认值)

file 参数说明

  • 表单字段名multipart/form-data 中文件字段名必须为 file,与下方 curl 示例中的 --form 'file=@...' 一致。
  • 公网 URL不支持传入公网文件链接由服务端代为下载;请直接上传本地文件的二进制内容。
  • 数量:单次请求仅支持上传 一个 文件;若有多份文档,请分多次调用接口。
  • 格式:支持 PDF(.pdf)及图片(.jpg.jpeg.png.webp.gif.bmp.tiff)。
  • 大小与页数:单文件建议不超过 50MB,PDF 页数建议不超过 200 页;超出限制可能返回 413,详见「注意事项」。

4. 请求示例

上传 PDF:

curl --location --request POST 'https://openapi.wisediag.com/v1/ocr/pdf' \
--header 'Authorization: Bearer sk-**********************************' \
--form 'file=@"/path/to/medical_report.pdf"' \
--form 'dpi="200"'

上传图片:

curl --location --request POST 'https://openapi.wisediag.com/v1/ocr/pdf' \
--header 'Authorization: Bearer sk-**********************************' \
--form 'file=@"/path/to/medical_report.jpg"'

5. 响应说明

字段名类型说明
filenameString上传的文件名
total_pagesInteger总页数(PDF 为实际页数,图片始终为 1)
markdownString所有页面合并后的 Markdown 内容(多页以 --- 分隔)
elapsed_secondsFloat处理耗时(秒)
usageObject用量统计(用于计费),详见下表

usage 对象:

字段名类型说明
completion_tokensInteger模型生成的 token 总数(所有页/图片累加)
prompt_tokensInteger输入 token 数(始终为 0)
ocr_pic_sizeIntegerOCR 处理的图片数量(PDF 页数或图片张数)
total_tokensIntegertoken 总数(= completion_tokens)

6. 响应示例

PDF 文件响应:

{
  "filename": "medical_report.pdf",
  "total_pages": 3,
  "markdown": "# 体检报告\n\n| 项目 | 结果 | 参考值 |\n| --- | --- | --- |\n| 血红蛋白 | 133 | 113-151 g/L |\n\n---\n\n...",
  "elapsed_seconds": 12.35,
  "usage": {
    "completion_tokens": 893,
    "prompt_tokens": 0,
    "ocr_pic_size": 3,
    "total_tokens": 893
  }
}

图片文件响应:

{
  "filename": "medical_report.jpg",
  "total_pages": 1,
  "markdown": "# 检验报告\n\n| 项目 | 结果 | 参考值 |\n| --- | --- | --- |\n| 白细胞 | 5.6 | 3.5-9.5 ×10⁹/L |",
  "elapsed_seconds": 8.42,
  "usage": {
    "completion_tokens": 312,
    "prompt_tokens": 0,
    "ocr_pic_size": 1,
    "total_tokens": 312
  }
}

7. 请求头

Authorization: Bearer sk-your-api-key
Content-Type: multipart/form-data

8. 注意事项

  1. 文件格式:支持 PDF(.pdf)及图片(.jpg.jpeg.png.webp.gif.bmp.tiff
  2. 文件大小:单文件建议不超过 50MB;PDF 页数建议不超过 200 页(如有特殊需求,请联系技术支持团队)
  3. DPI 设置:仅对 PDF 生效,DPI 越高识别精度越高但处理速度越慢;建议使用默认值 200,清晰文档可适当降低至 150
  4. 自定义提示词:可通过 prompt 参数传入自定义提示词,适配不同类型的文档识别需求
  5. 请求超时:单次请求最长处理时间为 10 分钟,超时返回 504
  6. 响应格式:所有接口返回标准 JSON 格式(非流式)
  7. 公网 URL:不支持通过 URL 传递文件地址,仅支持 multipart/form-data 上传本地文件

9. 错误码说明

HTTP 状态码说明
200请求成功
400请求参数错误(如文件格式不支持、文件为空)
413上传文件过大(超过 50 MB 或 200 页限制)
422文件解析失败(PDF 损坏、图片格式异常或不可解析)
500OCR 处理失败(内部错误)
503视觉模型服务不可用
504请求超时(处理时间超过 10 分钟)

10. 技术支持

如有问题,请联系技术支持团队。

本页目录