WiseOCR 医学文档智能识别

1. 接口介绍

支持用户上传 PDF 文件或图片文件（如纸质医学报告单扫描件、拍照图片），系统基于视觉大模型自动完成 OCR 识别，将文档中的文字内容转换为结构化的 Markdown 格式输出，便于后续的信息解析、存储与展示。

2. 请求地址

POST https://openapi.wisediag.com/v1/ocr/pdf

3. 请求参数

请求方式为 multipart/form-data：

字段名	类型	必填	说明
file	File	✅	待识别的本地文件（PDF 或图片），详见下「file 参数说明」
dpi	Integer	可选	PDF 页面渲染 DPI，范围 72–600（默认：200，仅对 PDF 生效）
prompt	String	可选	自定义 OCR 提示词（不传则使用内置默认值）

file 参数说明

表单字段名：multipart/form-data 中文件字段名必须为 file，与下方 curl 示例中的 --form 'file=@...' 一致。
公网 URL：不支持传入公网文件链接由服务端代为下载；请直接上传本地文件的二进制内容。
数量：单次请求仅支持上传一个文件；若有多份文档，请分多次调用接口。
格式：支持 PDF（.pdf）及图片（.jpg、.jpeg、.png、.webp、.gif、.bmp、.tiff）。
大小与页数：单文件建议不超过 50MB，PDF 页数建议不超过 200 页；超出限制可能返回 413，详见「注意事项」。

4. 请求示例

上传 PDF：

curl --location --request POST 'https://openapi.wisediag.com/v1/ocr/pdf' \
--header 'Authorization: Bearer sk-**********************************' \
--form 'file=@"/path/to/medical_report.pdf"' \
--form 'dpi="200"'

上传图片：

curl --location --request POST 'https://openapi.wisediag.com/v1/ocr/pdf' \
--header 'Authorization: Bearer sk-**********************************' \
--form 'file=@"/path/to/medical_report.jpg"'

5. 响应说明

字段名	类型	说明
filename	String	上传的文件名
total_pages	Integer	总页数（PDF 为实际页数，图片始终为 1）
markdown	String	所有页面合并后的 Markdown 内容（多页以 `---` 分隔）
elapsed_seconds	Float	处理耗时（秒）
usage	Object	用量统计（用于计费），详见下表

usage 对象：

字段名	类型	说明
completion_tokens	Integer	模型生成的 token 总数（所有页/图片累加）
prompt_tokens	Integer	输入 token 数（始终为 0）
ocr_pic_size	Integer	OCR 处理的图片数量（PDF 页数或图片张数）
total_tokens	Integer	token 总数（= completion_tokens）

6. 响应示例

PDF 文件响应：

{
  "filename": "medical_report.pdf",
  "total_pages": 3,
  "markdown": "# 体检报告\n\n| 项目 | 结果 | 参考值 |\n| --- | --- | --- |\n| 血红蛋白 | 133 | 113-151 g/L |\n\n---\n\n...",
  "elapsed_seconds": 12.35,
  "usage": {
    "completion_tokens": 893,
    "prompt_tokens": 0,
    "ocr_pic_size": 3,
    "total_tokens": 893
  }
}

图片文件响应：

{
  "filename": "medical_report.jpg",
  "total_pages": 1,
  "markdown": "# 检验报告\n\n| 项目 | 结果 | 参考值 |\n| --- | --- | --- |\n| 白细胞 | 5.6 | 3.5-9.5 ×10⁹/L |",
  "elapsed_seconds": 8.42,
  "usage": {
    "completion_tokens": 312,
    "prompt_tokens": 0,
    "ocr_pic_size": 1,
    "total_tokens": 312
  }
}

7. 请求头

Authorization: Bearer sk-your-api-key
Content-Type: multipart/form-data

8. 注意事项

文件格式：支持 PDF（.pdf）及图片（.jpg、.jpeg、.png、.webp、.gif、.bmp、.tiff）
文件大小：单文件建议不超过 50MB；PDF 页数建议不超过 200 页（如有特殊需求，请联系技术支持团队）
DPI 设置：仅对 PDF 生效，DPI 越高识别精度越高但处理速度越慢；建议使用默认值 200，清晰文档可适当降低至 150
自定义提示词：可通过 prompt 参数传入自定义提示词，适配不同类型的文档识别需求
请求超时：单次请求最长处理时间为 10 分钟，超时返回 504
响应格式：所有接口返回标准 JSON 格式（非流式）
公网 URL：不支持通过 URL 传递文件地址，仅支持 multipart/form-data 上传本地文件

9. 错误码说明

HTTP 状态码	说明
200	请求成功
400	请求参数错误（如文件格式不支持、文件为空）
413	上传文件过大（超过 50 MB 或 200 页限制）
422	文件解析失败（PDF 损坏、图片格式异常或不可解析）
500	OCR 处理失败（内部错误）
503	视觉模型服务不可用
504	请求超时（处理时间超过 10 分钟）

10. 技术支持

如有问题，请联系技术支持团队。

本页目录