智诊科技智诊科技

WiseOCR 医学文档智能识别

1. 接口介绍

支持用户上传 PDF 文件(如纸质医学报告单扫描件),系统基于视觉大模型自动完成 OCR 识别,将文档中的文字内容转换为结构化的 Markdown 格式输出,便于后续的信息解析、存储与展示。

2. 请求地址

POST https://openapi.wisediag.com/v1/ocr/pdf

3. 请求参数

请求方式为 multipart/form-data

字段名类型必填说明
fileFile上传的 PDF 文件(仅支持 .pdf 格式)
dpiInteger可选页面渲染 DPI,范围 72-600(默认:200)
promptString可选自定义 OCR 提示词(不传则使用内置默认值)

4. 请求示例

curl --location --request POST 'https://openapi.wisediag.com/v1/ocr/pdf' \
--header 'Authorization: Bearer sk-**********************************' \
--form 'file=@"/path/to/medical_report.pdf"' \
--form 'dpi="200"'

5. 响应说明

字段名类型说明
filenameString上传的文件名
total_pagesIntegerPDF 总页数
markdownString所有页面合并后的 Markdown 内容(页间以 --- 分隔)
elapsed_secondsFloat处理耗时(秒)
usageObject用量统计(用于计费),详见下表

usage 对象:

字段名类型说明
completion_tokensInteger模型生成的 token 总数(所有页累加)
prompt_tokensInteger输入 token 数(始终为 0)
ocr_pic_sizeIntegerOCR 处理的图片数量(即 PDF 页数)
total_tokensIntegertoken 总数(= completion_tokens)

6. 响应示例

{
  "filename": "medical_report.pdf",
  "total_pages": 3,
  "markdown": "# 体检报告\n\n| 项目 | 结果 | 参考值 |\n| --- | --- | --- |\n| 血红蛋白 | 133 | 113-151 g/L |\n\n---\n\n...",
  "elapsed_seconds": 12.35,
  "usage": {
    "completion_tokens": 893,
    "prompt_tokens": 0,
    "ocr_pic_size": 3,
    "total_tokens": 893
  }
}

7. 请求头

Authorization: Bearer sk-your-api-key
Content-Type: multipart/form-data

8. 注意事项

  1. 文件格式:仅支持 .pdf 文件
  2. 文件大小:单文件建议不超过 50MB,页数建议不超过200页(如有特殊需求,请联系技术支持团队。)
  3. DPI 设置:DPI 越高识别精度越高,但处理速度越慢;建议使用默认值 200,清晰文档可适当降低至 150
  4. 自定义提示词:可通过 prompt 参数传入自定义提示词,适配不同类型的文档识别需求
  5. 请求超时:单次请求最长处理时间为 10 分钟,超时返回 504
  6. 响应格式:所有接口返回标准 JSON 格式(非流式)

9. 错误码说明

HTTP 状态码说明
200请求成功
400请求参数错误(如文件格式不支持、文件为空)
413上传文件过大(超过 50 MB 限制)
422PDF 渲染失败(文件损坏或不可解析)
500OCR 处理失败(内部错误)
503视觉模型服务不可用
504请求超时(处理时间超过 10 分钟)

10. 技术支持

如有问题,请联系技术支持团队。

本页目录