WiseOCR 医学文档智能识别
1. 接口介绍
支持用户上传 PDF 文件(如纸质医学报告单扫描件),系统基于视觉大模型自动完成 OCR 识别,将文档中的文字内容转换为结构化的 Markdown 格式输出,便于后续的信息解析、存储与展示。
2. 请求地址
POST https://openapi.wisediag.com/v1/ocr/pdf3. 请求参数
请求方式为 multipart/form-data:
| 字段名 | 类型 | 必填 | 说明 |
|---|---|---|---|
| file | File | ✅ | 上传的 PDF 文件(仅支持 .pdf 格式) |
| dpi | Integer | 可选 | 页面渲染 DPI,范围 72-600(默认:200) |
| prompt | String | 可选 | 自定义 OCR 提示词(不传则使用内置默认值) |
4. 请求示例
curl --location --request POST 'https://openapi.wisediag.com/v1/ocr/pdf' \
--header 'Authorization: Bearer sk-**********************************' \
--form 'file=@"/path/to/medical_report.pdf"' \
--form 'dpi="200"'5. 响应说明
| 字段名 | 类型 | 说明 |
|---|---|---|
| filename | String | 上传的文件名 |
| total_pages | Integer | PDF 总页数 |
| markdown | String | 所有页面合并后的 Markdown 内容(页间以 --- 分隔) |
| elapsed_seconds | Float | 处理耗时(秒) |
| usage | Object | 用量统计(用于计费),详见下表 |
usage 对象:
| 字段名 | 类型 | 说明 |
|---|---|---|
| completion_tokens | Integer | 模型生成的 token 总数(所有页累加) |
| prompt_tokens | Integer | 输入 token 数(始终为 0) |
| ocr_pic_size | Integer | OCR 处理的图片数量(即 PDF 页数) |
| total_tokens | Integer | token 总数(= completion_tokens) |
6. 响应示例
{
"filename": "medical_report.pdf",
"total_pages": 3,
"markdown": "# 体检报告\n\n| 项目 | 结果 | 参考值 |\n| --- | --- | --- |\n| 血红蛋白 | 133 | 113-151 g/L |\n\n---\n\n...",
"elapsed_seconds": 12.35,
"usage": {
"completion_tokens": 893,
"prompt_tokens": 0,
"ocr_pic_size": 3,
"total_tokens": 893
}
}7. 请求头
Authorization: Bearer sk-your-api-key
Content-Type: multipart/form-data8. 注意事项
- 文件格式:仅支持
.pdf文件 - 文件大小:单文件建议不超过 50MB,页数建议不超过200页(如有特殊需求,请联系技术支持团队。)
- DPI 设置:DPI 越高识别精度越高,但处理速度越慢;建议使用默认值 200,清晰文档可适当降低至 150
- 自定义提示词:可通过
prompt参数传入自定义提示词,适配不同类型的文档识别需求 - 请求超时:单次请求最长处理时间为 10 分钟,超时返回 504
- 响应格式:所有接口返回标准 JSON 格式(非流式)
9. 错误码说明
| HTTP 状态码 | 说明 |
|---|---|
| 200 | 请求成功 |
| 400 | 请求参数错误(如文件格式不支持、文件为空) |
| 413 | 上传文件过大(超过 50 MB 限制) |
| 422 | PDF 渲染失败(文件损坏或不可解析) |
| 500 | OCR 处理失败(内部错误) |
| 503 | 视觉模型服务不可用 |
| 504 | 请求超时(处理时间超过 10 分钟) |
10. 技术支持
如有问题,请联系技术支持团队。