PaddleOCR-VL-1.6-GGUF API使用指南:Python接口与命令行工具详解
2026/6/1 3:24:13 网站建设 项目流程

PaddleOCR-VL-1.6-GGUF API使用指南:Python接口与命令行工具详解

【免费下载链接】PaddleOCR-VL-1.6-GGUF项目地址: https://ai.gitcode.com/paddlepaddle/PaddleOCR-VL-1.6-GGUF

飞桨PaddlePaddle的PaddleOCR-VL-1.6-GGUF是一款强大的文档解析模型,它在PaddleOCR-VL-1.5的基础上进行了升级,引入了区域感知数据优化框架和渐进式后训练方案,在OmniDocBench等多个基准测试中取得了优异成绩。本指南将详细介绍如何通过Python接口和命令行工具使用该模型,帮助新手和普通用户快速上手这一高效的文档解析工具。

快速开始:环境准备

要使用PaddleOCR-VL-1.6-GGUF,首先需要安装必要的依赖。确保你的系统中已安装Python环境,然后通过以下命令安装PaddlePaddle和PaddleOCR:

# 安装适用于CUDA 12.6的PaddlePaddle版本,其他版本请参考官方文档 python -m pip install paddlepaddle-gpu==3.2.1 -i https://www.paddlepaddle.org.cn/packages/stable/cu126/ python -m pip install -U "paddleocr[doc-parser]>=3.6.0"

注意:请确保安装PaddlePaddle框架版本3.2.1或以上,以及特定版本的safetensors。macOS用户建议使用Docker搭建环境。

启动VLM推理服务器

在使用PaddleOCR-VL-1.6-GGUF进行文档解析之前,需要先启动VLM推理服务器。使用以下命令:

llama-server \ -m /path/to/PaddleOCR-VL-1.6-GGUF.gguf \ --mmproj /path/to/PaddleOCR-VL-1.6-GGUF-mmproj.gguf \ --port 8080 \ --host 0.0.0.0 \ --temp 0

其中,/path/to/需要替换为你实际存放模型文件的路径。--port参数指定服务器端口,--host 0.0.0.0允许其他设备访问该服务器。

Python接口使用方法

PaddleOCR提供了简洁易用的Python API,让你可以在自己的Python程序中轻松集成文档解析功能。

基本使用示例

from paddleocr import PaddleOCRVL # 初始化PaddleOCRVL pipeline pipeline = PaddleOCRVL( pipeline_version="v1.6", vl_rec_backend="llama-cpp-server", vl_rec_server_url="http://127.0.0.1:8080/v1" ) # 对图片进行文档解析 output = pipeline.predict("https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/paddleocr_vl_demo.png") # 处理解析结果 for res in output: res.print() # 打印解析结果 res.save_to_json(save_path="output") # 保存结果到JSON文件 res.save_to_markdown(save_path="output") # 保存结果到Markdown文件

功能说明

PaddleOCRVL类的初始化参数中,pipeline_version指定使用的流水线版本,这里我们使用"v1.6"。vl_rec_backend设置为"llama-cpp-server",表示使用llama.cpp服务器作为后端。vl_rec_server_url是我们之前启动的推理服务器的地址。

predict方法接受图片路径作为输入,可以是本地路径或网络URL。解析结果是一个包含多个元素的列表,每个元素代表图片中的一个可识别区域。你可以通过print方法直接打印结果,或使用save_to_jsonsave_to_markdown方法将结果保存到文件。

命令行工具使用方法

除了Python API,PaddleOCR还提供了命令行工具,方便你直接在终端中使用文档解析功能。

基本使用命令

paddleocr doc_parser \ -i https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/paddleocr_vl_demo.png \ --pipeline_version v1.6 \ --vl_rec_backend llama-cpp-server \ --vl_rec_server_url http://127.0.0.1:8080/v1

参数说明

  • -i:指定输入图片的路径,可以是本地文件路径或网络URL。
  • --pipeline_version:指定使用的流水线版本,这里设置为"v1.6"。
  • --vl_rec_backend:设置视觉语言识别后端,这里使用"llama-cpp-server"。
  • --vl_rec_server_url:指定推理服务器的地址。

高级用法:元素级识别

PaddleOCR-VL-1.6-0.9B模型支持六种元素级别的识别,包括文本、公式、表格、图表、印章和定位。你可以通过不同的提示词来指定识别类型。

识别类型及提示词

  • 文本识别:OCR:
  • 公式识别:Formula Recognition:
  • 表格识别:Table Recognition:
  • 图表识别:Chart Recognition:
  • 印章识别:Seal Recognition:
  • 定位:Spotting:(需要设置image_max_pixels1605632

设置image_max_pixels

对于定位任务,需要先设置image_max_pixels参数:

git clone https://gitcode.com/paddlepaddle/PaddleOCR-VL-1.6-GGUF cd PaddleOCR-VL-1.6-GGUF python -m pip install gguf python ./gguf-py/gguf/scripts/gguf_set_metadata.py PaddleOCR-VL-1.6-mmproj.gguf clip.vision.image_max_pixels 1605632 --force

如需恢复默认值,可执行:

python ./gguf-py/gguf/scripts/gguf_set_metadata.py PaddleOCR-VL-1.6-mmproj.gguf clip.vision.image_max_pixels 1003520 --force

使用llama-cli进行识别

llama-cli \ -m PaddleOCR-VL-1.6.gguf \ --mmproj PaddleOCR-VL-1.6-mmproj.gguf \ -p 'OCR:' \ --image 'test_image.jpg'

-p参数的值替换为不同的提示词,即可实现不同类型的元素识别。

总结

PaddleOCR-VL-1.6-GGUF提供了Python接口和命令行工具两种便捷的使用方式,满足不同用户的需求。通过本文的指南,你可以快速掌握如何安装环境、启动服务器、以及使用API和命令行工具进行文档解析。无论是开发集成到自己的应用程序,还是直接在终端中进行文档处理,PaddleOCR-VL-1.6-GGUF都能为你提供高效准确的文档解析能力。

更多使用细节和参数说明,请参考官方文档。希望本指南能帮助你更好地利用PaddleOCR-VL-1.6-GGUF进行文档解析工作!

【免费下载链接】PaddleOCR-VL-1.6-GGUF项目地址: https://ai.gitcode.com/paddlepaddle/PaddleOCR-VL-1.6-GGUF

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询