PaddleOCR-VL-1.6-GGUF API使用指南：Python接口与命令行工具详解-港品优选

PaddleOCR-VL-1.6-GGUF API使用指南：Python接口与命令行工具详解

【免费下载链接】PaddleOCR-VL-1.6-GGUF项目地址: https://ai.gitcode.com/paddlepaddle/PaddleOCR-VL-1.6-GGUF

飞桨PaddlePaddle的PaddleOCR-VL-1.6-GGUF是一款强大的文档解析模型，它在PaddleOCR-VL-1.5的基础上进行了升级，引入了区域感知数据优化框架和渐进式后训练方案，在OmniDocBench等多个基准测试中取得了优异成绩。本指南将详细介绍如何通过Python接口和命令行工具使用该模型，帮助新手和普通用户快速上手这一高效的文档解析工具。

快速开始：环境准备

要使用PaddleOCR-VL-1.6-GGUF，首先需要安装必要的依赖。确保你的系统中已安装Python环境，然后通过以下命令安装PaddlePaddle和PaddleOCR：

# 安装适用于CUDA 12.6的PaddlePaddle版本，其他版本请参考官方文档 python -m pip install paddlepaddle-gpu==3.2.1 -i https://www.paddlepaddle.org.cn/packages/stable/cu126/ python -m pip install -U "paddleocr[doc-parser]>=3.6.0"

注意：请确保安装PaddlePaddle框架版本3.2.1或以上，以及特定版本的safetensors。macOS用户建议使用Docker搭建环境。

启动VLM推理服务器

在使用PaddleOCR-VL-1.6-GGUF进行文档解析之前，需要先启动VLM推理服务器。使用以下命令：

llama-server \ -m /path/to/PaddleOCR-VL-1.6-GGUF.gguf \ --mmproj /path/to/PaddleOCR-VL-1.6-GGUF-mmproj.gguf \ --port 8080 \ --host 0.0.0.0 \ --temp 0

其中，/path/to/需要替换为你实际存放模型文件的路径。--port参数指定服务器端口，--host 0.0.0.0允许其他设备访问该服务器。

Python接口使用方法

PaddleOCR提供了简洁易用的Python API，让你可以在自己的Python程序中轻松集成文档解析功能。

基本使用示例

from paddleocr import PaddleOCRVL # 初始化PaddleOCRVL pipeline pipeline = PaddleOCRVL( pipeline_version="v1.6", vl_rec_backend="llama-cpp-server", vl_rec_server_url="http://127.0.0.1:8080/v1" ) # 对图片进行文档解析 output = pipeline.predict("https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/paddleocr_vl_demo.png") # 处理解析结果 for res in output: res.print() # 打印解析结果 res.save_to_json(save_path="output") # 保存结果到JSON文件 res.save_to_markdown(save_path="output") # 保存结果到Markdown文件

功能说明

PaddleOCRVL类的初始化参数中，pipeline_version指定使用的流水线版本，这里我们使用"v1.6"。vl_rec_backend设置为"llama-cpp-server"，表示使用llama.cpp服务器作为后端。vl_rec_server_url是我们之前启动的推理服务器的地址。

predict方法接受图片路径作为输入，可以是本地路径或网络URL。解析结果是一个包含多个元素的列表，每个元素代表图片中的一个可识别区域。你可以通过print方法直接打印结果，或使用save_to_json和save_to_markdown方法将结果保存到文件。

命令行工具使用方法

除了Python API，PaddleOCR还提供了命令行工具，方便你直接在终端中使用文档解析功能。

基本使用命令

paddleocr doc_parser \ -i https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/paddleocr_vl_demo.png \ --pipeline_version v1.6 \ --vl_rec_backend llama-cpp-server \ --vl_rec_server_url http://127.0.0.1:8080/v1

参数说明

-i：指定输入图片的路径，可以是本地文件路径或网络URL。
--pipeline_version：指定使用的流水线版本，这里设置为"v1.6"。
--vl_rec_backend：设置视觉语言识别后端，这里使用"llama-cpp-server"。
--vl_rec_server_url：指定推理服务器的地址。

高级用法：元素级识别

PaddleOCR-VL-1.6-0.9B模型支持六种元素级别的识别，包括文本、公式、表格、图表、印章和定位。你可以通过不同的提示词来指定识别类型。

识别类型及提示词

文本识别：OCR:
公式识别：Formula Recognition:
表格识别：Table Recognition:
图表识别：Chart Recognition:
印章识别：Seal Recognition:
定位：Spotting:（需要设置image_max_pixels为1605632）

设置image_max_pixels

对于定位任务，需要先设置image_max_pixels参数：

git clone https://gitcode.com/paddlepaddle/PaddleOCR-VL-1.6-GGUF cd PaddleOCR-VL-1.6-GGUF python -m pip install gguf python ./gguf-py/gguf/scripts/gguf_set_metadata.py PaddleOCR-VL-1.6-mmproj.gguf clip.vision.image_max_pixels 1605632 --force

如需恢复默认值，可执行：

python ./gguf-py/gguf/scripts/gguf_set_metadata.py PaddleOCR-VL-1.6-mmproj.gguf clip.vision.image_max_pixels 1003520 --force

使用llama-cli进行识别

llama-cli \ -m PaddleOCR-VL-1.6.gguf \ --mmproj PaddleOCR-VL-1.6-mmproj.gguf \ -p 'OCR:' \ --image 'test_image.jpg'

将-p参数的值替换为不同的提示词，即可实现不同类型的元素识别。

总结

PaddleOCR-VL-1.6-GGUF提供了Python接口和命令行工具两种便捷的使用方式，满足不同用户的需求。通过本文的指南，你可以快速掌握如何安装环境、启动服务器、以及使用API和命令行工具进行文档解析。无论是开发集成到自己的应用程序，还是直接在终端中进行文档处理，PaddleOCR-VL-1.6-GGUF都能为你提供高效准确的文档解析能力。

更多使用细节和参数说明，请参考官方文档。希望本指南能帮助你更好地利用PaddleOCR-VL-1.6-GGUF进行文档解析工作！

【免费下载链接】PaddleOCR-VL-1.6-GGUF项目地址: https://ai.gitcode.com/paddlepaddle/PaddleOCR-VL-1.6-GGUF

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

企业官网建设流程全解析