保姆级教程：在Windows 10上从零部署YOLOv8 TensorRT模型（Python/C++双版本）-港品优选

保姆级教程：在Windows 10上从零部署YOLOv8 TensorRT模型（Python/C++双版本）

部署AI模型到生产环境是许多开发者面临的挑战，尤其是在Windows平台上，复杂的工具链和依赖关系常常让人望而却步。本文将手把手带你完成从YOLOv8模型到TensorRT引擎的完整部署流程，涵盖Python和C++两种主流开发语言，确保你能够顺利在Windows 10系统上实现高性能推理。

1. 环境准备与工具链安装

在开始部署之前，我们需要搭建完整的开发环境。Windows平台下的深度学习部署有其特殊性，需要特别注意版本兼容性问题。

1.1 CUDA与cuDNN安装

TensorRT依赖于CUDA和cuDNN，我们推荐使用以下版本组合：

CUDA 11.6
cuDNN 8.4.1
TensorRT 8.4.3

安装步骤：

从NVIDIA官网下载CUDA 11.6安装包
运行安装程序，选择"自定义"安装
确保勾选以下组件：
- CUDA Toolkit
- CUDA Samples
- Visual Studio Integration（如果使用VS）

安装完成后，添加以下环境变量：

CUDA_PATH=C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v11.6 PATH=%CUDA_PATH%\bin;%PATH%

1.2 TensorRT安装与配置

TensorRT的Windows安装包包含以下关键组件：

TensorRT库文件
ONNX解析器
Python绑定
示例代码

安装后需要将以下路径添加到系统环境变量：

PATH=%TENSORRT_PATH%\lib;%PATH%

注意：TensorRT版本必须与CUDA版本严格匹配，否则会导致运行时错误。

2. YOLOv8模型转换与优化

2.1 从PyTorch到ONNX

首先安装必要的Python包：

pip install ultralytics==8.0.5 onnx==1.12.0

使用官方命令导出ONNX模型：

yolo mode=export model=yolov8n.pt format=onnx dynamic=False

2.2 ONNX模型优化

原始导出的ONNX模型可能包含不适合TensorRT的算子，需要进行转换：

python v8_transform.py yolov8n.onnx

转换后的模型将包含以下优化：

移除不必要的算子
简化计算图结构
添加TensorRT友好的层

3. TensorRT引擎生成

使用TensorRT提供的trtexec工具转换ONNX模型：

trtexec --onnx=yolov8n.transd.onnx --saveEngine=yolov8n_fp16.trt --fp16

关键参数说明：

--onnx：输入ONNX模型路径
--saveEngine：输出TensorRT引擎路径
--fp16：启用FP16精度（可省略使用FP32）

提示：FP16模式可以显著提升推理速度，但可能略微降低精度。

4. Python推理实现

4.1 环境配置

确保已安装以下Python包：

pip install numpy opencv-python pycuda

4.2 推理代码实现

创建Python推理类：

import cv2 import numpy as np import pycuda.driver as cuda import tensorrt as trt class YOLOv8TRT: def __init__(self, engine_path): self.logger = trt.Logger(trt.Logger.WARNING) with open(engine_path, "rb") as f: self.engine = trt.Runtime(self.logger).deserialize_cuda_engine(f.read()) self.context = self.engine.create_execution_context() def inference(self, image): # 预处理和后处理代码 pass

关键步骤：

加载TensorRT引擎
创建执行上下文
分配GPU内存
执行推理
后处理结果

5. C++推理实现

5.1 Visual Studio项目配置

在Visual Studio中配置项目属性：

添加包含目录：
- TensorRT头文件路径
- CUDA头文件路径
- OpenCV头文件路径
添加库目录：
- TensorRT库路径
- CUDA库路径
- OpenCV库路径
链接以下库文件：
- nvinfer.lib
- nvinfer_plugin.lib
- cudart.lib
- opencv_world451.lib

5.2 CMake配置示例

cmake_minimum_required(VERSION 3.12) project(yolov8_trt) set(CMAKE_CXX_STANDARD 17) # 设置第三方库路径 set(OpenCV_DIR "E:/opencv/build") set(TRT_DIR "E:/TensorRT-8.4.3.1") set(CUDA_DIR "C:/Program Files/NVIDIA GPU Computing Toolkit/CUDA/v11.6") find_package(OpenCV REQUIRED) find_package(CUDA REQUIRED) include_directories( ${TRT_DIR}/include ${CUDA_DIR}/include ${OpenCV_INCLUDE_DIRS} ) link_directories( ${TRT_DIR}/lib ${CUDA_DIR}/lib/x64 ${OpenCV_LIBRARY_DIRS} ) add_executable(yolov8_trt main.cpp) target_link_libraries(yolov8_trt nvinfer nvinfer_plugin cudart ${OpenCV_LIBS} )

5.3 C++推理核心代码

#include <NvInfer.h> #include <opencv2/opencv.hpp> class YOLOv8TRT { public: YOLOv8TRT(const std::string& enginePath) { // 初始化代码 } std::vector<Detection> detect(cv::Mat& image) { // 推理代码 } }; int main() { YOLOv8TRT detector("yolov8n_fp16.trt"); cv::Mat image = cv::imread("zidane.jpg"); auto results = detector.detect(image); // 可视化结果 return 0; }

6. 性能优化技巧

6.1 批处理优化

通过增加批处理大小可以显著提高吞吐量：

trtexec --onnx=yolov8n.onnx --saveEngine=yolov8n_bs16.trt --fp16 --batch=16

6.2 精度控制

TensorRT支持多种精度模式：

精度模式	内存占用	推理速度	精度
FP32	高	慢	高
FP16	中	快	中
INT8	低	最快	低

6.3 内存管理

高效的GPU内存管理策略：

预分配输入输出缓冲区
使用内存池减少分配开销
异步执行重叠计算和数据传输

7. 常见问题解决

7.1 ONNX转换失败

常见错误及解决方案：

不支持的算子：使用自定义插件或修改模型结构
形状推断失败：显式指定输入输出维度
版本不兼容：确保ONNX版本与TensorRT兼容

7.2 TensorRT引擎加载失败

检查清单：

确认CUDA、cuDNN版本匹配
检查引擎文件是否完整
验证运行时环境是否一致

7.3 推理结果异常

调试步骤：

对比ONNX和TensorRT输出
检查预处理/后处理代码
验证精度模式设置

在实际项目中，我发现最常出现的问题是环境变量配置不正确，特别是在Windows系统上，路径中的空格或特殊字符经常导致库加载失败。建议将所有依赖库安装在无空格的路径中，并仔细检查环境变量设置。

企业官网建设流程全解析