游戏收藏瘦身秘籍:tochd让你的硬盘空间翻倍![特殊字符]
2026/5/22 10:36:43
Xinference是一个强大的开源模型推理框架,能帮你轻松地在本地或服务器上部署、管理各种AI模型(如ChatGLM、Baichuan等)。其核心优势是统一管理并支持多种主流推理引擎(如vLLM、llama.cpp),并提供简单易用的Web界面。
为了让你快速了解,下表对比了主要的两种部署方式:
| 特性 | Docker部署 (推荐) | pip本地安装 |
|---|---|---|
| 核心优势 | 环境隔离,依赖简单,最适合生产环境 | 直接与宿主机Python环境交互,便于深度定制 |
| 适用场景 | 标准部署、快速启动、内网/离线环境 | 开发调试、频繁修改代码、需要直接调用其他Python库 |
| 复杂度 | 低 | 中(需自行解决依赖) |
这是最稳定、最推荐的方式,能避免复杂的本地环境问题。
步骤简述:
xprobe/xinference)。docker run -d -p9997:9997 --gpus all\-v /path/to/your/models:/models\xprobe/xinference:latest\xinference-local -H0.0.0.0参数说明:-p 9997:9997:将容器内端口映射到宿主机。--gpus all:启用GPU支持(若无GPU或使用CPU版镜像可去掉)。-v /path/to/your/models:/models:将存放本地模型的目录挂载进容器。适合希望在Python环境中直接集成的开发者。
基本步骤:
pip install "xinference[all]"。xinference-local --host 0.0.0.0 --port 9997即可。注:
pip安装可能会遇到llama-cpp-python或torch的版本冲突问题,需要手动调整版本。
无论以何种方式部署,成功启动后都可以通过以下步骤使用:
http://<你的服务器IP>:9997,即可进入管理界面。ChatGLM3),点击“启动”即可。系统会自动从网络下载模型文件。/models/llama-2-7b.Q4_K_M.gguf),框架会直接加载。-e XINFERENCE_MODEL_SRC=local,并正确挂载包含模型的本地目录。在Web UI中启动模型时,选择“Custom”并填写容器内的模型路径(如/models/你的模型文件.gguf)。.gguf,.safetensors格式),然后通过上述本地模型方式加载。