面向服务的架构(SOA)深度解析
2026/5/31 13:16:22
整个过程主要分为两大部分:转换模型格式和导入 Ollama。
LlamaFactory 导出的模型权重通常是Hugging Face 格式(包含safetensors或 PyTorch 的.bin文件以及配置)。您需要使用llama.cpp提供的工具将其转换为 GGUF 格式。
1. 准备llama.cpp环境
llama.cpp仓库。gitclone https://github.com/ggerganov/llama.cppcdllama.cppmake2. 转换模型
llama.cpp目录后,使用convert.py或convert_hf_to_gguf.py脚本来执行转换。# 假设您的模型路径是 /path/to/your/lf_modelpython3 convert.py /path/to/your/lf_model --outfile /path/to/output/model.gguf3. 进行量化(可选但推荐)
quantize工具对生成的 GGUF 文件进行量化(例如,转换为Q4_K_M格式)。./quantize /path/to/output/model.gguf /path/to/output/model-quantized.gguf Q4_K_MQ4_K_M,Q5_K_M,Q8_0等。一旦您获得了 GGUF 格式的模型文件(例如my-finetune-model.gguf),就可以通过创建一个Modelfile将其导入 Ollama。
1. 创建 Modelfile
Modelfile的文件(注意:没有扩展名)。这个文件告诉 Ollama 如何加载和运行您的模型。# Modelfile 的内容示例 FROM /path/to/your/my-finetune-model.gguf # 可选:定义模型在聊天中的行为,例如系统提示(System Prompt) # system """ # 你是一个乐于助人的 AI 助手,由 LlamaFactory 微调。 # """ # 更多可选参数,如温度、上下文大小等 # PARAMETER temperature 0.8 # PARAMETER num_ctx 4096 # 可选:定义提示模板,取决于您的模型微调时使用的格式 # TEMPLATE """{{ .Prompt }}"""提示:
FROM后的路径必须是您的 GGUF 文件的完整路径或相对路径。如果您不知道如何编写提示模板,可以参考 LlamaFactory 训练时使用的原始模型模板。
2. 导入模型到 Ollama
Modelfile的目录下打开终端,运行ollama create命令来创建模型。ollama create<您想给模型起的名字,例如 my-lf-model>-f Modelfile3. 运行您的新模型
ollama run<您给模型起的名字>| 步骤 | 动作 | 工具 | 结果 |
|---|---|---|---|
| 1. 转换 | 将 Hugging Face 格式的模型转换为 GGUF 格式。 | llama.cpp的convert.py | 生成.gguf文件 |
| 2. 量化 | (可选) 对 GGUF 文件进行量化。 | llama.cpp的quantize | 生成更小的.gguf文件 |
| 3. 定义 | 创建一个Modelfile,指定 GGUF 文件路径及运行参数。 | 文本编辑器 | Modelfile文件 |
| 4. 导入 | 使用ollama create命令将模型注册到 Ollama。 | ollamaCLI | 成功部署的模型 |
| 5. 运行 | 使用ollama run命令运行测试。 | ollamaCLI | 模型开始运行 |