本地视频转文字，音频转文字免费工具-港品优选

video2text Windows 安装部署教程

找了下本地视频转文字的工具，都是各种限制，于是自己写了个自用的工具。如果你觉得有用，欢迎在 GitHub 上给个 Star！

完全免费，无时长限制，可转写视频和音频
基于 Whisper large-v3，高准确率
集成 Ollama / NVIDIA 大模型，自动生成摘要
图形界面 + 命令行，Windows 绿色版已打包
批量转写 + 总结，输出 TXT/SRT/VTT/JSON
完全开源：video2text GitHub 仓库

一、界面

主界面GUI

仅转写：Whisper提取语音，输出原文、字幕，不生成AI总结
仅总结：读取已有文稿，本地大模型生成摘要
转写总结：一键执行语音转写+AI摘要整套流程
左侧日志区：实时打印加载、报错、显存、任务耗时等运行日志
右上结果区
- 文本内容：原文编辑，Ctrl+S保存、Ctrl+F查找，右键重转文件
- 摘要页：AI产出文案，支持手动修改
右下提示词区
- 自定义摘要提示词，可保存/删除模板；勾选Markdown自动格式化导出

工作流程简介

video2text 的处理流程分为两个阶段：

语音转写：输入视频/音频 → Whisper large-v3 模型 → 输出 TXT/SRT/VTT/JSON 文本
智能总结：转写文本 → Ollama 本地模型 / NVIDIA 在线模型 → 输出 Markdown 格式摘要

两个阶段可独立运行，也可以一键完成。

二、安装前的准备：系统要求与组件

在安装 video2text 这一本地视频转文字工具前，请先确认你的电脑满足以下条件。

2.1 最低配置与推荐配置

项目	最低要求	推荐配置
操作系统	Windows 10 64位	Windows 11 64位
磁盘空间	20 GB 可用空间	30 GB 以上（含模型文件）
内存（RAM）	8 GB	16 GB 及以上
显卡	无（CPU模式可用但很慢）	NVIDIA 显卡（6GB显存以上） + CUDA

注意：AMD 显卡暂不支持 GPU 加速。CPU 模式可以运行会比较慢。

显卡信息参考（nvidia-smi 输出示例）：

以下为 nvidia-smi 输出示例，请以你电脑上的实际输出为准
Driver Version: 572.83：NVIDIA 显卡驱动版本，video2text 依赖驱动提供的 CUDA 运行时。驱动版本过低可能导致 GPU 无法被识别。
CUDA Version: 12.8：此驱动支持的最高 CUDA 版本。Whisper 和各类深度学习模型在 CUDA 12.x 下均可正常工作。

NVIDIA-SMI 572.83	Driver Version: 572.83	CUDA Version: 12.8
GPU Name Driver-Model	Bus-Id Disp.A	Volatile Uncorr. ECC
Fan Temp Perf Pwr:Usage/Cap	Memory-Usage	GPU-Util Compute M.
MIG M.
===================================	================================	========================
0 NVIDIA GeForce RTX 4060 WDDM	00000000:01:00.0 Off	N/A
N/A 41C P5 5W / 140W	365MiB / 8188MiB	0% Default
N/A

如果驱动版本和 CUDA 版本太低也可能无法使用 GPU 加速。建议先在命令行执行nvidia-smi确认显卡状态。

2.2 需要下载哪些文件

video2text 本地视频转文字工具的安装包体积较大，已上传至 123 云盘，内含以下组件：

组件	大小	是否下载
`large-v3`语音模型	~3 GB	可选，建议下载，自己有其它模型也行
Ollama 总结模型（`qwen2.5:7b`）	~4.7 GB	可选，看总结用不用 Ollama
video2text 程序	~3 GB	必须

请使用支持保留目录结构的解压工具（如7-Zip或Bandizip）解压压缩包，确保文件夹结构完整。

下载地址：

合并下载: [video2text] 所有文件 链接：https://1840674647.share.123pan.cn/123pan/7CfNTd-SE7j3?pwd=viWa# 提取码：viWa 分开下载: [video2text_portable_windows_*.zip] 程序包 链接：https://1840674647.share.123pan.cn/123pan/7CfNTd-4Ovdh?pwd=1234# 提取码：1234 [large-v3.zip] 语音转文字模型 链接：https://1840674647.share.123pan.cn/123pan/7CfNTd-nk8vh?pwd=1234# 提取码：1234 [ollama] 安装包和本地模型 链接：https://1840674647.share.123pan.cn/123pan/7CfNTd-DR8dh?pwd=1234# 提取码：1234

三、详细安装步骤

以下按顺序介绍 video2text 本地视频转文字工具的完整安装流程。

3.1 部署 video2text 本地视频转文字程序

第一步：解压程序包

将video2text_portable_windows_*.zip解压到你希望存放程序的位置，例如D:\video2text。该程序为绿色版，无需安装，不会写入注册表，解压即用。解压后目录结构如下：

D:\video2text\ ├── video2text.exe ← 主程序 ├── video2text.bat ← 启动脚本（自动设置工作目录） ├── config.ini ← 配置文件 ├── .env ← 环境变量配置（存放 API Key，需手动创建） ├── docs ← 文档 ├── assets\ ← 图标资源 ├── ffmpeg\ ← 内置 FFmpeg ├── models\ ← 模型目录（需要放入模型文件） ├── output\ ← 输出目录（可选） ├── logs\ ← 日志目录 └── README.md ← 说明文档

第二步：放入语音识别模型

将下载的large-v3.zip解压到程序目录下的models文件夹中。确保解压后模型文件位于models\large-v3\子目录下，且包含以下核心文件：

D:\video2text\models\ └── large-v3\ ├── config.json ├── model.bin ← 核心模型文件（约 2.9 GB） ├── preprocessor_config.json ├── tokenizer.json └── vocabulary.json

放好模型后就可以使用视频转文本功能了。
需要使用其它模型的可以到 Hugging Face 上找，按照上面目录结构放好，再到配置文件中设置。

3.2 总结模型安装

video2text 支持两种总结服务：NVIDIA 在线模型和本地 Ollama 模型，按需选择其一即可。

3.2.1 NVIDIA 在线（使用在线 NVIDIA 模型总结）

需要先在 NVIDIA Build 注册账号并创建 API Key（目前大部分模型免费使用）。获取 Key 后在程序目录下新建一个名为.env的文本文件（注意文件名以点开头，无扩展名）。用记事本打开，按需添加以下内容：

# NVIDIA API Key（使用在线 NVIDIA 模型总结时需要） NVIDIA_API_KEY=nvapi-你的API密钥

保存文件。程序启动时会自动读取该文件中的环境变量。API Key 也可以通过系统环境变量设置，效果相同（系统环境变量优先级高于.env文件）。NVIDIA 提供有很多免费的模型，如果网络访问有问题需要自行解决。

3.2.2 安装 Ollama（使用本地模型总结）

Ollama 是一个本地大语言模型运行框架，video2text 使用它来生成文本摘要。

本文以qwen2.5:7b-instruct-q4_K_M为例进行安装演示，该模型实际总结效果一般，推荐优先使用 NVIDIA 在线模型。

第一步：运行安装程序

双击OllamaSetup.exe，按提示完成安装。安装过程无需手动配置，会自动完成。

第二步：解压预下载模型

找到下载好的models.zip文件，将其解压到C:\Users\你的用户名\.ollama目录下。确保解压后的目录结构如下：

C:\Users\你的用户名\.ollama\ └── models\ └── blobs\ ← 模型数据文件 └── manifests\ ← 模型清单文件

第三步：启动 Ollama 服务

方式一：在开始菜单找到 Ollama 图标并启动。
方式二：按Win + R打开运行窗口，输入cmd，执行ollama serve。

启动后系统托盘会出现 Ollama 图标，表示服务已就绪。

如果需要使用 Ollama 在线云服务模型（如 deepseek-v3.1:671b-cloud、gpt-oss:120b-cloud），需注册账号并在.env文件中配置OLLAMA_API_KEY：

# Ollama API Key（使用带认证的 Ollama 服务时可选配置） OLLAMA_API_KEY=你的API密钥

3.3 验证安装是否成功

完成以上所有步骤后，按顺序验证各组件是否正常工作：

启动 video2text：
- 双击video2text.exe或video2text.bat启动程序。
- 程序主窗口应正常显示，标题为「Video2Text - 视频转文本工具」。
- 底部状态栏会显示当前使用的配置文件路径。
快速测试（可选）：
- 选择一个短小的视频文件（1-2 分钟即可）。
- 点击「仅转写」按钮，观察日志面板是否有输出、进度条是否推进。
- 转写完成后，右侧面板应显示转写文本。
- 点击「仅总结」按钮，确认能正常生成摘要。

企业官网建设流程全解析

video2text Windows 安装部署教程

一、界面

主界面GUI

工作流程简介

二、安装前的准备：系统要求与组件

2.1 最低配置与推荐配置

2.2 需要下载哪些文件

三、详细安装步骤

3.1 部署 video2text 本地视频转文字程序

3.2 总结模型安装

3.2.1 NVIDIA 在线（使用在线 NVIDIA 模型总结）

3.2.2 安装 Ollama（使用本地模型总结）

3.3 验证安装是否成功

热门文章

文章分类

标签云

需要专业的网站建设服务？

企业官网建设流程全解析

video2text Windows 安装部署教程

一、界面

主界面GUI

工作流程简介

二、安装前的准备：系统要求与组件

2.1 最低配置与推荐配置

2.2 需要下载哪些文件

三、详细安装步骤

3.1 部署 video2text 本地视频转文字程序

3.2 总结模型安装

3.2.1 NVIDIA 在线（使用在线 NVIDIA 模型总结）

3.2.2 安装 Ollama（使用本地模型总结）

3.3 验证安装是否成功

热门文章

文章分类

标签云

相关文章

VMware Unlocker终极指南：3分钟解锁macOS虚拟机支持，无需苹果硬件！

数据驱动的产品迭代：从用户行为分析到功能优先级决策

Springboot+Express 开发

需要专业的网站建设服务？