本地视频转文字,音频转文字免费工具
2026/6/9 11:45:03 网站建设 项目流程

video2text Windows 安装部署教程

找了下本地视频转文字的工具,都是各种限制,于是自己写了个自用的工具。如果你觉得有用,欢迎在 GitHub 上给个 Star!

  • 完全免费,无时长限制,可转写视频和音频
  • 基于 Whisper large-v3,高准确率
  • 集成 Ollama / NVIDIA 大模型,自动生成摘要
  • 图形界面 + 命令行,Windows 绿色版已打包
  • 批量转写 + 总结,输出 TXT/SRT/VTT/JSON
  • 完全开源:video2text GitHub 仓库

一、界面

主界面GUI

  • 仅转写:Whisper提取语音,输出原文、字幕,不生成AI总结
  • 仅总结:读取已有文稿,本地大模型生成摘要
  • 转写总结:一键执行语音转写+AI摘要整套流程
  • 左侧日志区:实时打印加载、报错、显存、任务耗时等运行日志
  • 右上结果区
    • 文本内容:原文编辑,Ctrl+S保存、Ctrl+F查找,右键重转文件
    • 摘要页:AI产出文案,支持手动修改
  • 右下提示词区
    • 自定义摘要提示词,可保存/删除模板;勾选Markdown自动格式化导出

工作流程简介

video2text 的处理流程分为两个阶段:

  1. 语音转写:输入视频/音频 → Whisper large-v3 模型 → 输出 TXT/SRT/VTT/JSON 文本
  2. 智能总结:转写文本 → Ollama 本地模型 / NVIDIA 在线模型 → 输出 Markdown 格式摘要

两个阶段可独立运行,也可以一键完成。

二、安装前的准备:系统要求与组件

在安装 video2text 这一本地视频转文字工具前,请先确认你的电脑满足以下条件。

2.1 最低配置与推荐配置

项目最低要求推荐配置
操作系统Windows 10 64位Windows 11 64位
磁盘空间20 GB 可用空间30 GB 以上(含模型文件)
内存(RAM)8 GB16 GB 及以上
显卡无(CPU模式可用但很慢)NVIDIA 显卡(6GB显存以上) + CUDA

注意:AMD 显卡暂不支持 GPU 加速。CPU 模式可以运行会比较慢。

显卡信息参考(nvidia-smi 输出示例):

以下为 nvidia-smi 输出示例,请以你电脑上的实际输出为准

  • Driver Version: 572.83:NVIDIA 显卡驱动版本,video2text 依赖驱动提供的 CUDA 运行时。驱动版本过低可能导致 GPU 无法被识别。
  • CUDA Version: 12.8:此驱动支持的最高 CUDA 版本。Whisper 和各类深度学习模型在 CUDA 12.x 下均可正常工作。
NVIDIA-SMI 572.83Driver Version: 572.83CUDA Version: 12.8
GPU Name Driver-ModelBus-Id Disp.AVolatile Uncorr. ECC
Fan Temp Perf Pwr:Usage/CapMemory-UsageGPU-Util Compute M.
MIG M.
===========================================================================================
0 NVIDIA GeForce RTX 4060 WDDM00000000:01:00.0 OffN/A
N/A 41C P5 5W / 140W365MiB / 8188MiB0% Default
N/A

如果驱动版本和 CUDA 版本太低也可能无法使用 GPU 加速。建议先在命令行执行nvidia-smi确认显卡状态。

2.2 需要下载哪些文件

video2text 本地视频转文字工具的安装包体积较大,已上传至 123 云盘,内含以下组件:

组件大小是否下载
large-v3语音模型~3 GB可选,建议下载,自己有其它模型也行
Ollama 总结模型(qwen2.5:7b~4.7 GB可选,看总结用不用 Ollama
video2text 程序~3 GB必须

请使用支持保留目录结构的解压工具(如7-ZipBandizip)解压压缩包,确保文件夹结构完整。

下载地址:

合并下载: [video2text] 所有文件 链接:https://1840674647.share.123pan.cn/123pan/7CfNTd-SE7j3?pwd=viWa# 提取码:viWa 分开下载: [video2text_portable_windows_*.zip] 程序包 链接:https://1840674647.share.123pan.cn/123pan/7CfNTd-4Ovdh?pwd=1234# 提取码:1234 [large-v3.zip] 语音转文字模型 链接:https://1840674647.share.123pan.cn/123pan/7CfNTd-nk8vh?pwd=1234# 提取码:1234 [ollama] 安装包和本地模型 链接:https://1840674647.share.123pan.cn/123pan/7CfNTd-DR8dh?pwd=1234# 提取码:1234

三、详细安装步骤

以下按顺序介绍 video2text 本地视频转文字工具的完整安装流程。

3.1 部署 video2text 本地视频转文字程序

第一步:解压程序包

video2text_portable_windows_*.zip解压到你希望存放程序的位置,例如D:\video2text。该程序为绿色版,无需安装,不会写入注册表,解压即用。解压后目录结构如下:

D:\video2text\ ├── video2text.exe ← 主程序 ├── video2text.bat ← 启动脚本(自动设置工作目录) ├── config.ini ← 配置文件 ├── .env ← 环境变量配置(存放 API Key,需手动创建) ├── docs ← 文档 ├── assets\ ← 图标资源 ├── ffmpeg\ ← 内置 FFmpeg ├── models\ ← 模型目录(需要放入模型文件) ├── output\ ← 输出目录(可选) ├── logs\ ← 日志目录 └── README.md ← 说明文档

第二步:放入语音识别模型

将下载的large-v3.zip解压到程序目录下的models文件夹中。确保解压后模型文件位于models\large-v3\子目录下,且包含以下核心文件:

D:\video2text\models\ └── large-v3\ ├── config.json ├── model.bin ← 核心模型文件(约 2.9 GB) ├── preprocessor_config.json ├── tokenizer.json └── vocabulary.json

放好模型后就可以使用视频转文本功能了。
需要使用其它模型的可以到 Hugging Face 上找,按照上面目录结构放好,再到配置文件中设置。

3.2 总结模型安装

video2text 支持两种总结服务:NVIDIA 在线模型和本地 Ollama 模型,按需选择其一即可。

3.2.1 NVIDIA 在线(使用在线 NVIDIA 模型总结)

需要先在 NVIDIA Build 注册账号并创建 API Key(目前大部分模型免费使用)。获取 Key 后在程序目录下新建一个名为.env的文本文件(注意文件名以点开头,无扩展名)。用记事本打开,按需添加以下内容:

# NVIDIA API Key(使用在线 NVIDIA 模型总结时需要) NVIDIA_API_KEY=nvapi-你的API密钥

保存文件。程序启动时会自动读取该文件中的环境变量。API Key 也可以通过系统环境变量设置,效果相同(系统环境变量优先级高于.env文件)。NVIDIA 提供有很多免费的模型,如果网络访问有问题需要自行解决。

3.2.2 安装 Ollama(使用本地模型总结)

Ollama 是一个本地大语言模型运行框架,video2text 使用它来生成文本摘要。

本文以qwen2.5:7b-instruct-q4_K_M为例进行安装演示,该模型实际总结效果一般,推荐优先使用 NVIDIA 在线模型。

第一步:运行安装程序

双击OllamaSetup.exe,按提示完成安装。安装过程无需手动配置,会自动完成。

第二步:解压预下载模型

找到下载好的models.zip文件,将其解压到C:\Users\你的用户名\.ollama目录下。确保解压后的目录结构如下:

C:\Users\你的用户名\.ollama\ └── models\ └── blobs\ ← 模型数据文件 └── manifests\ ← 模型清单文件

第三步:启动 Ollama 服务

方式一:在开始菜单找到 Ollama 图标并启动。
方式二:按Win + R打开运行窗口,输入cmd,执行ollama serve

启动后系统托盘会出现 Ollama 图标,表示服务已就绪。

如果需要使用 Ollama 在线云服务模型(如 deepseek-v3.1:671b-cloud、gpt-oss:120b-cloud),需注册账号并在.env文件中配置OLLAMA_API_KEY

# Ollama API Key(使用带认证的 Ollama 服务时可选配置) OLLAMA_API_KEY=你的API密钥

3.3 验证安装是否成功

完成以上所有步骤后,按顺序验证各组件是否正常工作:

  1. 启动 video2text

    • 双击video2text.exevideo2text.bat启动程序。
    • 程序主窗口应正常显示,标题为「Video2Text - 视频转文本工具」。
    • 底部状态栏会显示当前使用的配置文件路径。
  2. 快速测试(可选):

    • 选择一个短小的视频文件(1-2 分钟即可)。
    • 点击「仅转写」按钮,观察日志面板是否有输出、进度条是否推进。
    • 转写完成后,右侧面板应显示转写文本。
    • 点击「仅总结」按钮,确认能正常生成摘要。

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询