Skip to content

这是一个开源免费的视频翻译配音软件,可将一种语言发音的视频,翻译为另一种语言发音的视频,并嵌入该语言字幕。比如有一个英文电影,发音是英文,没有英文字幕,也没有中文字幕,使用这个工具处理后,可以转成带中文字幕,并且带有中文配音的电影。

支持24种语言的视频翻译,对其他不在支持之列的语言,可选择自动检测后视频。同时还集成 语音识别/文字配音/字幕翻译/音视频合并/视频字幕合并/视频加水印 等功能。

win10/win11可下载预打包版压缩包,解压后双击sp.exe即可使用,其他系统可使用源码部署,部署后执行python sp.py启动软件。

软件下载地址 https://pyvideotrans.com/downpackage

开源地址 https://github.com/jianchang512/pyvideotrans


软件启动后界面如下,分为 左侧工具栏、顶部菜单、中间工作区 3个区域,分别说明如下。

img

左侧工具栏

img

自定义配置翻译

点击自定义配置翻译按钮后,右侧会显示可使用的操作按钮和选项设置,可在此区域选择视频进行翻译。

如图所示,每个选项的作用如下

img

  1. 选择视频:选择要翻译的原始视频,该视频必须要有人类说话声,并且声音要清晰,不得有过大噪声,否则识别结果不会太准确,请注意如果没有说话声,是不可以的,无论有无字幕均不可,因为本软件原理是识别人类说话声音来生成字幕的。可以按住ctrl键一次选中多个视频,但所有视频中说话语言必须一样。
  2. 翻译渠道: FreeGoogle和Microsoft可直接使用无需代理和配置,其他翻译渠道要么免费但需要代理,比如Google,要么需要配置如百度翻译腾讯翻译等. 如果不懂建议选择Microsoft或FreeGoogle
  3. 原始语言:选择视频里的人类说话语言,比如视频里人类说话声音是英语,那么这里必须选择英语
  4. 目标语言:选择要翻译到的目标语言,例如你希望将视频翻译到中文发音并嵌入中文字幕,那么这里要选择中文简
  5. 网络代理地址: 如果使用了Google或Gemini等国内无法访问的服务,就必须填写代理地址,例如你使用了某v2ray软件,则填写http://127.0.0.12:10809:1 如果你不懂代理,请勿随意填写,也不要使用国内无法访问的服务
  6. 配音渠道:edgeTTS免费且无需配置可直接使用,其他配音渠道均需要配置或安装,如果不懂建议选择edgeTTS
  7. 配音角色:选择发音人角色,不同角色音色不同,需要先选择目标语言后再选择该角色
  8. faster模式:识别视频里的人类说话声所用的模式,不懂选择默认faster模式即可
  9. tiny:识别视频里的人类说话所用模型,默认包含faste模式下的tiny模型,建议选择medium或更大模型,准确率高。如果选择了faster模式和openai模式,需要额外下载模型到软件目录下的models里,默认只包含faster模式下的tiny模型,其他模型下载地址 https://github.com/jianchang512/stt/releases/tag/0.0 如果你不太懂,只想简单试试,此处选择tiny即可,无需下载可直接使用
  10. 整体识别:默认即可。无需动
  11. 嵌入字幕:字幕嵌入到视频里的方式,软字幕嵌入需要播放器支持才可显示,在网页中无法显示,硬字幕嵌入无论哪里播放都显示,网页中也可以显示
  12. 视频末尾:配音后时长可能大于原视频时长,选中它则延长视频最后10ms直到配音结束,建议选中
  13. 配音自动加速:配音时长可能大于原语言时长,选中它则强制加快语速实现一致,最大加速幅度可在菜单--工具/高级设置--高级设置中修改
  14. 视频自动慢速:选中它则慢放视频实现视频和声音字幕对齐,慢放幅度同样可在高级设置菜单中控制
  15. 保留背景音:选中则保留视频里原有的背景声音,比如背景音乐等,如果选中它,则处理速度会比较慢,尤其视频较大时
  16. CUDA加速:Win和Linux机器上如果有N卡则可使用它加速,需要机器上安装CUDA环境,安装教程见 https://pyvideotrans.com/gpu.html
  17. 清理已生成:如果对同一视频反复执行,可选中它删除掉已生成过的,再重新生成
  18. 完成后关机:任务执行完毕后是否关闭计算机
  19. 开始处理:一切处理好后,点击开始执行
  20. 导入字幕:如果想使用本地已有的字幕,可点击导入,导入后将直接使用它,而不再进行识别。
  21. 配音整体语速:例如10,表示语速在正常基础上加快10%,-10代表减去10%
  22. 音量+:在正常音量基础上对音量进行加减变化,仅edgeTTS下有效
  23. 音调+:在正常音调基础上对音调进行加减变化,仅edgeTTS下有效

默认配置翻译

img 其实和上个模式一样,只不过是隐藏了其他选项,而对隐藏的选项都使用了默认配置,如果你想对隐藏的选项进行自定义,可以使用自定义配置翻译

识别字幕并翻译

img

如果你只想从已有的原始视频/音频中,根据人类说话声生成srt字幕格式,可选择该模式,除了生成字幕外,还可同时选择是否将字幕翻译为另外语言

选择视频:选择要生成字幕的原始视频,注意该视频中必须要有人类说话声音,同样可以选择多个视频

翻译渠道: FreeGoogle和Mircosoft可直接使用无需代理和配置,其他翻译渠道要么免费但需要代理,比如Google,要么需要配置如百度翻译腾讯翻译等

原始语言:选择视频里的人类说话语言,比如视频里人类说话声音是英语,那么这里必须选择英语

目标语言:选择要翻译到的目标语言,例如你希望将视频翻译到中文发音并嵌入中文字幕,那么这里要选择中文简

网络代理地址:如果使用了Google或Gemini等国内无法访问的服务,就必须填写代理地址,例如你使用了某v2ray软件,则填写http://127.0.0.12:10809:1 如果你不懂代理,请勿随意填写,也不要使用国内无法访问的服务

faste模式:识别视频里的人类说话声所用的模式,不懂默认即可

tiny:识别视频里的人类说话所用模型,默认包含faste模式下的tiny模型,建议选择medium或更大模型,准确率高。如果选择了faster模式和openai模式,需要额外下载模型到软件目录下的models里,默认只包含faster模式下的tiny模型,其他模型下载地址 https://github.com/jianchang512/stt/releases/tag/0.0

整体识别:默认即可。无需动

CUDA加速:Win和Linux机器上如果有N卡则可使用它加速,需要机器上安装CUDA环境,安装教程见 https://pyvideotrans.com/gpu.html

开始处理:一切处理好后,点击开始执行

音频视频转字幕

img

该模式同 识别字幕并翻译 模式类似,只不过该模式不支持翻译字幕

发音语言:音视频中的人类说话语言,必须要有人类说话声音,否则无法生成字幕

faste模式:识别视频里的人类说话声所用的模式,不懂默认即可

tiny:识别视频里的人类说话所用模型,默认包含faste模式下的tiny模型,建议选择medium或更大模型,准确率高。如果选择了faster模式和openai模式,需要额外下载模型到软件目录下的models里,默认只包含faster模式下的tiny模型,其他模型下载地址 https://github.com/jianchang512/stt/releases/tag/0.0

整体识别:默认即可。无需动

启用CUDA:Win和Linux机器上如果有N卡则可使用它加速,需要机器上安装CUDA环境,安装教程见 https://pyvideotrans.com/gpu.html

开始执行:一切处理好后,点击开始执行

打开识别结果保存目录:打开识别后的字幕所保存的文件夹

批量翻译srt字幕

img

该模式用于将srt格式的字幕文件翻译为另一种语言的srt字幕,比如将中文srt字幕翻译为英文srt字幕

翻译渠道: FreeGoogle和Mircosoft可直接使用无需代理和配置,其他翻译渠道要么免费但需要代理,比如Google,要么需要配置如百度翻译腾讯翻译等

目标语言:选择要翻译到的目标语言,例如你希望将视频翻译到中文发音并嵌入中文字幕,那么这里要选择中文简

网络代理地址:如果使用了Google或Gemini等国内无法访问的服务,就必须填写代理地址,例如你使用了某v2ray软件,则填写http://127.0.0.12:10809:1 如果你不懂代理,请勿随意填写,也不要使用国内无法访问的服务

从srt文件导入字幕:从本地导入1个或多个字幕进行翻译,所有字幕文字语言必须相同

字幕输出格式

单语字幕: 翻译结果只有目标语言这一种字幕

目标语言在上(双): 翻译结果包含原始语言和目标语言两种字幕,目标语言在上,原始语言在下

目标语言在下(双): 翻译结果包含原始语言和目标语言两种字幕,目标语言在下,原始语言在上

打开翻译结果保存目录:打开翻译后保存到的文件夹

该模式下可新增目标语言

  1. 首先需要使用Google或FreeGoogle翻译渠道,才可新增目标语言,其他渠道不支持新增。

  2. 然后单击

菜单-工具/选项--高级选项,在打开的窗口中找到“Google翻译新增语言代码”文本框,在该文本框内填写想要的目标语言代码,多个以英文逗号分隔开,例如维吾尔语语言代码是 ug,那么在此填写 ug,如果还想增加希伯来语,找到该语言的代码 he, 在文本内增加 he 即可,记得多个要英文逗号隔开

  1. 语言代码在哪里找到呢? 访问该地址 https://cloud.google.com/translate/docs/languages?hl=zh-cn

批量为字幕配音

img 导入一个或多个srt字幕文件,批量对这些字幕创建配音音频。

从srt文件导入字幕:从本地导入字幕,可选多个,文字语言必须一致

字幕语言:即srt字幕里的文字语言

TTS:即配音渠道,edgeTTS免费且无需配置可直接使用,其他配音渠道均需要配置

选择角色:选择发音人角色,不同角色音色不同,需要先选择目标语言后再选择该角色

自动加速:不同语言发音时长肯定有差异,配音后可能无法和字幕时段对齐,选中该项可强制加速语音实现对齐。

速度变化百分比:例如10,表示语速在正常基础上加快10%,-10代表减去10%

音量+:在正常音量基础上对音量进行加减变化,仅edgeTTS下有效

音调+:在正常音调基础上对音调进行加减变化,仅edgeTTS下有效

是srt字幕:如果导入的是srt字幕文件,必须确保该项选中,否则会出错

输出音频名称:这里可设置生成后的音频文件的名称,

打开目录:打开生成结果所在文件夹

开始处理:一切处理好后,点击开始执行

视频与音频合并

img

该功能用于批量将视频和音频一一对应合并,即将音频文件嵌入视频中,支持一次处理多个视频和音频

视频与字幕合并

img 该功能用于批量将视频和srt字幕一一对应合并,即将srt字幕嵌入视频创建字幕,支持一次处理多个视频和字幕

字幕多格式转换

img 用于批量将字幕在 ass/srt/vtt 格式之间互相转换

音视频格式转换

img

用于批量将音频或视频从一种格式转换为其他格式,支持 mp4/avi/mkv/mpeg/mov/mp3/wav/m4a/flac/aac 格式之间互相转换

音视频字幕合并

img

用于将单个视频、音频、字幕三者合成为一个视频文件。

导入字幕并编辑

img

可在线从本地导入 srt/ass/vtt 字幕,并编辑修改后导出字幕到本地,可导出srt/ass/srt/vtt 格式,当导出ass格式时,可额外设置字体大小、颜色等


顶部菜单栏

img

翻译设置

img

除了 Google翻译和微软翻译渠道外,其他翻译渠道均需要配置密钥、api地址等,可在此菜单下进行配置

TTS设置

img

配音渠道除了 edgeTTS 免费无限制外,其他配音渠道均需要配置密钥、填写api、额外部署等,在此菜单下进行配置

语音识别设置

img

如果需要使用 OpenAI 的 Speech To Text 接口,可在此菜单下进行配置密钥,同样也可使用豆包的在线api进行识别, 同样在此配置,包括本地部署zh_recogn识别项目后,在此填写api地址

工具/选项

img

高级选项

img

在此可对软件进行各种自定义设置,以便按照自己的个性化需求进行翻译。

下载油管视频

img

该功能用于从Youtube下载视频

网络代理地址:众所周知Youtube国内无法访问,因此你需要填写网络代理地址

视频播放页url:需要下载那个视频,就从youtube网页打开该视频播放,复制播放地址到此

选择保存目录:下载后要保存到哪里

并发数:同时下载线程数量,越大下载越快,但也可能出错,建议低于10,默认8

使用VID作为视频名称:默认视频名称是视频标题名,非常长而且有乱七八糟的符号, 在windows上处理时可能出错,因此可选中该项,将名称变的短小,防止出错

注意

  1. 实际下载是分别下载视频画面无声文件和音频文件,下载完毕后再自动合并。请等待合并后或已提示 下载成功再打开视频文件,否则可能导致合并失败。
  2. 如果你是源码安装,可能会提示失败,因为缺少一个exe文件,可根据操作系统下载该文件后复制到本软件的
  3. Youtube反爬逐渐严格,很多代理节点ip是无法下载的,返回错误400或超时等,请更换代理节点后重试

ffmpeg文件夹下

win下载: https://github.com/jianchang512/pyvideotrans/releases/download/v2.19/ytwin32.exe

mac下载: https://github.com/jianchang512/pyvideotrans/releases/download/v2.19/ytdarwin

linux下载: https://github.com/jianchang512/pyvideotrans/releases/download/v2.19/ytlinux

批量从视频中分离音频

img

该模式用于从一个视频文件中分离出里面的声音为一个音频文件。

两个音频混流

img

该模式用于将2个音频文件混合在一起,一个做背景音一个做前景音,同时播放

合并两个字幕

img

该模式用于将2个不同字幕合并到一起,例如同一个字幕有中文、英文不同语言版本,那么可使用这个功能合成为一个字幕文件,合成后的字幕将为双语字幕,一行中文一行英文同时显示

视频添加水印

img

批量为所选视频添加水印图片


中间工作区

根据左侧工具栏所选模式不同,右侧工作区也会对应变化