这是一个开源免费的视频翻译配音软件,可将一种语言发音的视频,翻译为另一种语言发音的视频,并嵌入该语言字幕。比如有一个英文电影,发音是英文,没有英文字幕,也没有中文字幕,使用这个工具处理后,可以转成带中文字幕,并且带有中文配音的电影。
支持24种语言的视频翻译,对其他不在支持之列的语言,可选择自动检测后视频。同时还集成 语音识别/文字配音/字幕翻译/音视频合并/视频字幕合并/视频加水印
等功能。
win10/win11可下载预打包版压缩包,解压后双击sp.exe即可使用,其他系统可使用源码部署,部署后执行python sp.py
启动软件。
软件启动后界面如下,分为 左侧工具栏、顶部菜单、中间工作区 3个区域,分别说明如下。
左侧工具栏
自定义配置翻译
点击自定义配置翻译按钮后,右侧会显示可使用的操作按钮和选项设置,可在此区域选择视频进行翻译。
如图所示,每个选项的作用如下
- 选择视频:选择要翻译的原始视频,该视频必须要有人类说话声,并且声音要清晰,不得有过大噪声,否则识别结果不会太准确,请注意如果没有说话声,是不可以的,无论有无字幕均不可,因为本软件原理是识别人类说话声音来生成字幕的。可以按住ctrl键一次选中多个视频,但所有视频中说话语言必须一样。
- 翻译渠道: FreeGoogle和Microsoft可直接使用无需代理和配置,其他翻译渠道要么免费但需要代理,比如Google,要么需要配置如百度翻译腾讯翻译等. 如果不懂建议选择Microsoft或FreeGoogle
- 原始语言:选择视频里的人类说话语言,比如视频里人类说话声音是英语,那么这里必须选择英语
- 目标语言:选择要翻译到的目标语言,例如你希望将视频翻译到中文发音并嵌入中文字幕,那么这里要选择中文简
- 网络代理地址: 如果使用了Google或Gemini等国内无法访问的服务,就必须填写代理地址,例如你使用了某v2ray软件,则填写http://127.0.0.12:10809:1 如果你不懂代理,请勿随意填写,也不要使用国内无法访问的服务
- 配音渠道:edgeTTS免费且无需配置可直接使用,其他配音渠道均需要配置或安装,如果不懂建议选择edgeTTS
- 配音角色:选择发音人角色,不同角色音色不同,需要先选择目标语言后再选择该角色
- faster模式:识别视频里的人类说话声所用的模式,不懂选择默认faster模式即可
- tiny:识别视频里的人类说话所用模型,默认包含faste模式下的tiny模型,建议选择medium或更大模型,准确率高。如果选择了faster模式和openai模式,需要额外下载模型到软件目录下的models里,默认只包含faster模式下的tiny模型,其他模型下载地址 https://github.com/jianchang512/stt/releases/tag/0.0 如果你不太懂,只想简单试试,此处选择tiny即可,无需下载可直接使用
- 整体识别:默认即可。无需动
- 嵌入字幕:字幕嵌入到视频里的方式,软字幕嵌入需要播放器支持才可显示,在网页中无法显示,硬字幕嵌入无论哪里播放都显示,网页中也可以显示
- 视频末尾:配音后时长可能大于原视频时长,选中它则延长视频最后10ms直到配音结束,建议选中
- 配音自动加速:配音时长可能大于原语言时长,选中它则强制加快语速实现一致,最大加速幅度可在菜单--工具/高级设置--高级设置中修改
- 视频自动慢速:选中它则慢放视频实现视频和声音字幕对齐,慢放幅度同样可在高级设置菜单中控制
- 保留背景音:选中则保留视频里原有的背景声音,比如背景音乐等,如果选中它,则处理速度会比较慢,尤其视频较大时
- CUDA加速:Win和Linux机器上如果有N卡则可使用它加速,需要机器上安装CUDA环境,安装教程见 https://pyvideotrans.com/gpu.html
- 清理已生成:如果对同一视频反复执行,可选中它删除掉已生成过的,再重新生成
- 完成后关机:任务执行完毕后是否关闭计算机
- 开始处理:一切处理好后,点击开始执行
- 导入字幕:如果想使用本地已有的字幕,可点击导入,导入后将直接使用它,而不再进行识别。
- 配音整体语速:例如10,表示语速在正常基础上加快10%,-10代表减去10%
- 音量+:在正常音量基础上对音量进行加减变化,仅edgeTTS下有效
- 音调+:在正常音调基础上对音调进行加减变化,仅edgeTTS下有效
默认配置翻译
其实和上个模式一样,只不过是隐藏了其他选项,而对隐藏的选项都使用了默认配置,如果你想对隐藏的选项进行自定义,可以使用自定义配置翻译
识别字幕并翻译
如果你只想从已有的原始视频/音频中,根据人类说话声生成srt字幕格式,可选择该模式,除了生成字幕外,还可同时选择是否将字幕翻译为另外语言
选择视频:选择要生成字幕的原始视频,注意该视频中必须要有人类说话声音,同样可以选择多个视频
翻译渠道: FreeGoogle和Mircosoft可直接使用无需代理和配置,其他翻译渠道要么免费但需要代理,比如Google,要么需要配置如百度翻译腾讯翻译等
原始语言:选择视频里的人类说话语言,比如视频里人类说话声音是英语,那么这里必须选择英语
目标语言:选择要翻译到的目标语言,例如你希望将视频翻译到中文发音并嵌入中文字幕,那么这里要选择中文简
网络代理地址:如果使用了Google或Gemini等国内无法访问的服务,就必须填写代理地址,例如你使用了某v2ray软件,则填写http://127.0.0.12:10809:1 如果你不懂代理,请勿随意填写,也不要使用国内无法访问的服务
faste模式:识别视频里的人类说话声所用的模式,不懂默认即可
tiny:识别视频里的人类说话所用模型,默认包含faste模式下的tiny模型,建议选择medium或更大模型,准确率高。如果选择了faster模式和openai模式,需要额外下载模型到软件目录下的models里,默认只包含faster模式下的tiny模型,其他模型下载地址 https://github.com/jianchang512/stt/releases/tag/0.0
整体识别:默认即可。无需动
CUDA加速:Win和Linux机器上如果有N卡则可使用它加速,需要机器上安装CUDA环境,安装教程见 https://pyvideotrans.com/gpu.html
开始处理:一切处理好后,点击开始执行
音频视频转字幕
该模式同 识别字幕并翻译 模式类似,只不过该模式不支持翻译字幕
发音语言:音视频中的人类说话语言,必须要有人类说话声音,否则无法生成字幕
faste模式:识别视频里的人类说话声所用的模式,不懂默认即可
tiny:识别视频里的人类说话所用模型,默认包含faste模式下的tiny模型,建议选择medium或更大模型,准确率高。如果选择了faster模式和openai模式,需要额外下载模型到软件目录下的models里,默认只包含faster模式下的tiny模型,其他模型下载地址 https://github.com/jianchang512/stt/releases/tag/0.0
整体识别:默认即可。无需动
启用CUDA:Win和Linux机器上如果有N卡则可使用它加速,需要机器上安装CUDA环境,安装教程见 https://pyvideotrans.com/gpu.html
开始执行:一切处理好后,点击开始执行
打开识别结果保存目录:打开识别后的字幕所保存的文件夹
批量翻译srt字幕
该模式用于将srt格式的字幕文件翻译为另一种语言的srt字幕,比如将中文srt字幕翻译为英文srt字幕
翻译渠道: FreeGoogle和Mircosoft可直接使用无需代理和配置,其他翻译渠道要么免费但需要代理,比如Google,要么需要配置如百度翻译腾讯翻译等
目标语言:选择要翻译到的目标语言,例如你希望将视频翻译到中文发音并嵌入中文字幕,那么这里要选择中文简
网络代理地址:如果使用了Google或Gemini等国内无法访问的服务,就必须填写代理地址,例如你使用了某v2ray软件,则填写http://127.0.0.12:10809:1 如果你不懂代理,请勿随意填写,也不要使用国内无法访问的服务
从srt文件导入字幕:从本地导入1个或多个字幕进行翻译,所有字幕文字语言必须相同
字幕输出格式:
单语字幕: 翻译结果只有目标语言这一种字幕
目标语言在上(双): 翻译结果包含原始语言和目标语言两种字幕,目标语言在上,原始语言在下
目标语言在下(双): 翻译结果包含原始语言和目标语言两种字幕,目标语言在下,原始语言在上
打开翻译结果保存目录:打开翻译后保存到的文件夹
该模式下可新增目标语言
首先需要使用Google或FreeGoogle翻译渠道,才可新增目标语言,其他渠道不支持新增。
然后单击
菜单-工具/选项--高级选项,在打开的窗口中找到“Google翻译新增语言代码”文本框,在该文本框内填写想要的目标语言代码,多个以英文逗号分隔开,例如维吾尔语语言代码是 ug,那么在此填写 ug,如果还想增加希伯来语,找到该语言的代码 he, 在文本内增加 he 即可,记得多个要英文逗号隔开
- 语言代码在哪里找到呢? 访问该地址 https://cloud.google.com/translate/docs/languages?hl=zh-cn
批量为字幕配音
导入一个或多个srt字幕文件,批量对这些字幕创建配音音频。
从srt文件导入字幕:从本地导入字幕,可选多个,文字语言必须一致
字幕语言:即srt字幕里的文字语言
TTS:即配音渠道,edgeTTS免费且无需配置可直接使用,其他配音渠道均需要配置
选择角色:选择发音人角色,不同角色音色不同,需要先选择目标语言后再选择该角色
自动加速:不同语言发音时长肯定有差异,配音后可能无法和字幕时段对齐,选中该项可强制加速语音实现对齐。
速度变化百分比:例如10,表示语速在正常基础上加快10%,-10代表减去10%
音量+:在正常音量基础上对音量进行加减变化,仅edgeTTS下有效
音调+:在正常音调基础上对音调进行加减变化,仅edgeTTS下有效
是srt字幕:如果导入的是srt字幕文件,必须确保该项选中,否则会出错
输出音频名称:这里可设置生成后的音频文件的名称,
打开目录:打开生成结果所在文件夹
开始处理:一切处理好后,点击开始执行
视频与音频合并
该功能用于批量将视频和音频一一对应合并,即将音频文件嵌入视频中,支持一次处理多个视频和音频
视频与字幕合并
该功能用于批量将视频和srt字幕一一对应合并,即将srt字幕嵌入视频创建字幕,支持一次处理多个视频和字幕
字幕多格式转换
用于批量将字幕在 ass/srt/vtt 格式之间互相转换
音视频格式转换
用于批量将音频或视频从一种格式转换为其他格式,支持 mp4/avi/mkv/mpeg/mov/mp3/wav/m4a/flac/aac 格式之间互相转换
音视频字幕合并
用于将单个视频、音频、字幕三者合成为一个视频文件。
导入字幕并编辑
可在线从本地导入 srt/ass/vtt 字幕,并编辑修改后导出字幕到本地,可导出srt/ass/srt/vtt 格式,当导出ass格式时,可额外设置字体大小、颜色等
顶部菜单栏
翻译设置
除了 Google翻译和微软翻译渠道外,其他翻译渠道均需要配置密钥、api地址等,可在此菜单下进行配置
TTS设置
配音渠道除了 edgeTTS 免费无限制外,其他配音渠道均需要配置密钥、填写api、额外部署等,在此菜单下进行配置
语音识别设置
如果需要使用 OpenAI 的 Speech To Text 接口,可在此菜单下进行配置密钥,同样也可使用豆包的在线api进行识别, 同样在此配置,包括本地部署zh_recogn
识别项目后,在此填写api地址
工具/选项
高级选项
在此可对软件进行各种自定义设置,以便按照自己的个性化需求进行翻译。
下载油管视频
该功能用于从Youtube下载视频
网络代理地址:众所周知Youtube国内无法访问,因此你需要填写网络代理地址
视频播放页url:需要下载那个视频,就从youtube网页打开该视频播放,复制播放地址到此
选择保存目录:下载后要保存到哪里
并发数:同时下载线程数量,越大下载越快,但也可能出错,建议低于10,默认8
使用VID作为视频名称:默认视频名称是视频标题名,非常长而且有乱七八糟的符号, 在windows上处理时可能出错,因此可选中该项,将名称变的短小,防止出错
注意:
- 实际下载是分别下载视频画面无声文件和音频文件,下载完毕后再自动合并。请等待合并后或已提示 下载成功再打开视频文件,否则可能导致合并失败。
- 如果你是源码安装,可能会提示失败,因为缺少一个exe文件,可根据操作系统下载该文件后复制到本软件的
- Youtube反爬逐渐严格,很多代理节点ip是无法下载的,返回错误400或超时等,请更换代理节点后重试
ffmpeg文件夹下
win下载: https://github.com/jianchang512/pyvideotrans/releases/download/v2.19/ytwin32.exe
mac下载: https://github.com/jianchang512/pyvideotrans/releases/download/v2.19/ytdarwin
linux下载: https://github.com/jianchang512/pyvideotrans/releases/download/v2.19/ytlinux
批量从视频中分离音频
该模式用于从一个视频文件中分离出里面的声音为一个音频文件。
两个音频混流
该模式用于将2个音频文件混合在一起,一个做背景音一个做前景音,同时播放
合并两个字幕
该模式用于将2个不同字幕合并到一起,例如同一个字幕有中文、英文不同语言版本,那么可使用这个功能合成为一个字幕文件,合成后的字幕将为双语字幕,一行中文一行英文同时显示
视频添加水印
批量为所选视频添加水印图片
中间工作区
根据左侧工具栏所选模式不同,右侧工作区也会对应变化