GPT-SoVITS 是一款出色的多语言文本到语音(TTS)开源项目,支持中、英、日、韩等多种语言,主要功能包括:
零样本文本到语音(TTS): 仅需5秒的声音样本,即可快速生成语音。
少样本 TTS: 只需1分钟的训练数据即可对模型进行微调,从而提升音色相似度和自然度。
跨语言支持: 支持与训练数据集不同语言的合成,目前支持英语、日语、韩语、粤语和中文。
GPT-SoVITS现已升级至v2版本,新增以下特性:
- 增加对韩语和粤语的支持
- 优化文本前端处理
- 扩展底层模型训练数据量至5000小时
- 对于低质量的参考音频(如高频缺失、音质闷的网络音频)能生成更高质量的合成音频
GPT-SOVITS 用户手册 https://www.yuque.com/baicaigongchang1145haoyuangong/ib3g1e
视频翻译软件已集成GPT-SoVITS v2版本,本文将简要介绍如何下载GPT-SoVITS整合包并在视频翻译软件中使用。
下载整合包
建议下载GPT-SoVITS的官方整合包,以确保兼容性。第三方API接口与官方不兼容,可能导致视频翻译软件报错。
下载地址:https://www.yuque.com/baicaigongchang1145haoyuangong/ib3g1e/dkxgpiy9zb96hob4
启动 API 服务
下载后,将文件解压到英文命名的文件夹中,双击 go-webui.bat
启动web界面,在网页中即可进行文字转语音操作。
在GPT-SoVITS文件夹内的地址栏输入cmd
并回车,在弹出的终端窗口中输入 .\runtime\python api_v2.py
即可启动API服务。
默认端口为9880
。在视频翻译软件中需要填入 http://127.0.0.1:9880
。
在视频翻译配音软件中配置
1. 填写 API 地址
启动软件,依次点击 菜单 -> TTS设置 -> GPT-SoVITS
,将 http://127.0.0.1:9880
填写在 API 文本框
中。
注意:默认端口为9880,如果修改端口,API地址也需相应更改。此外,请确保在本地部署时,地址应填写
127.0.0.1
,而不是0.0.0.0
。
2. 填写参考音频
参考音频是指GPT-SoVITS会使用该音频的音色进行语音合成。假设您有一个音频文件 1.wav
(时长5秒,内容为“今天是个好天气,瓢泼大雨倾盆下”),可将该文件复制到GPT-SoVITS文件夹,与 api_v2.py
文件放置于同一位置,并在软件的参考音频文本框
中填入相应内容。
语言代码:
zh
表示中文,en
表示英文,ja
表示日语,ko
表示韩语。
若您将参考音频文件统一存放在GPT-SoVITS目录内的wavs
文件夹中,则参考音频路径应为 wavs/1.wav#今天是个好天气,瓢泼大雨倾盆下#zh
。
3. 勾选 api_v2?
若启动的是 api_v2.py
文件,请确保选中 api_v2?
选项。
4. 测试连接
点击测试,若无报错,则配置成功。
常见问题
测试时提示404错误
这是由于使用了第三方整合包导致的,第三方包的API与官方不兼容。请下载并使用官方包。
提示“远端计算机积极拒绝”
可能是API服务未启动,或被防火墙拦截。请确保API已启动,或关闭