Skip to content

GPT-SoVITS 是一款出色的多语言文本到语音(TTS)开源项目,支持中、英、日、韩等多种语言,主要功能包括:

零样本文本到语音(TTS): 仅需5秒的声音样本,即可快速生成语音。

少样本 TTS: 只需1分钟的训练数据即可对模型进行微调,从而提升音色相似度和自然度。

跨语言支持: 支持与训练数据集不同语言的合成,目前支持英语、日语、韩语、粤语和中文。

GPT-SoVITS现已升级至v2版本,新增以下特性:

  1. 增加对韩语和粤语的支持
  2. 优化文本前端处理
  3. 扩展底层模型训练数据量至5000小时
  4. 对于低质量的参考音频(如高频缺失、音质闷的网络音频)能生成更高质量的合成音频

GPT-SOVITS 用户手册 https://www.yuque.com/baicaigongchang1145haoyuangong/ib3g1e

视频翻译软件已集成GPT-SoVITS v2版本,本文将简要介绍如何下载GPT-SoVITS整合包并在视频翻译软件中使用。

下载整合包

建议下载GPT-SoVITS的官方整合包,以确保兼容性。第三方API接口与官方不兼容,可能导致视频翻译软件报错。

下载地址:https://www.yuque.com/baicaigongchang1145haoyuangong/ib3g1e/dkxgpiy9zb96hob4

image.png

启动 API 服务

下载后,将文件解压到英文命名的文件夹中,双击 go-webui.bat 启动web界面,在网页中即可进行文字转语音操作。

在GPT-SoVITS文件夹内的地址栏输入cmd并回车,在弹出的终端窗口中输入 .\runtime\python api_v2.py 即可启动API服务。

image.png

默认端口为9880。在视频翻译软件中需要填入 http://127.0.0.1:9880

在视频翻译配音软件中配置

1. 填写 API 地址

启动软件,依次点击 菜单 -> TTS设置 -> GPT-SoVITS,将 http://127.0.0.1:9880 填写在 API 文本框 中。

image.png

注意:默认端口为9880,如果修改端口,API地址也需相应更改。此外,请确保在本地部署时,地址应填写 127.0.0.1,而不是 0.0.0.0

2. 填写参考音频

参考音频是指GPT-SoVITS会使用该音频的音色进行语音合成。假设您有一个音频文件 1.wav(时长5秒,内容为“今天是个好天气,瓢泼大雨倾盆下”),可将该文件复制到GPT-SoVITS文件夹,与 api_v2.py 文件放置于同一位置,并在软件的参考音频文本框中填入相应内容。

image.png

语言代码:zh表示中文,en表示英文,ja表示日语,ko表示韩语。

若您将参考音频文件统一存放在GPT-SoVITS目录内的wavs文件夹中,则参考音频路径应为 wavs/1.wav#今天是个好天气,瓢泼大雨倾盆下#zh

image.png

3. 勾选 api_v2?

若启动的是 api_v2.py 文件,请确保选中 api_v2? 选项。 image.png

4. 测试连接

点击测试,若无报错,则配置成功。

常见问题

  1. 测试时提示404错误

    这是由于使用了第三方整合包导致的,第三方包的API与官方不兼容。请下载并使用官方包。

  2. 提示“远端计算机积极拒绝”

    可能是API服务未启动,或被防火墙拦截。请确保API已启动,或关闭