Ai变声RVC-实时直播变声/模型训练/使用方法-本地部署
介绍
随着人工智能技术的发展,AI 即时变声工具已经可以完美模拟任何人的声音,目前主流的开源工具以RVC、SOWITS、DDSP为主。
Retrilo based voice conversion,简称RVC,是基于WITS语音合成系统的变声器。可以实现完美实时变声,适合直播、视频录制等多种场景。这篇文章主要为大家介绍一下RVC的使用方法,以及在文章底部提供简单的一键安装包,方便大家本地部署和使用,其中有为大家提供最新的版本可以兼容各种版本的模型,稳定性也得到了提升。
RVC是一个开源项目,代码已经在Github发布。
目前,最新的版本是V2-0528,可在Hugging Face下载各种版本。
配置要求
- 处理器:13代Intel酷睿I7处理器
- 显卡:英伟达系列显卡(RTX 4070TI以上)
- 声卡:独立声卡
- 内存:64GB
- 麦克风:高质量麦克风
RVC配置要求比较苛刻,要求电脑性能较高,因为是需要实时把声音处理并且输出,非常消耗电脑性能。多线程CPU可以最大程度减少延迟,高质量的麦克风和声卡可以降低电流和噪声,效果也会更加的出色。
安装教程
下载最新版本0528版本RVC安装包和模型包到本地,并解压文件。
Ps:文件名称需要设置为英文,否则无法正常运行。
其中有三个模型包,分别为:paidaxing、nzb、jiu,它们用来配置RVC使用的。
运行go-realtime-gui.bat
启动RVC操作界面
PS:如果你的电脑并没有声卡或者麦克风设备,此界面将不会启动成功,命令提示符窗口会提示:pause
解决办法就是下载我提供的虚拟声卡安装包,或者插入麦克风设备。
软件配置
加载模型
接下来就是软件的设置,Hubert保持默认即可,其他三项根据三种后缀名称,在模型文件中选择对应的后缀文件。
音频设备
因为我直接安装的是虚拟声卡,如果没有声卡的同学可以下载虚拟声卡汉化版(在云盘有)
常规设置
响应阈值:-60
音调设置:男生转女设置12,女生转男生-12
Index Rate:设置在0.2-0.5之间
采样长度:设置0.3以上,数值越大越接近基础模型。
淡入淡出长度和额外推理长度,根据自己的需要进行调整。
完成以上设置,点击开始音频转换,即可完成声音的转换了。
如果需要更换声音,也需要对应更改相应的模型。
模型训练
打开go-wbe.bat,进入模型训练界面。
训练步骤一
编辑一个实验名称,其他值保持默认。
训练步骤二
输入训练集的文件夹路径。可以使用切片工具,把wav格式的音频切成10秒一个片段,总时长30分钟,并放在文件夹路径里。
训练步骤三
把保存频率设置为20-50之间,总轮数500,每张显卡的,小于显卡显存数,如果你是24G,可以写23G.全部设置完毕,直接点击一键训练即可。