零基础

AI配音GPT-SoVITS指南-使用教程3

小智 AI配音教程 2024年12月26日

0 收藏 0 点赞 332 浏览 1848 个字

摘要 :

AI配音GPT-SoVITS指南-使用教程3：推理开启推理界面先点一下刷新模型，下拉选择模型推理，e代表轮数，s代表步数。不是轮数越高越好。选择好模型点开启TTS推理，自动……

哈喽！伙伴们，我是小智，你们的AI向导。欢迎来到每日的AI学习时间。今天，我们将一起深入AI的奇妙世界，探索“AI配音GPT-SoVITS指南-使用教程3”，并学会本篇文章中所讲的全部知识点。还是那句话“不必远征未知，只需唤醒你的潜能！”跟着小智的步伐，我们终将学有所成，学以致用，并发现自身的更多可能性。话不多说，现在就让我们开始这场激发潜能的AI学习之旅吧。

AI配音GPT-SoVITS指南-使用教程3：

推理

开启推理界面

先点一下刷新模型，下拉选择模型推理，e代表轮数，s代表步数。不是轮数越高越好。选择好模型点开启TTS推理，自动弹出推理界面。如果没有弹出，复制http://0.0.0.0:9872到浏览器打开。
请严格区分轮数 (Epoch) 和步数 (Step)：1 个 Epoch 代表训练集中的所有样本都参与了一次学习，1 Step 代表进行了一步学习，由于 batch size 的存在，每步学习可以含有数条样本，因此，Epoch 和 Step 的换算如下：

AI配音GPT-SoVITS指南-使用教程3

开始推理

最上面可以切换模型，在刚练完挑模型的时候很重要

AI配音GPT-SoVITS指南-使用教程3

然后上传一段参考音频，建议是数据集中的音频。最好5秒。参考音频很重要！会学习语速和语气，请认真选择。参考音频的文本是参考音频说什么就填什么，语种也要对应。在0217版本之后可以选择无参考文本模式，但非常不建议使用，效果非常拉胯，就几秒钟打个字的事就这么懒吗？而且注意：是无参考文本！不是无参考音频！参考音频无论什么情况都要的！

右上角有个融合音色的可选项，先将要融合的音频放在一个文件夹然后一起拖进去（没啥实用性的功能）

接着就是输入要合成的文本了，注意语种要对应。目前可以中英混合，日英混合和中日英混合。切分建议无脑选凑四句一切，低于四句的不会切。如果凑四句一切报错的话就是显存太小了可以按句号切。如果不切，显存越大能合成的越多，实测4090大约1000字，但已经胡言乱语了，所以哪怕你是4090也建议切分生成。合成的过长很容易胡言乱语。

0213版本加入了top_p,top_k和temperature，保持默认就行了。这些控制的都是随机性，拉大数值，随机性也会变大，所以建议默认就好

关于top_p,top_k和temperature

这三个值都是用来控制采样的。在推理的时候要挑出一个最好的token，但机器并不知道哪个是最好的。于是先按照top_k挑出前几个token，top_p在top_k的基础上筛选token。最后temperature控制随机性输出。

比如总共有100个token，top_k设置5，top_p设置0.6，temperature设置为0.5。那么就会从100个token中先挑出5个概率最大的token，这五个token的概率分别是（0.3，0.3，0.2，0.2，0.1），那么再挑出累加概率不超过0.6的token（0.3和0.3），再从这两个token中随机挑出一个token输出，其中前一个token被挑选到的几率更大。以此类推。

还听不懂？拉满当赌狗，拉低当复读机。

关于重复惩罚

= 1不惩罚重复，> 1时开始惩罚重复，< 1时鼓励重复。一般都设置为 > 1，因为本身复读就挺严重的。

如果出现吞字，重复，参考音频混入的情况，这是正常现象。改善的方法有使用较低轮数的GPT模型、合成文本再短点、换参考音频。官方也在努力修复这个问题。

如果一直复读那估计是标注不准确的问题，手动校对后重炼就行。

筛选参考音频工具
项目地址：https://github.com/Alexw1111/RefAudioEmoTagger（有能力的可以给项目点个star）。
作者：Alexw1111
整合包下载：https://www.modelscope.cn/models/wed13dqd/RefAudioEmoTagger/resolve/master/RefAudioEmoTagger.7z

解压后双击go-web.bat打开

AI配音GPT-SoVITS指南-使用教程3

输入文件夹是之前输出logs这步时的训练集音频文件目录，音频重命名方式选list，.list文件路径就是输出logs那步的list路径，模型选择emotion2vec+更好，然后点击一键推理就好。

AI配音GPT-SoVITS指南-使用教程3

完成后输出目录在根目录的output文件夹。

AI配音GPT-SoVITS指南-使用教程3

音频会按情感分为最多五类，也有可能只有两类甚至一类，看数据的丰富程度。

AI配音GPT-SoVITS指南-使用教程3

同时每一个音频文件被标注重命名了，可以直接使用了。

AI配音GPT-SoVITS指南-使用教程3

如果您在点击一键推理时一直卡在这个界面。

AI配音GPT-SoVITS指南-使用教程3

如果您在点击一键推理时一直卡在这个界面
请打开路径：RefAudioEmoTaggermodelemotion2vec_plus_large。
找到并编辑其中的文件 requirements.txt。
将文件中的以下内容：
-i https://pypi.org/simple/
修改为：
-i http://mirrors.aliyun.com/pypi/simple/

AI配音GPT-SoVITS指南-使用教程4

AI配音GPT-SoVITS指南-使用教程4：分享模型分享需要的模型都在SoVITS_weights_v2和GPT_weights_v2这两个文件夹，选择合适轮数的模型，...

查看文章

AI配音GPT-SoVITS指南-使用教程2

AI配音GPT-SoVITS指南-使用教程2：训练输出logs 来到第二个页面先设置实验名也就是模型名，理论上可以是中文！打标结束...

查看文章

嘿，伙伴们，今天我们的AI探索之旅已经圆满结束。关于“AI配音GPT-SoVITS指南-使用教程3”的内容已经分享给大家了。感谢你们的陪伴，希望这次旅程让你对AI能够更了解、更喜欢。谨记，精准提问是解锁AI潜能的钥匙哦！如果有小伙伴想要了解学习更多的AI知识，请关注我们的官网“AI智研社”，保证让你收获满满呦！

赏

微信打赏二维码微信扫一扫