AI配音GPT-SoVITS指南-使用教程3: 推理 开启推理界面 先点一下刷新模型,下拉选择模型推理,e代表轮数,s代表步数。不是轮数越高越好。选择好模型点开启TTS推理,自动……
哈喽!伙伴们,我是小智,你们的AI向导。欢迎来到每日的AI学习时间。今天,我们将一起深入AI的奇妙世界,探索“AI配音GPT-SoVITS指南-使用教程3”,并学会本篇文章中所讲的全部知识点。还是那句话“不必远征未知,只需唤醒你的潜能!”跟着小智的步伐,我们终将学有所成,学以致用,并发现自身的更多可能性。话不多说,现在就让我们开始这场激发潜能的AI学习之旅吧。
AI配音GPT-SoVITS指南-使用教程3:
推理
开启推理界面
先点一下刷新模型,下拉选择模型推理,e代表轮数,s代表步数。不是轮数越高越好。选择好模型点开启TTS推理,自动弹出推理界面。如果没有弹出,复制http://0.0.0.0:9872到浏览器打开。
请严格区分轮数 (Epoch) 和步数 (Step):1 个 Epoch 代表训练集中的所有样本都参与了一次学习,1 Step 代表进行了一步学习,由于 batch size 的存在,每步学习可以含有数条样本,因此,Epoch 和 Step 的换算如下:
开始推理
最上面可以切换模型,在刚练完挑模型的时候很重要
然后上传一段参考音频,建议是数据集中的音频。最好5秒。参考音频很重要!会学习语速和语气,请认真选择。参考音频的文本是参考音频说什么就填什么,语种也要对应。在0217版本之后可以选择无参考文本模式,但非常不建议使用,效果非常拉胯,就几秒钟打个字的事就这么懒吗?而且注意:是无参考文本!不是无参考音频!参考音频无论什么情况都要的!
右上角有个融合音色的可选项,先将要融合的音频放在一个文件夹然后一起拖进去(没啥实用性的功能)
接着就是输入要合成的文本了,注意语种要对应。目前可以中英混合,日英混合和中日英混合。切分建议无脑选凑四句一切,低于四句的不会切。如果凑四句一切报错的话就是显存太小了可以按句号切。如果不切,显存越大能合成的越多,实测4090大约1000字,但已经胡言乱语了,所以哪怕你是4090也建议切分生成。合成的过长很容易胡言乱语。
0213版本加入了top_p,top_k和temperature,保持默认就行了。这些控制的都是随机性,拉大数值,随机性也会变大,所以建议默认就好
关于top_p,top_k和temperature
这三个值都是用来控制采样的。在推理的时候要挑出一个最好的token,但机器并不知道哪个是最好的。于是先按照top_k挑出前几个token,top_p在top_k的基础上筛选token。最后temperature控制随机性输出。
比如总共有100个token,top_k设置5,top_p设置0.6,temperature设置为0.5。那么就会从100个token中先挑出5个概率最大的token,这五个token的概率分别是(0.3,0.3,0.2,0.2,0.1),那么再挑出累加概率不超过0.6的token(0.3和0.3),再从这两个token中随机挑出一个token输出,其中前一个token被挑选到的几率更大。以此类推。
还听不懂?拉满当赌狗,拉低当复读机。
关于重复惩罚
= 1不惩罚重复,> 1时开始惩罚重复,< 1时鼓励重复。一般都设置为 > 1,因为本身复读就挺严重的。
如果出现吞字,重复,参考音频混入的情况,这是正常现象。改善的方法有使用较低轮数的GPT模型、合成文本再短点、换参考音频。官方也在努力修复这个问题。
如果一直复读那估计是标注不准确的问题,手动校对后重炼就行。
筛选参考音频工具
项目地址:https://github.com/Alexw1111/RefAudioEmoTagger(有能力的可以给项目点个star)。
作者:Alexw1111
整合包下载:https://www.modelscope.cn/models/wed13dqd/RefAudioEmoTagger/resolve/master/RefAudioEmoTagger.7z
解压后双击go-web.bat打开
输入文件夹是之前输出logs这步时的训练集音频文件目录,音频重命名方式选list,.list文件路径就是输出logs那步的list路径,模型选择emotion2vec+更好,然后点击一键推理就好。
完成后输出目录在根目录的output文件夹。
音频会按情感分为最多五类,也有可能只有两类甚至一类,看数据的丰富程度。
同时每一个音频文件被标注重命名了,可以直接使用了。
如果您在点击一键推理时一直卡在这个界面。
如果您在点击一键推理时一直卡在这个界面
请打开路径:RefAudioEmoTaggermodelemotion2vec_plus_large。
找到并编辑其中的文件 requirements.txt。
将文件中的以下内容:
-i https://pypi.org/simple/
修改为:
-i http://mirrors.aliyun.com/pypi/simple/
嘿,伙伴们,今天我们的AI探索之旅已经圆满结束。关于“AI配音GPT-SoVITS指南-使用教程3”的内容已经分享给大家了。感谢你们的陪伴,希望这次旅程让你对AI能够更了解、更喜欢。谨记,精准提问是解锁AI潜能的钥匙哦!如果有小伙伴想要了解学习更多的AI知识,请关注我们的官网“AI智研社”,保证让你收获满满呦!
还没有评论呢,快来抢沙发~