零基础

AI配音GPT-SoVITS指南-使用教程2

小智 AI配音教程 2024年12月26日

0 收藏 0 点赞 470 浏览 2043 个字

摘要 :

AI配音GPT-SoVITS指南-使用教程2：训练输出logs 来到第二个页面先设置实验名也就是模型名，理论上可以是中文！打标结束会自动填写路径，只要点下一键三连就好了。 ……

哈喽！伙伴们，我是小智，你们的AI向导。欢迎来到每日的AI学习时间。今天，我们将一起深入AI的奇妙世界，探索“AI配音GPT-SoVITS指南-使用教程2”，并学会本篇文章中所讲的全部知识点。还是那句话“不必远征未知，只需唤醒你的潜能！”跟着小智的步伐，我们终将学有所成，学以致用，并发现自身的更多可能性。话不多说，现在就让我们开始这场激发潜能的AI学习之旅吧。

AI配音GPT-SoVITS指南-使用教程2：

训练

输出logs

来到第二个页面

AI配音GPT-SoVITS指南-使用教程2

先设置实验名也就是模型名，理论上可以是中文！打标结束会自动填写路径，只要点下一键三连就好了。
如果是英语，日语，粤语或韩语的话logs里的3-bert文件夹是空的，是正常的不用管。

微调训练

AI配音GPT-SoVITS指南-使用教程2

首先设置batch_size，sovits训练建议batch_size设置为显存的一半以下，高了会爆显存。bs并不是越高越快！batch_size也需要根据数据集大小调整，也并不是严格按照显存数一半来设置，比如6g显存需要设置为1。如果爆显存就调低。当显卡3D占用100%的时候就是bs太高了，使用到了共享显存，速度会慢好几倍。

以下是切片长度为10s时实测的不同显存的sovits训练最大batch_size，可以对照这个设置。如果切片更长、数据集更大的话要适当减少。

在0213版本之后添加了dpo训练。dpo大幅提升了模型的效果，几乎不会吞字和复读，能够推理的字数也翻了几倍，但同时训练时显存占用多了2倍多，训练速度慢了4倍，12g以下显卡无法训练。数据集质量要求也高了很多。如果数据集有杂音，有混响，音质差，不校对标注，那么会有负面效果。

如果你的显卡大于12g，且数据集质量较好，且愿意等待漫长的训练时间，那么可以开启dpo训练。否则请不要开启。下面是切片长度为10s时实测的不同显存的gpt训练最大batch_size。如果切片更长、数据集更大的话要适当减少。

接着设置轮数，相比V1，V2对训练集的还原更好，但也更容易学习到训练集中的负面内容。所以如果你的素材中有底噪、混响、喷麦、响度不统一、电流声、口水音、口齿不清、音质差等情况那么请不要调高SoVITS模型轮数，否则会有负面效果。GPT模型轮数一般情况下不高于20，建议设置10。然后先点开启SoVITS训练，训练完后再点开启GPT训练，不可以一起训练（除非你有两张卡）！如果中途中断了，直接再点开始训练就好了，会从最近的保存点开始训练。

训练的时候请ctrl+shift+esc打开任务管理器看，下拉打开选项，选择cuda。如果cuda占用为0那么就不在训练。专用GPU内存就是显存，其他的内存都是共享的，并不是真正的显存。爆显存了就调低bs。或者存在过长的音频，需要回到2.2步重新制作数据集。

win11没有cuda打开设置–系统–显示–显示卡–默认图形设置

关闭硬件加速GPU计划，并重启电脑。

AI配音GPT-SoVITS指南-使用教程2

训练完成会显示训练完成，并且控制台显示的轮数停在设置的（总轮数-1）的轮数上。

AI配音GPT-SoVITS指南-使用教程2

看cuda占用需要下拉选择cuda，如果win11找不到cuda界面需要关闭硬件加速GPU计划并重启。

AI配音GPT-SoVITS指南-使用教程2

关于学习率权重：

可以调低但不建议调高。直接听对比，自己听效果。
—–点击试听学习率0.2效果
—–点击试听学习率0.3效果
—–点击试听学习率0.4效果
—–点击试听学习率0.5效果
—–点击试听学习率0.6效果

关于高训练轮数：

你可能会看见有人会说训练了几百轮，几千轮的（几万轮那就是搞错了轮数和步数）。但高轮数并不就是好。如果要训练高轮数请先保证数据集质量极好，标注全都经过手动校对，时长至少超过1小时才有必要拉高轮数。否则默认的十几轮效果已经很好了。

轮数对比可以看视频：

GPT-SoVITS首发评测-速度提升10倍

GPT-SoVITS首发评测-速度提升10倍：GPT-SoVITS首发评测：速度快10倍，从数据集长度和轮数测试大家好，我是弗妮娜！今天我将为大家带...

查看文章

关于数据集长度：

请先保证质量！音频千万不能有杂音，要口齿清晰，响度统一，没有混响，每句话尽量完整，全部手动校对标注。30分钟内有明显提升，不建议再增加数据集长度（除非你有一堆4090）。

详细对比看视频：

GPT-SoVITS超大数据集测试

GPT-SoVITS超大数据集测试：在这篇文章中，我们将探讨使用30小时超大数据集训练GPT-SoVITS模型的效果，并与30分钟数据集的训练结果进行...

查看文章

模型怎样才算训练好了？

这是一个非常无聊且没有意义的问题。就好比上来就问老师我家孩子怎么才能学习好，谁都无法回答。

模型的训练关联于你的数据集质量、时长，轮数，甚至一些超自然的玄学因素；即便你有一个成品模型，最终的转换效果也要取决于你的参考音频以及推理参数。这不是一个线性的的过程，之间的变量实在是太多，所以你非得问“为什么我的模型出来不像啊”、“模型怎样才算训练好了”这样的问题，我只能说 WHO F**KING KNOWS?

但也不是一点办法没有，只能烧香拜佛了。我不否认烧香拜佛当然是一个有效的手段，但你也可以借助一些科学的工具，例如 Tensorboard 等，但还是戴上耳机，让你的耳朵告诉你吧。用耳朵听就是最科学的方式。
如果你的模型一直很差，那你该好好反思反思为什么不好好准备数据集了。

情感分类

如果有超过1小时的数据集的话，可以先用Emotion2Vec或ColorSplitter情感分类后再训练。会获得更稳定更丰富的情感，不过标注一定要手动校对。

详细看视频：

GPT-SoVITS情感特化模型效果及教程

GPT-SoVITS情感特化模型效果及教程：情感分类训练，GPT-SoVITS情感特化模型效果及教程在本篇文章中，我们将深入探讨如何使用 color ...

查看文章