零基础

AI配音GPT-SoVITS指南-基础知识

小智 AI配音教程 2024年12月26日

0 收藏 0 点赞 596 浏览 2987 个字

摘要 :

AI配音GPT-SoVITS指南-基础知识：本篇教程将介绍 AI 配音软件 GPT-Sovits 的基础知识，帮助新手学者理解相关术语和概念，为后续的学习和实践打下基础。 1. 常见的英文……

哈喽！伙伴们，我是小智，你们的AI向导。欢迎来到每日的AI学习时间。今天，我们将一起深入AI的奇妙世界，探索“AI配音GPT-SoVITS指南-基础知识”，并学会本篇文章中所讲的全部知识点。还是那句话“不必远征未知，只需唤醒你的潜能！”跟着小智的步伐，我们终将学有所成，学以致用，并发现自身的更多可能性。话不多说，现在就让我们开始这场激发潜能的AI学习之旅吧。

AI配音GPT-SoVITS指南-基础知识：

本篇教程将介绍 AI 配音软件 GPT-Sovits 的基础知识，帮助新手学者理解相关术语和概念，为后续的学习和实践打下基础。

1. 常见的英文术语：

Error：错误。这是最重要的一个单词，必须记住这个单词！这个单词会在所有报错的时候出现，有了这个报错才知道什么原因，该怎么解决。它一般前面会跟有一个定语来修饰这个报错，后面跟着报错原因。比如：OutOfMEemoryError：CUDA out of memory。前面的OutOfMEemory说明问题是内存不足这类报错，后面的CUDA out of memory说明是显存不足。
AI配音GPT-SoVITS指南-基础知识

CUDA：这是N卡的统一计算架构，所有在N卡上进行的Ai计算都需要它。安装了显卡驱动的话都会安装上CUDA，CUDA也有不同的版本，建议手动下载11.8版本，新版有一些占用不满的问题。遇到一些CUDA报错那么一般都是显卡方面的报错。

GPU：GPU是图形处理器，显卡是GPU但GPU不一定是显卡。不是所有GPU都叫显卡！台式机的显卡是像一块砖一样，很大的一个硬件。笔记本只有那些昂贵且笨重的游戏本才有显卡。其他的GPU都是核显！核显不是显卡！

module：模块。模块就是一个脚本，缺少某个脚本，对应的程序就无法运行。你可能会遇到No module的报错，遇到这种情况缺什么装什么就好了。比如：ModuleNotFoundError：No module named‘jieba_fast’，这里没有jieba_fast这个模块，那么只要python -m pip install jieba_fast装上这个模块就好了，缺什么装什么，你不用懂为什么要装，反正缺什么装什么就好了。
AI配音GPT-SoVITS指南-基础知识

WebUI：web是网络的意思，ui是使用界面的意思，合在一起就是一个网页，一个以网页呈现的操作页面。网页只是用来控制操作程序的，程序的运行并非是这么一个网页，真正的运行程序是你点开的那个go-webui.bat的程序。

weights：模型权重。也就是俗称的模型，GPT_weights就是GPT模型，SoVITS_weights就是SoVITS模型，以此类推就可以举一反三了，其他的模型只要找weights就行了。不过严格来说weights也不能算模型，weight指的是神经网络中的参数，这些参数被存储在称为“权重”的数组中，所以weights叫做模型权重。

output：输出。没啥好讲的，记住是输出的意思就好了。程序输出的文件一般都会在output文件夹，有的时候output会缩写成opt，比如uvr5_opt那么就代表这个文件夹是uvr5输出的文件的存放位置。

found：一般出现在路径不对的报错中，not found就是没有找到的意思。如果路径中没有某个需要的文件的时候就会报错NotFound：xxx。也有可能是没有找到某个模块，模块就是Module，ModuleNotFoundError。总之看见NotFound就去检查一下有没有缺文件，不要什么问题都干等着大佬来回答，这种低级的问题都能自己解决的。

pre-trained：预先训练的，常见的有pretrained_models那么这个文件夹里放的是底膜，并不是微调后的最终模型，找模型的时候别找错了。

2. 什么是显卡？

显卡指的是独立显卡，例如 N 卡、A 卡、I 卡。台式机显卡通常是独立显卡，而笔记本只有高端游戏本才配备独立显卡。核芯显卡 (核显) 并非显卡，无法用于 AI 计算。

3. 什么是整合包？

整合包是预先配置好的软件包，解压后即可使用。新手学者建议使用整合包，无需自行配置环境和下载模型。

4. 什么是控制台？

控制台是指运行程序时出现的黑色窗口，显示程序运行过程中的代码和信息。通过控制台，您可以了解程序运行状态和错误信息。
AI配音GPT-SoVITS指南-基础知识

5. 什么是显存？

显存是显卡的专用内存，用于存储程序运行过程中需要的数据。您可以通过任务管理器查看显卡的显存使用情况。
AI配音GPT-SoVITS指南-基础知识

6. 什么是数据集？

数据集是指一组数据样本，包含音频、文本等数据。数据集的质量和大小会影响 AI 模型的训练效果。

7. 什么是文件路径和文件夹路径？

文件夹路径是指文件夹的位置，例如 C:UsersUsernameDocumentsGPT-Sovits。
AI配音GPT-SoVITS指南-基础知识

文件路径是指文件的位置，例如 C:UsersUsernameDocumentsGPT-Sovitsvoice.wav。
AI配音GPT-SoVITS指南-基础知识

8. 什么是音频质量？

响度：音量大小，通常用 dB (分贝) 表示。建议将音频电平保持在 -9dB 至 -6dB 之间。
AI配音GPT-SoVITS指南-基础知识

这是同样一段音频不同响度在AU中的样子。
AI配音GPT-SoVITS指南-基础知识

混响：混响是后期反射声，你可以简单的理解为回声。你可能觉得正常录的声音能有什么回声，但实际上无论什么情况都会有混响，只是有大小和多少的区分罢了。最基础的看混响的方法是看频谱图，很明显第一张图就非常干净不拖沓。第二张图就是混响严重的。直接听下面的音频就是最好的对比。有混响的话就要用UVR5去混响，后面的教程里有讲。

无混响：

有混响：

AI配音GPT-SoVITS指南-基础知识

音质：这里的音质是对音频准确性、保真度或清晰度的评估，不是hifi那种玄学的东西。一般情况下采样率，位深和码率都不会太低的。现在的麦克风都44.1k，16bit以上了。但清晰度这种东西就不好说了，你拿个几百块的耳机自带的麦克风那清晰度肯定差的不行，如果要自己录音的话最好买个单独的麦克风。再贵的耳机麦克风都不如一个独立麦克风。下面可以听一下清晰度的对比。当然清晰度也可以通过频谱图看出一点点。图一是音质好的，图二是音质差的。至于采样率，位深和码率不用太高的，会进行重采样的，Ai可不玩HiFi……

音质好：

音质差：

AI配音GPT-SoVITS指南-基础知识

口齿清晰：就是人话：“口齿清晰”。不要求像播音员一样，但不要让人听着就感觉口水要喷出来了。中文的话比较难举例，我用一个英文举例。比如：fucking读成f——king。还有丁真那种像抽了20年烟一样的嗓子，恶心的要死的气泡音和塔菲那种夹子。正常说话就行了，别给Ai倒垃圾。

噪音：还是人话：“噪音”。录音的时候让家里的狗别叫了，音响别放音乐了，爸妈别吵架了，风扇空调关掉，门窗关好。AI无法分辨这些噪音和你说话的声音，别给Ai倒垃圾。

说话完整：还是人话：“说话完整”。每个字读完，中文还好但英文经常读一半，比如：fucking读成f——king。可能你说话会有口音那也不行，对于AI来说你说的话就是对牛弹琴。

持续更新中

AI配音GPT-SoVITS指南-入门教程

AI配音GPT-SoVITS指南-入门教程：本篇教程将介绍 AI 配音软件 GPT-Sovits 的配置要求，帮助新手学者了解如何搭建训练和推理环境，开启 A...

查看文章

嘿，伙伴们，今天我们的AI探索之旅已经圆满结束。关于“AI配音GPT-SoVITS指南-基础知识”的内容已经分享给大家了。感谢你们的陪伴，希望这次旅程让你对AI能够更了解、更喜欢。谨记，精准提问是解锁AI潜能的钥匙哦！如果有小伙伴想要了解学习更多的AI知识，请关注我们的官网“AI智研社”，保证让你收获满满呦！

赏

微信打赏二维码微信扫一扫