AI配音GPT-SoVITS指南-基础知识: 本篇教程将介绍 AI 配音软件 GPT-Sovits 的基础知识,帮助新手学者理解相关术语和概念,为后续的学习和实践打下基础。 1. 常见的英文……
哈喽!伙伴们,我是小智,你们的AI向导。欢迎来到每日的AI学习时间。今天,我们将一起深入AI的奇妙世界,探索“AI配音GPT-SoVITS指南-基础知识”,并学会本篇文章中所讲的全部知识点。还是那句话“不必远征未知,只需唤醒你的潜能!”跟着小智的步伐,我们终将学有所成,学以致用,并发现自身的更多可能性。话不多说,现在就让我们开始这场激发潜能的AI学习之旅吧。
AI配音GPT-SoVITS指南-基础知识:
本篇教程将介绍 AI 配音软件 GPT-Sovits 的基础知识,帮助新手学者理解相关术语和概念,为后续的学习和实践打下基础。
1. 常见的英文术语:
Error:错误。这是最重要的一个单词,必须记住这个单词!这个单词会在所有报错的时候出现,有了这个报错才知道什么原因,该怎么解决。它一般前面会跟有一个定语来修饰这个报错,后面跟着报错原因。比如:OutOfMEemoryError:CUDA out of memory。前面的OutOfMEemory说明问题是内存不足这类报错,后面的CUDA out of memory说明是显存不足。
CUDA:这是N卡的统一计算架构,所有在N卡上进行的Ai计算都需要它。安装了显卡驱动的话都会安装上CUDA,CUDA也有不同的版本,建议手动下载11.8版本,新版有一些占用不满的问题。遇到一些CUDA报错那么一般都是显卡方面的报错。
GPU:GPU是图形处理器,显卡是GPU但GPU不一定是显卡。不是所有GPU都叫显卡!台式机的显卡是像一块砖一样,很大的一个硬件。笔记本只有那些昂贵且笨重的游戏本才有显卡。其他的GPU都是核显!核显不是显卡!
module:模块。模块就是一个脚本,缺少某个脚本,对应的程序就无法运行。你可能会遇到No module的报错,遇到这种情况缺什么装什么就好了。比如:ModuleNotFoundError:No module named‘jieba_fast’,这里没有jieba_fast这个模块,那么只要python -m pip install jieba_fast装上这个模块就好了,缺什么装什么,你不用懂为什么要装,反正缺什么装什么就好了。
WebUI:web是网络的意思,ui是使用界面的意思,合在一起就是一个网页,一个以网页呈现的操作页面。网页只是用来控制操作程序的,程序的运行并非是这么一个网页,真正的运行程序是你点开的那个go-webui.bat的程序。
weights:模型权重。也就是俗称的模型,GPT_weights就是GPT模型,SoVITS_weights就是SoVITS模型,以此类推就可以举一反三了,其他的模型只要找weights就行了。不过严格来说weights也不能算模型,weight指的是神经网络中的参数,这些参数被存储在称为“权重”的数组中,所以weights叫做模型权重。
output:输出。没啥好讲的,记住是输出的意思就好了。程序输出的文件一般都会在output文件夹,有的时候output会缩写成opt,比如uvr5_opt那么就代表这个文件夹是uvr5输出的文件的存放位置。
found:一般出现在路径不对的报错中,not found就是没有找到的意思。如果路径中没有某个需要的文件的时候就会报错NotFound:xxx。也有可能是没有找到某个模块,模块就是Module,ModuleNotFoundError。总之看见NotFound就去检查一下有没有缺文件,不要什么问题都干等着大佬来回答,这种低级的问题都能自己解决的。
pre-trained:预先训练的,常见的有pretrained_models那么这个文件夹里放的是底膜,并不是微调后的最终模型,找模型的时候别找错了。
2. 什么是显卡?
显卡指的是独立显卡,例如 N 卡、A 卡、I 卡。台式机显卡通常是独立显卡,而笔记本只有高端游戏本才配备独立显卡。核芯显卡 (核显) 并非显卡,无法用于 AI 计算。
3. 什么是整合包?
整合包是预先配置好的软件包,解压后即可使用。新手学者建议使用整合包,无需自行配置环境和下载模型。
4. 什么是控制台?
控制台是指运行程序时出现的黑色窗口,显示程序运行过程中的代码和信息。通过控制台,您可以了解程序运行状态和错误信息。
5. 什么是显存?
显存是显卡的专用内存,用于存储程序运行过程中需要的数据。您可以通过任务管理器查看显卡的显存使用情况。
6. 什么是数据集?
数据集是指一组数据样本,包含音频、文本等数据。数据集的质量和大小会影响 AI 模型的训练效果。
7. 什么是文件路径和文件夹路径?
文件夹路径是指文件夹的位置,例如 C:UsersUsernameDocumentsGPT-Sovits。
文件路径是指文件的位置,例如 C:UsersUsernameDocumentsGPT-Sovitsvoice.wav。
8. 什么是音频质量?
响度:音量大小,通常用 dB (分贝) 表示。建议将音频电平保持在 -9dB 至 -6dB 之间。
这是同样一段音频不同响度在AU中的样子。
混响:混响是后期反射声,你可以简单的理解为回声。你可能觉得正常录的声音能有什么回声,但实际上无论什么情况都会有混响,只是有大小和多少的区分罢了。最基础的看混响的方法是看频谱图,很明显第一张图就非常干净不拖沓。第二张图就是混响严重的。直接听下面的音频就是最好的对比。有混响的话就要用UVR5去混响,后面的教程里有讲。
无混响:
有混响:
音质:这里的音质是对音频准确性、保真度或清晰度的评估,不是hifi那种玄学的东西。一般情况下采样率,位深和码率都不会太低的。现在的麦克风都44.1k,16bit以上了。但清晰度这种东西就不好说了,你拿个几百块的耳机自带的麦克风那清晰度肯定差的不行,如果要自己录音的话最好买个单独的麦克风。再贵的耳机麦克风都不如一个独立麦克风。下面可以听一下清晰度的对比。当然清晰度也可以通过频谱图看出一点点。图一是音质好的,图二是音质差的。至于采样率,位深和码率不用太高的,会进行重采样的,Ai可不玩HiFi……
音质好:
音质差:
口齿清晰:就是人话:“口齿清晰”。不要求像播音员一样,但不要让人听着就感觉口水要喷出来了。中文的话比较难举例,我用一个英文举例。比如:fucking读成f——king。还有丁真那种像抽了20年烟一样的嗓子,恶心的要死的气泡音和塔菲那种夹子。正常说话就行了,别给Ai倒垃圾。
噪音:还是人话:“噪音”。录音的时候让家里的狗别叫了,音响别放音乐了,爸妈别吵架了,风扇空调关掉,门窗关好。AI无法分辨这些噪音和你说话的声音,别给Ai倒垃圾。
说话完整:还是人话:“说话完整”。每个字读完,中文还好但英文经常读一半,比如:fucking读成f——king。可能你说话会有口音那也不行,对于AI来说你说的话就是对牛弹琴。
持续更新中
嘿,伙伴们,今天我们的AI探索之旅已经圆满结束。关于“AI配音GPT-SoVITS指南-基础知识”的内容已经分享给大家了。感谢你们的陪伴,希望这次旅程让你对AI能够更了解、更喜欢。谨记,精准提问是解锁AI潜能的钥匙哦!如果有小伙伴想要了解学习更多的AI知识,请关注我们的官网“AI智研社”,保证让你收获满满呦!
还没有评论呢,快来抢沙发~