再水一贴关于提取人声为模型准备数据集【长贴警告⚠】

kotolizili

这里是kotolizili，好久没来氵贴了，写一个长贴也许会有人太长不看。。。
这回总结我的经验来写一个提取人声的小教程来。。。
提取的人声是使用在AI训练上的

首先是准备素材，软件两(3)个：Adube au+UVR5，网上都有学习版
这里懂得人可能要喷我：你都用uvr了直接上出人声就可以批量生产不能用吗？
这里提一嘴：训练sovits模型经过我血的教训，素材这东西可谓是宁缺毋滥，上次训练自己的声音模型，加入了一个电脑麦克风录音环境不太好的自己唱的8分钟歌声(超出能力范围了没法修正)，放进素材池里
用3060跑了一个晚上+早上，总计10w+stp（平常用的模型只有6k-1w），拿出来兴致勃勃的推理了一下，出来的都不是人声，声音像从恐怖游戏里出来的丧尸一样。。。
当时以为是耳机出问题了（实际上是不肯接受这个结果），电脑白白被蹂躏了12个小时（训练过程堪比挖矿），那一晚宿舍四个人都没睡好。。
仔细推断了一下都是噪声和回响，估计是素材被污染了，用手机麦克风重录了一版，只用了4k stp就出效果了。。。

软件再加+网易云音乐（or其他），没钱买会员的可以使用【网抑云VIP歌曲批量下载器【公众号：科研神器】】，有钱能下到flac的随意，对于工程级的用的素材品质当然是要拉满。。。[笑]

好了，开始在网络上下载素材，本次我采用的范例是富婆妹fd的小天使ed[トキラキメキ]，
一般情况下可以在一张专辑里同时找到原版和inst版，两个版本都下载下来，虽然inst版本不是必须品，但是有inst版可以极大的优化人声品质，能下就下
现在你的手里有了下面两个文件：
04.トキラキメキ (锦亚澄线ED).flac
11.トキラキメキ (Instrumental).flac
Step 1（非必须，但有大幅提升）：
打开Audition，新建一个多轨会话，把你刚刚下载到的两个无损音乐拖进去
如图AU1.jpg所示
根据波的叠加原则，两个相同波相加，相加后的波形振幅为之前的两倍
两个相同的波相减，振幅是一条直线，根据这个原理，我们可以以此推断：
原曲=人声+伴奏，那么用另一条轨道的伴奏反向抵消掉，那么就只剩人声了

现在，在伴奏轨道上打上反向符号，如图AU2.jpg所示

好，点击下面的小三角形播放
emmm，嗯，怎么跟没有反向差不多，伴奏没有消掉多少，甚至还叠加了？？？？
OK，这就来到第一个坑了，一开始我也天真的以为仅仅是个例，但是到了后面多做几例后，才发现原来这可能是个行业共识，防止vocal被逆向出来
看图AU3.jpg，选择一个轨道后按住ctrl后鼠标上滚轮，会发现原曲和伴奏被有意识的错开了，导致两者之间波形对不上，这就很恶心了，解决办法就是把视图拉到最大手动对齐波形
波形对齐完如图AU4.JPG；AU5.JPG所示
因为采样的原因，你不可能完全对的上，但是试听你会发现好了太多了，人声相对于伴奏突出了非常多，也就是说，伴奏的波形被压下去了不少
试听音频：p1.mp3

到此，au的作用就达成了一半：为uvr提供质量更高的。。。。素材

接下来，就将接力棒交给AI选手，前面的压波形拉开了vocal和inst的差距，这就给完全依靠模型推断的ai创造了一个良好的区分条件
这里我建议是用两个不同的模型处理逐步处理一遍：
先是【Demucs】，我的具体设置如图uvr1.jpg
这一遍处理完，试听，会发现背景的inst被消掉了，但是同为人声的和声和背景回响没有被识别出来，那么就把第一轮的输出结果用第二个模型处理：【VRA】
设置如图uvr2
输出，试听，这一轮质量就已经达到了顶峰，不仅和声回响被削掉了，第一轮处理的漏网之鱼也被揪了出来，这里试听完如果没有问题，就可以直接使用了
试听音频：P2.MP3

那么，如果还有漏网之鱼或者漏网之鱼就混在人声中呢
这就又得回到au里看频谱了，接下来就复杂了，单纯没被识别出来的可以选出来直接右键静音，混在人声中的就得用降噪选项卡中的工具一点点处理了
比如能在频谱中看出来的直接用修复画笔工具涂掉。。。。
这里我也没办法给出多少方法，就只能见风使舵了
我这里也给一个建议就是不要用工具处理太多次，因为你很有可能会越弄越烂。。。。[笑]

如果没有时间，那么直接把烂掉的水果切掉不能吃的部分也不妨是一种好办法，毕竟吃的少可能仅仅只是感到饿，吃了发霉的东西可就是肚子痛了。。。。
被污染了的数据是会带坏一整个数据集的。。。。

至此，以上就是kotolizili为sovits4的数据集准备总结出来的经验，如有问题和建议，请各位巨巨不啬赐教，再此非常感谢
你问我拿那个AI干了什么？那当然是在英语课作业视频里对口型混高分啦。。。。。毕竟我的嘴巴念英语可没机器麻溜

kotolizili

呃。。。。。没法传图片
那么文中的图片和声音打包度盘链接：
链接：https://pan.baidu.com/s/1FZBKQOmtgr8aQGpQ_X8viQ?pwd=slu6
提取码：slu6
大小约8mb

kotolizili

还是トキラキメキ的歌，不同时期做出来的迭代
这是三月份做出来的第一版模型，声源是我最喜欢的蓝月nakuru
链接：https://pan.baidu.com/s/1XzTbAaOkca93H0fMgF_u9w?pwd=8ldc
提取码：8ldc
数据集不干净，缺陷很多，口齿混乱，咬字不清
是我的第一个模型

这是四月下旬又炼出来的一版，声源是枯花的莲
链接：https://pan.baidu.com/s/1-SZ9TewU0gajKEcuol-VXQ?pwd=0oqj
提取码：0oqj
这一代改进了很多，但是被模仿的底子不好，有一些唱错的声音，但是莲这么可爱，唱错了也是可以原谅吧。。。。【笑】

本人仍然是个萌新，技术不强，希望有个大佬能批评指正带带我

kotolizili

这个是用上面的提取的人声作为底，配合第二版出来的，这次提高了咬字水平，纠正了一些读音，并解决掉了中间唱长音断掉的问题
链接：https://pan.baidu.com/s/1JCmNw9QP3VZRpYWrqAIddg?pwd=srq1
提取码：srq1
你问我最近的一版在哪里？那个就是我的声音，用来应付英语视频作业的，我自己的声音也有过两版。。。。
做了一个4分钟的英语朗读视频交了上去，最近还要录一个四人的5分钟视频，29号ddl。。。。

但是我最近打算改进一下第一版的nakuru，毕竟本人是个蓝月癌，蓝月小姐姐的声音是我听过最好听的！！
不接受任何反驳！！！

Q-Q

好强，但是我懒得动怎么办

shirohana

嗷呜～！（丧尸声）

11098223973

好强，才发现