这里是kotolizili,好久没来氵贴了,写一个长贴也许会有人太长不看。。。
这回总结我的经验来写一个提取人声的小教程来。。。
提取的人声是使用在AI训练上的
首先是准备素材,软件两(3)个:Adube au+UVR5,网上都有学习版
这里懂得人可能要喷我:你都用uvr了直接上出人声就可以批量生产不能用吗?
这里提一嘴:训练sovits模型经过我血的教训,素材这东西可谓是宁缺毋滥,上次训练自己的声音模型,加入了一个电脑麦克风录音环境不太好的自己唱的8分钟歌声(超出能力范围了没法修正),放进素材池里
用3060跑了一个晚上+早上,总计10w+stp(平常用的模型只有6k-1w),拿出来兴致勃勃的推理了一下,出来的都不是人声,声音像从恐怖游戏里出来的丧尸一样。。。
当时以为是耳机出问题了(实际上是不肯接受这个结果),电脑白白被蹂躏了12个小时(训练过程堪比挖矿),那一晚宿舍四个人都没睡好。。
仔细推断了一下都是噪声和回响,估计是素材被污染了,用手机麦克风重录了一版,只用了4k stp就出效果了。。。
软件再加+网易云音乐(or其他),没钱买会员的可以使用【网抑云VIP歌曲批量下载器【公众号:科研神器】】,有钱能下到flac的随意,对于工程级的用的素材品质当然是要拉满。。。[笑]
好了,开始在网络上下载素材,本次我采用的范例是富婆妹fd的小天使ed[トキラキメキ],
一般情况下可以在一张专辑里同时找到原版和inst版,两个版本都下载下来,虽然inst版本不是必须品,但是有inst版可以极大的优化人声品质,能下就下
现在你的手里有了下面两个文件:
04.トキラキメキ (锦亚澄线ED).flac
11.トキラキメキ (Instrumental).flac
Step 1(非必须,但有大幅提升):
打开Audition,新建一个多轨会话,把你刚刚下载到的两个无损音乐拖进去
如图AU1.jpg所示
根据波的叠加原则,两个相同波相加,相加后的波形振幅为之前的两倍
两个相同的波相减,振幅是一条直线,根据这个原理,我们可以以此推断:
原曲=人声+伴奏,那么用另一条轨道的伴奏反向抵消掉,那么就只剩人声了
现在,在伴奏轨道上打上反向符号,如图AU2.jpg所示
好,点击下面的小三角形播放
emmm,嗯,怎么跟没有反向差不多,伴奏没有消掉多少,甚至还叠加了????
OK,这就来到第一个坑了,一开始我也天真的以为仅仅是个例,但是到了后面多做几例后,才发现原来这可能是个行业共识,防止vocal被逆向出来
看图AU3.jpg,选择一个轨道后按住ctrl后鼠标上滚轮,会发现原曲和伴奏被有意识的错开了,导致两者之间波形对不上,这就很恶心了,解决办法就是把视图拉到最大 手动对齐波形
波形对齐完如图AU4.JPG;AU5.JPG所示
因为采样的原因,你不可能完全对的上,但是试听你会发现好了太多了,人声相对于伴奏突出了非常多,也就是说,伴奏的波形被压下去了不少
试听音频:p1.mp3
到此,au的作用就达成了一半:为uvr提供质量更高的。。。。素材
接下来,就将接力棒交给AI选手,前面的压波形拉开了vocal和inst的差距,这就给完全依靠模型推断的ai创造了一个良好的区分条件
这里我建议是用两个不同的模型处理逐步处理一遍:
先是【Demucs】,我的具体设置如图uvr1.jpg
这一遍处理完,试听,会发现背景的inst被消掉了,但是同为人声的和声和背景回响没有被识别出来,那么就把第一轮的输出结果用第二个模型处理:【VRA】
设置如图uvr2
输出,试听,这一轮质量就已经达到了顶峰,不仅和声回响被削掉了,第一轮处理的漏网之鱼也被揪了出来,这里试听完如果没有问题,就可以直接使用了
试听音频:P2.MP3
那么,如果还有漏网之鱼或者漏网之鱼就混在人声中呢
这就又得回到au里看频谱了,接下来就复杂了,单纯没被识别出来的可以选出来直接右键静音,混在人声中的就得用降噪选项卡中的工具一点点处理了
比如能在频谱中看出来的直接用修复画笔工具涂掉。。。。
这里我也没办法给出多少方法,就只能见风使舵了
我这里也给一个建议就是不要用工具处理太多次,因为你很有可能会越弄越烂。。。。[笑]
如果没有时间,那么直接把烂掉的水果切掉不能吃的部分也不妨是一种好办法,毕竟吃的少可能仅仅只是感到饿,吃了发霉的东西可就是肚子痛了。。。。
被污染了的数据是会带坏一整个数据集的。。。。
至此,以上就是kotolizili为sovits4的数据集准备总结出来的经验,如有问题和建议,请各位巨巨不啬赐教,再此非常感谢
你问我拿那个AI干了什么?那当然是在英语课作业视频里对口型混高分啦。。。。。毕竟我的嘴巴念英语可没机器麻溜