【技术实现步骤摘要】
一种自动修音系统及修音方法
[0001]本专利技术涉及修音系统及方法。属于音频处理
技术介绍
[0002]K歌是一种流行的娱乐消遣方式,K歌对参与人数没有限制,可以是一群人的狂欢也可以是一个人的发泄;并且随着移动端K歌软件的普及,对专业装备和场所的需求也越来越低。唱歌跑调和跟不上节奏已经成为人们享受K歌乐趣的最大限制之一。通过对演唱语音的修音,具体为节奏和音高的调整,可以将演唱的音频调整到趋近标准演唱的状态。无论是K歌还是现场演唱都需要将演唱的歌曲经过修音之后再呈现出来,使歌曲呈现的更加自然。但是现有的修音技术修出来的声音仍然不是很自然,还存在不自然的机械音。
[0003]现有修音技术包括:手动修音,虽然修音的效果和颗粒度可以达到最佳,但是时间和费用开销较大,无法普及;段落修音,只能对歌曲段落的音高和节奏进行整体调整,由于颗粒度较大,无法解决细节的问题;标准模板切分,根据标准音频对用户演唱音频进行切分,虽然颗粒度更小,但是无法解决演唱节奏偏差的问题。常见的调整策略有:手动调整,用户手动输入调整参数,修音效果相对较好但是操作相对繁琐;模板匹配,将演唱的音高和节律直接调整为乐曲中的系数或者以固定的策略进行调整,修音效果相对较差。
[0004]因此,现有的修音技术不但操作复杂、呈现出来的音频不可避免的会出现不自然的机械音现象。
技术实现思路
[0005]本专利技术是为了解决现有的修音技术复杂,且无法输出自然音频的问题。现提供一种自动修音系统及修音方法。
[0006]一种自动 ...
【技术保护点】
【技术特征摘要】
1.一种自动修音系统,其特征在于,所述自动修音系统包括录音模块(1)、曲库模块(2)、音频切分模块(3)、特征提取模块(4)、修音决策模块(5)和修音实施模块(6),录音模块(1),用于获取用户演唱的实际音频;曲库模块(2),用于获取用户演唱歌曲的原始标准音频;音频切分模块(3)分别连接所述录音模块(1)和所述曲库模块(2),用于分别识别所述实际音频和所述原始标准音频,将识别出的所述实际音频和识别出的所述原始标准音频对齐后再进行切分,得到对应于所述实际音频的多个实际音频段以及对应于所述原始标准音频的多个原始音频段,所述实际音频段与所述原始音频段一一对应;特征提取模块(4)连接所述音频切分模块(3),用于分别采集得到每段所述实际音频段的实际音频特征以及每段所述原始音频段的原始音频特征;修音决策模块(5)连接所述特征提取模块(4),用于针对每段所述实际音频段,将所述实际音频特征与对应的所述原始音频段的所述原始音频特征进行比对以得到特征差值,并根据所述特征差值确定所述实际音频段的修音策略;修音实施模块(6)连接所述修音决策模块(5),用于针对每段所述实际音频段,采用被确定的所述修音策略对所述实际音频段进行调整,随后拼接所有调整后的所述实际音频段以生成并输出修音后的音频。2.根据权利要求1所述一种自动修音系统,其特征在于,所述修音决策模块(5)中预先训练形成一修音决策模型,所述修音决策模型关联于多个修音策略;则所述修音决策模块(5)将所述特征差值输入至所述修音决策模型中得到所述修音策略。3.根据权利要求2所述一种自动修音系统,其特征在于,还包括:策略选择和自定义模块(7),所述策略选择和自定义模块(7)中预设有多个所述修音策略,并提供给用户对所述修音策略进行编辑和/或添加新的所述修音策略;学习模块(8),分别连接所述修音决策模块(5)和所述策略选择和自定义模块(7),用于接收用户对所述修音策略进行编辑和/或添加的结果,并根据结果对所述修音决策模型进行训练,以将所述修音决策模型与被编辑和/或修改的所述修音策略进行关联。4.根据权利要求2所述一种自动修音系统,其特征在于,每个所述修音策略中包括对应的修音调整系数;则所述修音实施模块(6)根据被确定的所述修音策略,采用对应的所述修音调整系数对所述实际音频段进行调整。5.根据权利要求1所述一种自动修音系统,其特征在于,所述音频切分模块(3)具体包括:音频对齐单元(3-1),用于将所述实际音频和所述原始标准音频进行对齐,输出对齐结果;音频切分单元(3-2),连接所述音频对齐单元(3-1),用于根据所述对齐结果,分别对所述实际音频和所述原始标准音频进行切分,以得到多个所述实际音频段以及多个所述原始音频段。6.根据权利要求5所述一种自动修音系统,其特征在于,所述音频对齐单元(3-1)具体包括:
语音识别部件(3-1-1),用于对所述实际音频和所述原始标准音频分别进行语音识别,并...
【专利技术属性】
技术研发人员:黄明飞,姚宏贵,林峰,张逸风,
申请(专利权)人:开放智能机器上海有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。