一种自动修音系统及修音方法技术方案

技术编号:27576636 阅读:15 留言:0更新日期:2021-03-09 22:27
一种自动修音系统及修音方法,涉及音频处理技术领域。本发明专利技术是为了解决现有的修音技术复杂,且无法输出自然音频的问题。音频切分模块分别识别实际音频和原始标准音频,将二者对齐后再进行切分,得到对应于实际音频的多个实际音频段以及对应于原始标准音频的多个原始音频段,所述实际音频段与所述原始音频段一一对应;修音决策模块将所述实际音频特征与对应的所述原始音频段的所述原始音频特征进行比对以得到特征差值,并根据所述特征差值确定所述实际音频段的修音策略;修音实施模块针对每段所述实际音频段,采用被确定的所述修音策略对所述实际音频段进行调整,随后拼接所有调整后的所述实际音频段以生成并输出修音后的音频。它用于对歌曲修音。频。它用于对歌曲修音。频。它用于对歌曲修音。

【技术实现步骤摘要】
一种自动修音系统及修音方法


[0001]本专利技术涉及修音系统及方法。属于音频处理


技术介绍

[0002]K歌是一种流行的娱乐消遣方式,K歌对参与人数没有限制,可以是一群人的狂欢也可以是一个人的发泄;并且随着移动端K歌软件的普及,对专业装备和场所的需求也越来越低。唱歌跑调和跟不上节奏已经成为人们享受K歌乐趣的最大限制之一。通过对演唱语音的修音,具体为节奏和音高的调整,可以将演唱的音频调整到趋近标准演唱的状态。无论是K歌还是现场演唱都需要将演唱的歌曲经过修音之后再呈现出来,使歌曲呈现的更加自然。但是现有的修音技术修出来的声音仍然不是很自然,还存在不自然的机械音。
[0003]现有修音技术包括:手动修音,虽然修音的效果和颗粒度可以达到最佳,但是时间和费用开销较大,无法普及;段落修音,只能对歌曲段落的音高和节奏进行整体调整,由于颗粒度较大,无法解决细节的问题;标准模板切分,根据标准音频对用户演唱音频进行切分,虽然颗粒度更小,但是无法解决演唱节奏偏差的问题。常见的调整策略有:手动调整,用户手动输入调整参数,修音效果相对较好但是操作相对繁琐;模板匹配,将演唱的音高和节律直接调整为乐曲中的系数或者以固定的策略进行调整,修音效果相对较差。
[0004]因此,现有的修音技术不但操作复杂、呈现出来的音频不可避免的会出现不自然的机械音现象。

技术实现思路

[0005]本专利技术是为了解决现有的修音技术复杂,且无法输出自然音频的问题。现提供一种自动修音系统及修音方法。
[0006]一种自动修音系统,所述自动修音系统包括录音模块、曲库模块、音频切分模块、特征提取模块、修音决策模块和修音实施模块,
[0007]录音模块,用于获取用户演唱的实际音频;
[0008]曲库模块,用于获取用户演唱歌曲的原始标准音频;
[0009]音频切分模块分别连接所述录音模块和所述曲库模块,用于分别识别所述实际音频和所述原始标准音频,将识别出的所述实际音频和识别出的所述原始标准音频对齐后再进行切分,得到对应于所述实际音频的多个实际音频段以及对应于所述原始标准音频的多个原始音频段,所述实际音频段与所述原始音频段一一对应;
[0010]特征提取模块连接所述音频切分模块,用于分别采集得到每段所述实际音频段的实际音频特征以及每段所述原始音频段的原始音频特征;
[0011]修音决策模块连接所述特征提取模块,用于针对每段所述实际音频段,将所述实际音频特征与对应的所述原始音频段的所述原始音频特征进行比对以得到特征差值,并根据所述特征差值确定所述实际音频段的修音策略;
[0012]修音实施模块连接所述修音决策模块,用于针对每段所述实际音频段,采用被确
定的所述修音策略对所述实际音频段进行调整,随后拼接所有调整后的所述实际音频段以生成并输出修音后的音频。
[0013]优选地,所述修音决策模块中预先训练形成一修音决策模型,所述修音决策模型关联于多个修音策略;
[0014]则所述修音决策模块将所述特征差值输入至所述修音决策模型中得到所述修音策略。
[0015]优选地,还包括:
[0016]策略选择和自定义模块,所述策略选择和自定义模块中预设有多个所述修音策略,并提供给用户对所述修音策略进行编辑和/或添加新的所述修音策略;
[0017]学习模块,分别连接所述修音决策模块和所述策略选择和自定义模块,用于接收用户对所述修音策略进行编辑和/或添加的结果,并根据结果对所述修音决策模型进行训练,以将所述修音决策模型与被编辑和/或修改的所述修音策略进行关联。
[0018]优选地,每个所述修音策略中包括对应的修音调整系数;
[0019]则所述修音实施模块根据被确定的所述修音策略,采用对应的所述修音调整系数对所述实际音频段进行调整。
[0020]优选地,所述音频切分模块具体包括:
[0021]音频对齐单元,用于将所述实际音频和所述原始标准音频进行对齐,输出对齐结果;
[0022]音频切分单元,连接所述音频对齐单元,用于根据所述对齐结果,分别对所述实际音频和所述原始标准音频进行切分,以得到多个所述实际音频段以及多个所述原始音频段。
[0023]优选地,所述音频对齐单元具体包括:
[0024]语音识别部件,用于对所述实际音频和所述原始标准音频分别进行语音识别,并根据语音识别的结果对所述实际音频进行对齐,并输出初步对齐结果;
[0025]歌词获取部件,用于获取所述实际音频的标准歌词;
[0026]辅助对齐切分部件,分别连接所述语音识别部件和所述歌词获取部件,用于根据所述标准歌词对所述初步对齐结果进行辅助对齐,以形成所述对齐结果并输出。
[0027]优选地,所述音频切分单元具体包括:
[0028]字词切分部件,所述字词切分单元中预先设置有字词模型,所述字词切分部件用于采用所述字词模型,词组或者字或者音素的切分标准分别对对齐后的所述实际音频和所述原始标准音频进行切分,以得到多个所述实际音频段以及多个所述原始音频段。
[0029]优选地,所述特征提取模块具体包括:
[0030]音高提取单元,用于分别提取每个所述实际音频段以及每个所述原始音频段的音高特征;
[0031]节奏提取单元,用于分别提取每个所述实际音频段以及每个所述原始音频段的节奏特征;
[0032]时长提取单元,用于提取每个所述实际音频段以及每个所述原始音频段的时长特征;
[0033]特征整合单元,分别连接所述音高提取单元、所述节奏提取单元以及所述时长提
取单元,用于分别将对应的所述音高特征、所述节奏特征和所述时长特征包括在所述实际音频特征和所述原始音频特征中输出。
[0034]一种自动修音方法,所述修音方法包括以下步骤:
[0035]步骤S1、获取用户演唱的实际音频和用户演唱歌曲的原始标准音频
[0036]步骤S2、分别识别所述实际音频和所述原始标准音频,将识别出的所述实际音频和识别出的所述原始标准音频对齐后再进行切分,得到对应于所述实际音频的多个实际音频段以及对应于所述原始标准音频的多个原始音频段,所述实际音频段与所述原始音频段一一对应;
[0037]步骤S3、分别采集得到每段所述实际音频段的实际音频特征以及每段所述原始音频段的原始音频特征;
[0038]步骤S4、针对每段所述实际音频段,将所述实际音频特征与对应的所述原始音频段的所述原始音频特征进行比对以得到特征差值,并根据所述特征差值确定所述实际音频段的修音策略;
[0039]步骤S5、针对每段所述实际音频段,采用被确定的所述修音策略对所述实际音频段进行调整,随后拼接所有调整后的所述实际音频段以生成并输出修音后的音频。
[0040]优选地,步骤S4中,根据所述特征差值确定所述实际音频段的修音策略的具体过程为:
[0041]针对每段所述实际音频段,将所述实际音频特征与对应的所述原始音频段的所述原始音频特本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种自动修音系统,其特征在于,所述自动修音系统包括录音模块(1)、曲库模块(2)、音频切分模块(3)、特征提取模块(4)、修音决策模块(5)和修音实施模块(6),录音模块(1),用于获取用户演唱的实际音频;曲库模块(2),用于获取用户演唱歌曲的原始标准音频;音频切分模块(3)分别连接所述录音模块(1)和所述曲库模块(2),用于分别识别所述实际音频和所述原始标准音频,将识别出的所述实际音频和识别出的所述原始标准音频对齐后再进行切分,得到对应于所述实际音频的多个实际音频段以及对应于所述原始标准音频的多个原始音频段,所述实际音频段与所述原始音频段一一对应;特征提取模块(4)连接所述音频切分模块(3),用于分别采集得到每段所述实际音频段的实际音频特征以及每段所述原始音频段的原始音频特征;修音决策模块(5)连接所述特征提取模块(4),用于针对每段所述实际音频段,将所述实际音频特征与对应的所述原始音频段的所述原始音频特征进行比对以得到特征差值,并根据所述特征差值确定所述实际音频段的修音策略;修音实施模块(6)连接所述修音决策模块(5),用于针对每段所述实际音频段,采用被确定的所述修音策略对所述实际音频段进行调整,随后拼接所有调整后的所述实际音频段以生成并输出修音后的音频。2.根据权利要求1所述一种自动修音系统,其特征在于,所述修音决策模块(5)中预先训练形成一修音决策模型,所述修音决策模型关联于多个修音策略;则所述修音决策模块(5)将所述特征差值输入至所述修音决策模型中得到所述修音策略。3.根据权利要求2所述一种自动修音系统,其特征在于,还包括:策略选择和自定义模块(7),所述策略选择和自定义模块(7)中预设有多个所述修音策略,并提供给用户对所述修音策略进行编辑和/或添加新的所述修音策略;学习模块(8),分别连接所述修音决策模块(5)和所述策略选择和自定义模块(7),用于接收用户对所述修音策略进行编辑和/或添加的结果,并根据结果对所述修音决策模型进行训练,以将所述修音决策模型与被编辑和/或修改的所述修音策略进行关联。4.根据权利要求2所述一种自动修音系统,其特征在于,每个所述修音策略中包括对应的修音调整系数;则所述修音实施模块(6)根据被确定的所述修音策略,采用对应的所述修音调整系数对所述实际音频段进行调整。5.根据权利要求1所述一种自动修音系统,其特征在于,所述音频切分模块(3)具体包括:音频对齐单元(3-1),用于将所述实际音频和所述原始标准音频进行对齐,输出对齐结果;音频切分单元(3-2),连接所述音频对齐单元(3-1),用于根据所述对齐结果,分别对所述实际音频和所述原始标准音频进行切分,以得到多个所述实际音频段以及多个所述原始音频段。6.根据权利要求5所述一种自动修音系统,其特征在于,所述音频对齐单元(3-1)具体包括:
语音识别部件(3-1-1),用于对所述实际音频和所述原始标准音频分别进行语音识别,并...

【专利技术属性】
技术研发人员:黄明飞姚宏贵林峰张逸风
申请(专利权)人:开放智能机器上海有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1