音频提取装置、机器训练装置、卡拉OK装置制造方法及图纸

技术编号:22975837 阅读:23 留言:0更新日期:2019-12-31 23:50
音频提取装置、机器训练装置、卡拉OK装置。具有控制部(处理器),执行:预处理,针对包含第一声道音频数据和第二声道音频数据的立体声音源,对所述第一声道音频数据和所述第二声道音频数据执行减法处理,生成中心剪切音频数据,所述第一声道音频数据包含用于第一声道的伴奏声音和声乐声音,所述第二声道音频数据包含用于第二声道的伴奏声音和声乐声音;以及音频提取处理,通过向训练后的机器训练模型输入所述第一声道音频数据、所述第二声道音频数据和所述中心剪切音频数据,来提取所述伴奏声音和所述声乐声音中的某一方。

【技术实现步骤摘要】
音频提取装置、机器训练装置、卡拉OK装置
本专利技术涉及一种音响处理技术。
技术介绍
传统上,存在一种电子键盘乐器,其点亮嵌入在键盘中的LED(发光二极管)以指示键被按下,该LED对应于基于标准MIDI文件(SMF)等的MIDI(音乐设备数字接口)的乐曲数据的特定片段(part)诸如旋律部分等的音高(pitch)。在这样的电子键盘乐器中,通过使键发光,能够实现指示用户希望弹奏的乐曲的旋律的练习功能。如SMF这样的附加了声道编号的MIDI数据那样,代码按时间序列排列的数据中,可以提取特定的片段,向用户提示该片段的旋律音高、音长等。在以压缩光盘(CD)或mp3等为代表的一般的音乐音响信号中混合有伴奏或旋律,难以从其中仅分离出特定的片段、例如难以仅分离出伴奏。另一方面,已知有通过将市场上销售的音乐CD中包含的伴奏声音与声乐声音(vocalvoice)分离而生成卡拉OK用音频数据的技术。专利文献1:日本特开2006-195385然而,在被表示为MP3格式数据的一般的音响信号和音频数据中,各乐器和声乐语音处于混合的状态,难以从这样的数据中分离出特定片段(例如,声乐片段),并且也难以提取该特定片段的音高。另一方面,正在积极进行使用神经网络等的机器训练的人工智能的研究开发。例如,已经研究和开发了使用神经网络的音响处理技术。然而,仍然难以更有效地分离特定的乐器声音或声乐声音等,这样的声音除声音的高低之外还表示出乐器类型或人(或个人)特有的频率分布。另外,在现有技术中,根据伴奏声音和声乐声音混合的状态,很难将它们充分分离,提取只包含伴奏声音的高品质的音频成分。
技术实现思路
鉴于上述问题,本专利技术的目的是提供一种用于从音频数据提取特定音频成分的音响处理技术。本专利技术提供一种音频提取装置,具有控制部,所述控制部执行:预处理,针对包含第一声道音频数据和第二声道音频数据的立体声音源,对所述第一声道音频数据和所述第二声道音频数据执行减法处理,生成中心剪切音频数据,所述第一声道音频数据包含用于第一声道的伴奏声音和声乐声音,所述第二声道音频数据包含用于第二声道的伴奏声音和声乐声音;以及音频提取处理,通过向训练后的机器训练模型输入所述第一声道音频数据、所述第二声道音频数据和所述中心剪切音频数据,来提取所述伴奏声音和所述声乐声音中的某一方。本专利技术还提供一种再现装置,具有控制部,所述控制部执行:预处理,将包含伴奏声音和声乐声音的音频数据变换为第一多维数据,所述第一多维数据的至少第一轴对应于时间且第二轴对应于与声音的频率有关的声音信息;伴奏声音提取处理,将变换后的所述第一多维数据输入到神经网络中,取得第二多维数据,所述神经网络以输入与混合有伴奏声音和声乐声音的音频数据对应的多维数据,并输出与包含所述伴奏声音而不混合所述声乐声音的音频数据对应的多维数据的方式被训练;以及再现处理,将取得的所述第二多维数据变换为包含所述伴奏声音而不混合所述声乐声音的第二音频数据,并且再现变换后的所述第二音频数据。本专利技术还提供一种音频提取方法,具有:预处理步骤,所述处理器针对包含第一声道音频数据和第二声道音频数据的立体声音源,对所述第一声道音频数据和所述第二声道音频数据执行减法处理,生成中心剪切音频数据,所述第一声道音频数据包含用于第一声道的伴奏声音和声乐声音,所述第二声道音频数据包含用于第二声道的伴奏声音和声乐声音;以及音频提取处理步骤,所述处理器通过训练后的机器训练模型从所述第一声道音频数据、所述第二声道音频数据和所述中心剪切音频数据,提取所述伴奏声音和所述声乐声音中的某一方。本专利技术还提供一种音频再现方法,由处理器执行:预处理,将包含伴奏声音和声乐声音的音频数据变换为第一多维数据,所述第一多维数据的至少第一轴对应于时间且第二轴对应于与声音的频率有关的声音信息;伴奏声音提取处理,将变换后的所述第一多维数据输入到神经网络中,取得第二多维数据,所述神经网络以输入与混合有伴奏声音和声乐声音的音频数据对应的多维数据,并输出与包含所述伴奏声音而不混合所述声乐声音的音频数据对应的多维数据的方式被训练;以及再现处理,将取得的所述第二多维数据变换为包含所述伴奏声音而不混合所述声乐声音的第二音频数据,并且再现变换后的所述第二音频数据。本专利技术还提供一种机器训练方法,具有:取得步骤,处理器针对包含第一声道音频数据和第二声道音频数据的立体声音源,取得所述第一声道音频数据、所述第二声道音频数据以及对所述第一声道音频数据和所述第二声道音频数据执行减法处理而生成的中心剪切音频数据,作为训练用输入数据,其中,所述第一声道音频数据包含用于第一声道的伴奏声音和声乐声音,所述第二声道音频数据包含用于第二声道的伴奏声音和声乐声音,所述处理器取得所述伴奏声音和所述声乐声音中的某一方作为训练用输出数据;以及训练步骤,所述处理器训练机器训练模型,以从所述训练用输入数据生成所述训练用输出数据。附图说明图1是示出根据本专利技术的一实施例的具有训练后的音响分离模型的音响分离装置的示意图。图2是示出根据本专利技术的一实施例的训练装置的功能配置的框图。图3A和图3B是示出根据本专利技术的一实施例的音频数据的经傅立叶变换和恒Q变换的频谱图。图4是示出根据本专利技术的一实施例的训练装置的硬件配置的框图。图5是示出根据本专利技术的一实施例的表示音响分离模型的训练处理的流程图。图6是示出根据本专利技术的一实施例的表示音响分离模型的训练处理的细节的流程图。图7A和图7B是示出根据本专利技术的一实施例的音频数据和分离的音频数据的频谱图的图。图8是示出根据本专利技术的一实施例的音响分离装置的功能配置的框图。图9是示出根据本专利技术的一实施例的音响分离装置和电子乐器装置的硬件配置的框图。图10是示出根据本专利技术的一实施例的音响分离处理的流程图。图11是示出根据本专利技术的一实施例的电子乐器装置的音响处理的流程图。图12是示出根据本专利技术的一实施例的具有训练后的音频提取模型的音频提取装置的示意图。图13是示出根据本专利技术的一实施例的音频提取装置的功能配置的框图。图14是示出根据本专利技术的一实施例的音频提取处理的流程图。图15是示出根据本专利技术的一实施例的训练装置的功能配置的框图。图16是示出根据本专利技术的一实施例的音频提取模型的训练处理的流程图。图17是示出根据本专利技术的一实施例的卡拉OK装置的功能配置的框图。图18是示出根据本专利技术的一实施例的音频提取装置、训练装置和卡拉OK装置的硬件配置的框图。具体实施方式(第一实施例)在以下实施例中,公开了一种音响处理技术,其中,训练用于从音频数据分离特定类型的乐器声音、声乐声音等(特定的音频成分)的音响分离模型,并且使用该训练后的模型从音频数据分离该片段。本专利技术的训练装置,取得由包括多个音频成分的本文档来自技高网
...

【技术保护点】
1.一种音频提取装置,具有控制部,所述控制部执行:/n预处理,针对包含第一声道音频数据和第二声道音频数据的立体声音源,对所述第一声道音频数据和所述第二声道音频数据执行减法处理,生成中心剪切音频数据,所述第一声道音频数据包含用于第一声道的伴奏声音和声乐声音,所述第二声道音频数据包含用于第二声道的伴奏声音和声乐声音;以及/n音频提取处理,通过向训练后的机器训练模型输入所述第一声道音频数据、所述第二声道音频数据和所述中心剪切音频数据,来提取所述伴奏声音和所述声乐声音中的某一方。/n

【技术特征摘要】
20180625 JP 2018-1202361.一种音频提取装置,具有控制部,所述控制部执行:
预处理,针对包含第一声道音频数据和第二声道音频数据的立体声音源,对所述第一声道音频数据和所述第二声道音频数据执行减法处理,生成中心剪切音频数据,所述第一声道音频数据包含用于第一声道的伴奏声音和声乐声音,所述第二声道音频数据包含用于第二声道的伴奏声音和声乐声音;以及
音频提取处理,通过向训练后的机器训练模型输入所述第一声道音频数据、所述第二声道音频数据和所述中心剪切音频数据,来提取所述伴奏声音和所述声乐声音中的某一方。


2.根据权利要求1所述的音频提取装置,其中,
所述预处理将所述第一声道音频数据、所述第二声道音频数据和所述中心剪切音频数据分别变换成频谱图,
所述音频提取处理将变换后的各个所述频谱图输入到所述训练后的机器训练模型中,并且提取所述伴奏声音和所述声乐声音中的某一方。


3.根据权利要求1所述的音频提取装置,其中,
所述预处理将所述第一声道音频数据、所述第二声道音频数据和所述中心剪切音频数据分别变换为作为多维数据的第一多维数据,所述多维数据的至少第一轴对应于时间且第二轴对应于与声音的频率有关的声音信息,
所述音频提取处理将变换后的所述第一多维数据输入到所述训练后的机器训练模型中,取得与所述伴奏声音和所述声乐声音中的某一方对应的作为所述多维数据的第二多维数据,将取得的所述第二多维数据变换为与所述伴奏声音和所述声乐声音中的某一方对应而不混合所述伴奏声音和所述声乐声音的音频数据。


4.根据权利要求1~3中任一项所述的音频提取装置,其中,
通过所述减法处理从所述立体声音源中消除或减少所述第一声道音频数据和所述第二声道音频数据的频域的中心周围的音频成分,来生成所述中心剪切音频数据。


5.根据权利要求1~3中任一项所述的音频提取装置,其中,
所述预处理包含从所述立体声音源分离所述第一声道音频数据和所述第二声道音频数据的处理。


6.根据权利要求2记载的音频提取装置,其中,
所述训练后的机器训练模型是以如下方式被机器训练而得的模型,所述方式是输入对应于所述第一声道音频数据的频谱图、对应于所述第二声道音频数据的频谱图、以及对应于所述中心剪切音频数据的频谱图,并输出与所述伴奏声音和所述声乐声音中的某一方对应而不混合所述伴奏声音和所述声乐声音的频谱图。


7.一种音频再现装置,具有控制部,所述控制部执行:
预处理,将包含伴奏声音和声乐声音的音频数据变换为第一多维数据,所述第一多维数据的至少第一轴对应于时间且第二轴对应于与声音的频率有关的声音信息;
伴奏声音提取处理,将变换后的所述第一多维数据输入到神经网络中,取得第二多维数据,所述神经网络以输入与混合有伴奏声音和声乐声音的音频数据对应的多维数据,并输出与包含所述伴奏声音而不混合所述声乐声音的音频数据对应的多维数据的方式被训练;以及
再现处理,将取得的所述第二多维数据变换为包含所述伴奏声音而不混合所述声乐声音的第二音频数据,并且再现变换后的所述第二音频数据。


8.根据权利要求7所述的音频再现装置,其中,
所述再现处理将歌词与所述伴奏声音同步地显示。


9.一种音频提取方法,具有:
预处理步骤,处理器针对包含第一声道音频数据和第二声道音频数据的立体声音源,对所述第一声道音频数据和所述第二声道音频数据执行减法处理,生成中心剪切音频数据,所述第一声道音频数据包含用于第一声道的伴奏声音和声乐声音,所述第二声道音频数据包含用于第二声道的伴奏声音和声乐声音;以及
音频提取处理步骤,所述处理器通过训练后的机器训练模型从...

【专利技术属性】
技术研发人员:日暮大辉
申请(专利权)人:卡西欧计算机株式会社
类型:发明
国别省市:日本;JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1