【技术实现步骤摘要】
音频提取装置、机器训练装置、卡拉OK装置
本专利技术涉及一种音响处理技术。
技术介绍
传统上,存在一种电子键盘乐器,其点亮嵌入在键盘中的LED(发光二极管)以指示键被按下,该LED对应于基于标准MIDI文件(SMF)等的MIDI(音乐设备数字接口)的乐曲数据的特定片段(part)诸如旋律部分等的音高(pitch)。在这样的电子键盘乐器中,通过使键发光,能够实现指示用户希望弹奏的乐曲的旋律的练习功能。如SMF这样的附加了声道编号的MIDI数据那样,代码按时间序列排列的数据中,可以提取特定的片段,向用户提示该片段的旋律音高、音长等。在以压缩光盘(CD)或mp3等为代表的一般的音乐音响信号中混合有伴奏或旋律,难以从其中仅分离出特定的片段、例如难以仅分离出伴奏。另一方面,已知有通过将市场上销售的音乐CD中包含的伴奏声音与声乐声音(vocalvoice)分离而生成卡拉OK用音频数据的技术。专利文献1:日本特开2006-195385然而,在被表示为MP3格式数据的一般的音响信号和音频数据中,各乐器和声乐语音处于混合的状态,难以从这样的数据中分离出特定片段(例如,声乐片段),并且也难以提取该特定片段的音高。另一方面,正在积极进行使用神经网络等的机器训练的人工智能的研究开发。例如,已经研究和开发了使用神经网络的音响处理技术。然而,仍然难以更有效地分离特定的乐器声音或声乐声音等,这样的声音除声音的高低之外还表示出乐器类型或人(或个人)特有的频率分布。另外,在现有技术中,根据伴奏声 ...
【技术保护点】
1.一种音频提取装置,具有控制部,所述控制部执行:/n预处理,针对包含第一声道音频数据和第二声道音频数据的立体声音源,对所述第一声道音频数据和所述第二声道音频数据执行减法处理,生成中心剪切音频数据,所述第一声道音频数据包含用于第一声道的伴奏声音和声乐声音,所述第二声道音频数据包含用于第二声道的伴奏声音和声乐声音;以及/n音频提取处理,通过向训练后的机器训练模型输入所述第一声道音频数据、所述第二声道音频数据和所述中心剪切音频数据,来提取所述伴奏声音和所述声乐声音中的某一方。/n
【技术特征摘要】
20180625 JP 2018-1202361.一种音频提取装置,具有控制部,所述控制部执行:
预处理,针对包含第一声道音频数据和第二声道音频数据的立体声音源,对所述第一声道音频数据和所述第二声道音频数据执行减法处理,生成中心剪切音频数据,所述第一声道音频数据包含用于第一声道的伴奏声音和声乐声音,所述第二声道音频数据包含用于第二声道的伴奏声音和声乐声音;以及
音频提取处理,通过向训练后的机器训练模型输入所述第一声道音频数据、所述第二声道音频数据和所述中心剪切音频数据,来提取所述伴奏声音和所述声乐声音中的某一方。
2.根据权利要求1所述的音频提取装置,其中,
所述预处理将所述第一声道音频数据、所述第二声道音频数据和所述中心剪切音频数据分别变换成频谱图,
所述音频提取处理将变换后的各个所述频谱图输入到所述训练后的机器训练模型中,并且提取所述伴奏声音和所述声乐声音中的某一方。
3.根据权利要求1所述的音频提取装置,其中,
所述预处理将所述第一声道音频数据、所述第二声道音频数据和所述中心剪切音频数据分别变换为作为多维数据的第一多维数据,所述多维数据的至少第一轴对应于时间且第二轴对应于与声音的频率有关的声音信息,
所述音频提取处理将变换后的所述第一多维数据输入到所述训练后的机器训练模型中,取得与所述伴奏声音和所述声乐声音中的某一方对应的作为所述多维数据的第二多维数据,将取得的所述第二多维数据变换为与所述伴奏声音和所述声乐声音中的某一方对应而不混合所述伴奏声音和所述声乐声音的音频数据。
4.根据权利要求1~3中任一项所述的音频提取装置,其中,
通过所述减法处理从所述立体声音源中消除或减少所述第一声道音频数据和所述第二声道音频数据的频域的中心周围的音频成分,来生成所述中心剪切音频数据。
5.根据权利要求1~3中任一项所述的音频提取装置,其中,
所述预处理包含从所述立体声音源分离所述第一声道音频数据和所述第二声道音频数据的处理。
6.根据权利要求2记载的音频提取装置,其中,
所述训练后的机器训练模型是以如下方式被机器训练而得的模型,所述方式是输入对应于所述第一声道音频数据的频谱图、对应于所述第二声道音频数据的频谱图、以及对应于所述中心剪切音频数据的频谱图,并输出与所述伴奏声音和所述声乐声音中的某一方对应而不混合所述伴奏声音和所述声乐声音的频谱图。
7.一种音频再现装置,具有控制部,所述控制部执行:
预处理,将包含伴奏声音和声乐声音的音频数据变换为第一多维数据,所述第一多维数据的至少第一轴对应于时间且第二轴对应于与声音的频率有关的声音信息;
伴奏声音提取处理,将变换后的所述第一多维数据输入到神经网络中,取得第二多维数据,所述神经网络以输入与混合有伴奏声音和声乐声音的音频数据对应的多维数据,并输出与包含所述伴奏声音而不混合所述声乐声音的音频数据对应的多维数据的方式被训练;以及
再现处理,将取得的所述第二多维数据变换为包含所述伴奏声音而不混合所述声乐声音的第二音频数据,并且再现变换后的所述第二音频数据。
8.根据权利要求7所述的音频再现装置,其中,
所述再现处理将歌词与所述伴奏声音同步地显示。
9.一种音频提取方法,具有:
预处理步骤,处理器针对包含第一声道音频数据和第二声道音频数据的立体声音源,对所述第一声道音频数据和所述第二声道音频数据执行减法处理,生成中心剪切音频数据,所述第一声道音频数据包含用于第一声道的伴奏声音和声乐声音,所述第二声道音频数据包含用于第二声道的伴奏声音和声乐声音;以及
音频提取处理步骤,所述处理器通过训练后的机器训练模型从...
【专利技术属性】
技术研发人员:日暮大辉,
申请(专利权)人:卡西欧计算机株式会社,
类型:发明
国别省市:日本;JP
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。