信号处理装置和方法、学习装置和方法以及程序制造方法及图纸

技术编号:37396053 阅读:24 留言:0更新日期:2023-04-27 07:33
本技术涉及信号处理装置和方法、学习装置和方法、以及程序,这使的使用甚至廉价的装置也能够以高质量执行音频播放。该信号处理装置包括:解码处理单元,将输入比特流解复用为第一音频信号、第一音频信号的元数据和用于扩展频带的第一高频带信息;频带扩展单元,基于第二音频信号和第二高频带信息执行频带扩展处理,并且由此生成输出音频信号,通过基于第一音频信号和元数据执行信号处理来获得第二音频信号,基于第一高频带信息生成第二高频带信息。本技术可以应用于智能电话。本技术可以应用于智能电话。本技术可以应用于智能电话。

【技术实现步骤摘要】
【国外来华专利技术】信号处理装置和方法、学习装置和方法以及程序


[0001]本技术涉及信号处理装置和方法、学习装置和方法以及程序,具体地,涉及甚至使用廉价的装置能够执行高质量的音频播放的信号处理装置和方法、学习装置和方法、以及程序。

技术介绍

[0002]在现有技术中,对象音频技术用于电影、游戏等中,并且还开发了用于处理对象音频的编码方案。具体地,运动图像专家组(MPEG)

H部分3:3D音频标准(例如,其为国际标准)是已知的(例如,参见非专利文献1)。
[0003]在这种编码方案中,如同常规的双声道立体声方案或5.1声道等的多声道立体声方案,可以将移动声源等处理为独立的音频对象(在下文中,也简称为对象),并且将对象的位置信息与音频对象的信号数据一起编码为元数据。
[0004]因此,能够在扬声器的数量和布置不同的各种视听环境中执行播放。此外,能够在播放时处理来自特定声源的声音,诸如调整来自特定声源的声音的音量以及向来自特定声源的声音添加效果,这在传统的编码方案中是困难的。
[0005]在这种编码方案中,在解码侧上解码比特流,并且获得作为对象的音频信号的对象信号以及包括指示对象在空间中的位置的对象位置信息的元数据。
[0006]然后,基于对象位置信息执行将对象信号渲染到虚拟布置在空间中的多个虚拟扬声器中的每个的渲染处理。在非专利文献1的标准中,例如,称为基于三维向量的振幅平移(在下文中,简称为VBAP)的方案用于渲染处理。
[0007]此外,一旦通过渲染处理获得与每个虚拟扬声器相对应的虚拟扬声器信号,基于虚拟扬声器信号执行头相关传输函数(HRTF)处理。在HRTF处理中,生成用于从实际耳机和扬声器输出声音的输出音频信号,如同声音被虚拟扬声器播放。
[0008]在这样的对象音频被实际播放,并且可以在空间中布置大量实际扬声器的情况下,执行基于虚拟扬声器信号的播放。此外,当不能布置许多扬声器并且通过诸如耳机和条形声箱的少量扬声器播放对象音频时,执行基于前述输出音频信号的播放。
[0009]另一方面,近年来存储价格的降低和网络带宽的增加已经使得能够享受所谓的高分辨率声源,即,具有等于或大于96kHz的采样频率的高分辨率声源。
[0010]根据在非专利文献1中描述的编码方案,可以使用诸如频带复制(SBR)的技术作为用于有效地对高分辨率声源进行编码的技术。
[0011]在SBR中,例如,以与高频子频带的数目相对应的量对高频子频带信号的平均振幅信息进行编码,并且然后在不编码频谱的高频分量的情况下在编码侧发送该高频子频带信号的平均振幅信息。
[0012]然后,在解码侧上,基于低频子频带信号和高频带的平均振幅信息生成包括低频分量和高频分量的最终输出信号。因此,可以实现更高质量的音频播放。
[0013]在该方法中,使用视听特性,即,人类对高频信号分量的相位的变化不敏感并且在
其频域包络的轮廓接近其原始信号的情况下不能感知差异,并且通常,这种方法被称为频带扩展技术。
[0014][引用列表][0015][非专利文献][0016][非专利文献1][0017]国际标准ISO/IEC 23008

3第二版2019

02
[0018]Information technology

High efficiency coding and media delivery in heterogeneous environments

Part 3:3D audio。

技术实现思路

[0019][技术问题][0020]顺便提及,在结合渲染处理和HRTF处理对前述对象音频执行频带扩展的情况下,对每个对象的对象信号执行频带扩展处理,然后对其执行渲染处理或HRTF处理。
[0021]在这种情况下,频带扩展处理被独立地执行的次数对应于对象数量,并且处理负荷(即,算术运算量)因此增加。此外,由于在频带扩展处理之后对通过频带扩展获得的具有较高采样频率的信号作为对象执行渲染处理或HRTF处理,因此处理负荷进一步增加。
[0022]因此,诸如廉价的处理器或电池之类的设备的廉价装置(即,具有低算术运算能力的设备、具有低电池容量的设备等)不能执行频带扩展,结果,不能执行高质量的音频播放。
[0023]鉴于这种情况做出本技术,并且其目的是甚至使廉价装置能够以高质量执行音频播放。
[0024][问题的解决方案][0025]根据本技术的第一方面的信号处理装置包括:解码处理单元,将输入比特流解复用为第一音频信号、第一音频信号的元数据和用于扩展频带的第一高频带信息;以及频带扩展单元,基于第二音频信号和第二高频带信息执行频带扩展处理,并且由此生成输出音频信号,通过基于第一音频信号和元数据执行信号处理来获得第二音频信号,基于第一高频带信息生成第二高频带信息。
[0026]根据本技术的第一方面的信号处理方法或程序包括以下步骤:将输入比特流解复用为第一音频信号、第一音频信号的元数据以及用于扩展频带的第一高频带信息;以及基于第二音频信号和第二高频带信息执行频带扩展处理,并且由此生成输出音频信号,通过基于第一音频信号和元数据执行信号处理来获得第二音频信号,基于第一高频带信息生成第二高频带信息。
[0027]在本技术的第一方面中,将输入比特流解复用为第一音频信号、第一音频信号的元数据以及用于扩展频带的第一高频带信息,基于第二音频信号和第二高频带信息执行频带扩展处理,并且由此生成输出音频信号,通过基于第一音频信号和元数据执行信号处理获得第二音频信号,基于第一高频带信息生成第二高频带信息。
[0028]根据本技术的第二方面的学习装置包括:第一高频带信息计算单元,基于通过基于第一音频信号和第一系数的信号处理生成的第二音频信号生成用于扩展频带的第一高频带信息;第二高频带信息计算单元,基于根据第一音频信号和第二系数的信号处理生成的第三音频信号来生成用于扩展频带的第二高频带信息;以及高频带信息学习单元,基于
第一系数、第二系数、第一高频带信息和第二高频带信息,使用第二高频带信息作为训练数据执行学习,并且生成用于从第一系数、第二系数和第一高频带信息获得第二高频带信息的系数数据。
[0029]根据本技术的第二方面的学习方法或程序包括以下步骤:基于通过基于第一音频信号和第一系数的信号处理生成的第二音频信号生成用于扩展频带的第一高频带信息;基于通过基于第一音频信号和第二系数的信号处理生成的第三音频信号生成用于扩展频带的第二高频带信息;以及基于第一系数、第二系数、第一高频带信息和第二高频带信息,使用第二高频带信息作为训练数据执行学习,从而生成用于从第一系数、第二系数和第一高频带信息获得第二高频带信息的系数数据。
[0030]在本技术的第二方面中,基于通过基于第一音频信号和第一系数的信号处理生成的第二音频信号来生成用于扩展频带的第一高频带信息,基于通过基于第一音频信号和第二系数的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种信号处理装置,包括:解码处理单元,将输入比特流解复用为第一音频信号、所述第一音频信号的元数据和用于扩展频带的第一高频带信息;以及频带扩展单元,基于第二音频信号和第二高频带信息执行频带扩展处理,并且由此生成输出音频信号,通过基于所述第一音频信号和所述元数据执行信号处理来获得所述第二音频信号,基于所述第一高频带信息生成所述第二高频带信息。2.根据权利要求1所述的信号处理装置,进一步包括:高频带信息生成单元,基于所述第一高频带信息生成所述第二高频带信息。3.根据权利要求2所述的信号处理装置,其中,所述第一高频带信息是用于扩展通过使用第一系数执行信号处理而获得的所述第二音频信号的频带的高频带信息,所述第二高频带信息是用于扩展通过使用第二系数执行信号处理而获得的所述第二音频信号的频带的高频带信息,并且所述频带扩展单元基于所述第二音频信号和所述第二高频带信息执行频带扩展处理,通过基于所述第一音频信号、所述元数据和所述第二系数执行信号处理来获得所述第二音频信号。4.根据权利要求3所述的信号处理装置,其中,所述高频带信息生成单元基于所述第一高频带信息、所述第一系数和所述第二系数生成所述第二高频带信息。5.根据权利要求3所述的信号处理装置,其中,所述高频带信息生成单元通过基于通过机器学习预先生成的系数、所述第一高频带信息、所述第一系数和所述第二系数执行算术运算来生成所述第二高频带信息。6.根据权利要求5所述的信号处理装置,其中,所述算术运算是基于神经网络的算术运算。7.根据权利要求3所述的信号处理装置,其中,所述第一系数是通用系数,而所述第二系数是每个用户的系数。8.根据权利要求7所述的信号处理装置,其中,所述第一系数和所述第二系数是HRTF系数。9.根据权利要求1所述的信号处理装置,进一步包括:信号处理单元,通过执行信号处理生成所述第二音频信号。10.根据权利要求9所述的信号处理装置,其中,所述信号处理是包括虚拟化处理或渲染处理的处理。11.根据权利要求1所述的信号处理装置,其中,所述第一音频信号是音频对象的对象信号或基于声道的音频信号。12.一种信号处理方法,包括通过信号处理装置执行以下:将输入比特流解复用为第一音频信号、所述第一音频信号的元数据和用于扩展频带的第一高频带信息;以及基于第二音频信号和第二高频带信息执行频带扩展处理,并且由此生成输出音频信号,通过基于所述第一音频信号和所述元数据执行信号处理来获得所述第二音频信号,基于所述第一高频带信息生成所述第二高频带信息。
13.一种使计算机执行处理的程序,所述处理包括以下步骤:将输入比特流解复用为第一音频信号、所述第一音频信号的...

【专利技术属性】
技术研发人员:本间弘幸知念彻河野明文
申请(专利权)人:索尼集团公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1