当前位置: 首页 > 专利查询>北京大学专利>正文

一种三维音频信号的处理方法和装置制造方法及图纸

技术编号:37246407 阅读:11 留言:0更新日期:2023-04-20 23:26
本申请实施例公开了一种三维音频信号的处理方法和装置,用于实现对三维音频信号的声场分类,从而可以准确识别三维音频信号。本申请实施例提供一种三维音频信号的处理方法,包括:对三维音频信号的当前帧进行线性分解,以得到线性分解结果;根据所述线性分解结果获取所述当前帧对应的声场分类参数;根据所述声场分类参数确定所述当前帧的声场分类结果。分类参数确定所述当前帧的声场分类结果。分类参数确定所述当前帧的声场分类结果。

【技术实现步骤摘要】
一种三维音频信号的处理方法和装置


[0001]本申请涉及音频处理
,尤其涉及一种三维音频信号的处理方法和装置。

技术介绍

[0002]三维音频技术在无线通信语音、虚拟现实/增强现实和媒体音频等方面得到了广泛应用。三维音频技术是对真实世界中的声音事件和三维声场信息进行获取、处理、传输和渲染回放的音频技术。三维音频技术使声音具有强烈的空间感、包围感及沉浸感,给人以“声临其境”的非凡听觉体验。高阶立体混响(higher order ambisonics,HOA)技术具有在录制、编码与回放阶段与扬声器布局无关的性质和HOA格式数据的可旋转回放特性,在进行三维音频回放时具有更高的灵活性,因而也得到了更为广泛的关注和研究。
[0003]采集设备(如麦克风)采集大量的数据记录三维声场信息,向回放设备(例如扬声器,耳机等)传输三维音频信号,以便于回放设备播放三维音频信号。由于三维声场信息的数据量较大,导致需要大量的存储空间存储数据,以及传输三维音频信号的带宽需求较高。为了解决上述问题,可以对三维音频信号进行压缩,存储或传输压缩数据。
[0004]目前,编码器可以采用预先配置的多个虚拟扬声器对三维音频信号进行编码,但是在编码器对三维音频信号进行编码之前,无法对三维音频信号进行分类,存在无法有效识别三维音频信号的问题。

技术实现思路

[0005]本申请实施例提供了一种三维音频信号的处理方法和装置,用于实现对三维音频信号的声场分类,从而可以准确识别三维音频信号。
[0006]为解决上述技术问题,本申请实施例提供以下技术方案:
[0007]第一方面,本申请实施例提供一种三维音频信号的处理方法,包括:对三维音频信号的当前帧进行线性分解,以得到线性分解结果;根据所述线性分解结果获取所述当前帧对应的声场分类参数;根据所述声场分类参数确定所述当前帧的声场分类结果。在上述方案中,首先对三维音频信号的当前帧进行线性分解,以得到线性分解结果;然后根据线性分解结果获取当前帧对应的声场分类参数;最后根据声场分类参数确定当前帧的声场分类结果。由于本申请实施例中通过对三维音频信号的当前帧进行线性分解,获得了当前帧的线性分解结果,再通过该线性分解结果获取到当前帧对应的声场分类参数,因此通过该声场分类参数确定出了当前帧的声场分类结果,通过该声场分类结果可对当前帧实现声场分类。本申请实施例对三维音频信号的声场分类,从而可以准确识别三维音频信号。
[0008]在一种可能的实现方式中,所述三维音频信号包括:高阶立体混响HOA信号,或者一阶立体混响FOA信号。
[0009]在一种可能的实现方式中,所述对所述三维音频信号的当前帧进行线性分解,以得到线性分解结果,包括:对所述当前帧进行奇异值分解,以得到所述当前帧对应的奇异值,其中,所述线性分解结果包括:所述奇异值;或者,对所述当前帧进行主成分分析,以得
到所述当前帧对应的第一特征值,其中,所述线性分解结果包括:所述第一特征值;或者,对所述当前帧进行独立成分分析,以得到所述当前帧对应的第二特征值,其中,所述线性分解结果包括:所述第二特征值。在上述方案中,线性分解可以是奇异值分解。线性分解也可以是主成分分析,得到特征值,线性分解还可以是独立成分分析,得到第二特征值。通过上述三种的任意一种方式,都可以实现对当前帧的线性分解,为后续进行声道判断提供线性分析结果。
[0010]在一种可能的实现方式中,所述线性分解结果为多个,所述声场分类参数为多个;所述根据所述线性分解结果获取所述当前帧对应的声场分类参数,包括:获取所述当前帧的第i个线性分析结果与所述当前帧的第i+1个线性分析结果的比值,所述i为正整数;根据所述比值获取所述当前帧对应的第i个声场分类参数。
[0011]进一步的,所述第i个线性分析结果和所述第i+1个线性分析结果是所述当前帧的连续两个线性分析结果。
[0012]在上述方案中,编码端可以根据线性分解结果计算得到当前帧对应的声场分类参数。例如当前帧的线性分解结果为多个,多个线性分析结果中连续两个线性分析结果表示为第i个线性分析结果与当前帧的第i+1个线性分析结果,则可以计算出当前帧的第i个线性分析结果与当前帧的第i+1个线性分析结果的比值,对于i的具体取值不做限定。在获取到上述比值之后,使用该第i个线性分析结果与当前帧的第i+1个线性分析结果的比值可以获取到当前帧对应的第i个声场分类参数。
[0013]在一种可能的实现方式中,所述声场分类参数为多个;所述声场分类结果包括:声场类型;所述根据所述声场分类参数确定所述当前帧的声场分类结果,包括:当所述多个声场分类参数的值都满足预设的弥散性声源判决条件时,确定所述声场类型为弥散性声场;或者,当所述多个声场分类参数的值中至少一个值满足预设的相异性声源判决条件时,确定所述声场类型为相异性声场。在上述方案中,声场类型可以包括相异性声场和弥散性声场,本申请实施例中预设弥散性声源判决条件和相异性声源判决条件,弥散性声源判决条件用于判断声场类型是否为弥散性声场,相异性声源判决条件用于判断声场类型是否为相异性声场。在获取到当前帧的多个声场分类参数之后,根据多个声场分类参数的值与预设的上述条件进行判断。
[0014]在一种可能的实现方式中,所述弥散性声源判决条件包括:所述声场分类参数的值小于预设的相异性声源判定阈值;或者,所述相异性声源判决条件包括:所述声场分类参数的值大于或者等于预设的相异性声源判定阈值。在上述方案中,相异性声源判定阈值可以是预先设定的阈值,具体取值不做限定。弥散性声源判决条件包括:声场分类参数的值小于预设的相异性声源判定阈值,因此在多个声场分类参数的值都小于预设的相异性声源判定阈值时,确定声场类型为弥散性声场。相异性声源判决条件包括:声场分类参数的值大于或者等于预设的相异性声源判定阈值,因此多个声场分类参数的值中至少一个值大于或者等于预设的相异性声源判定阈值时,确定声场类型为相异性声场。
[0015]在一种可能的实现方式中,所述声场分类参数为多个;所述声场分类结果包括:声场类型;或者,所述声场分类结果包括:相异性声源数量和声场类型;所述根据所述声场分类参数确定所述当前帧的声场分类结果,包括:根据所述多个声场分类参数的值获取所述当前帧对应的相异性声源数量;根据所述当前帧对应的相异性声源数量确定所述声场类
型。在上述方案中,编码端获取到当前帧对应的多个生成分类参数之后,编码端可以通过多个声场分类参数的值获取当前帧对应的相异性声源数量,相异性声源是位置和/方向不相同的点声源,当前帧中包括的相异性声源的数量被称为相异性声源数量。通过相异性声源数量可以对当前帧的声场进行分类。在获取到当前帧对应的相异性声源数量确定声场类型之后,通过对当前帧对应的相异性声源数量进行分析,可以确定出该当前帧对应的声场类型。
[0016]在一种可能的实现方式中,所述声场分类参数为多个;所述声场分类结果包括:相异性声源数量;所述根据所述声场分类参数确定所述当前帧的声场分类结果,包括:根据所述多个声场分类参数本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种三维音频信号的处理方法,其特征在于,包括:对三维音频信号的当前帧进行线性分解,以得到线性分解结果;根据所述线性分解结果获取所述当前帧对应的声场分类参数;根据所述声场分类参数确定所述当前帧的声场分类结果。2.根据权利要求1所述的方法,其特征在于,所述三维音频信号包括:高阶立体混响HOA信号,或者一阶立体混响FOA信号。3.根据权利要求1或2所述的方法,其特征在于,所述对所述三维音频信号的当前帧进行线性分解,以得到线性分解结果,包括:对所述当前帧进行奇异值分解,以得到所述当前帧对应的奇异值,其中,所述线性分解结果包括:所述奇异值;或者,对所述当前帧进行主成分分析,以得到所述当前帧对应的第一特征值,其中,所述线性分解结果包括:所述第一特征值;或者,对所述当前帧进行独立成分分析,以得到所述当前帧对应的第二特征值,其中,所述线性分解结果包括:所述第二特征值。4.根据权利要求1至3中任一项所述的方法,其特征在于,所述线性分解结果为多个,所述声场分类参数为多个;所述根据所述线性分解结果获取所述当前帧对应的声场分类参数,包括:获取所述当前帧的第i个线性分析结果与所述当前帧的第i+1个线性分析结果的比值,其中,所述i为正整数;根据所述比值获取所述当前帧对应的第i个声场分类参数。5.根据权利要求1至4中任一项所述的方法,其特征在于,所述声场分类参数为多个;所述声场分类结果包括:声场类型;所述根据所述声场分类参数确定所述当前帧的声场分类结果,包括:当所述多个声场分类参数的值都满足预设的弥散性声源判决条件时,确定所述声场类型为弥散性声场;或者,当所述多个声场分类参数的值中至少一个值满足预设的相异性声源判决条件时,确定所述声场类型为相异性声场。6.根据权利要求5所述的方法,其特征在于,所述弥散性声源判决条件包括:所述声场分类参数的值小于预设的相异性声源判定阈值;或者,所述相异性声源判决条件包括:所述声场分类参数的值大于或者等于预设的相异性声源判定阈值。7.根据权利要求1至4中任一项所述的方法,其特征在于,所述声场分类参数为多个;所述声场分类结果包括:声场类型;或者,所述声场分类结果包括:相异性声源数量和声场类型;所述根据所述声场分类参数确定所述当前帧的声场分类结果,包括:
根据所述多个声场分类参数的值获取所述当前帧对应的相异性声源数量;根据所述当前帧对应的相异性声源数量确定所述声场类型。8.根据权利要求1至4中任一项所述的方法,其特征在于,所述声场分类参数为多个;所述声场分类结果包括:相异性声源数量;所述根据所述声场分类参数确定所述当前帧的声场分类结果,包括:根据所述多个声场分类参数的值获取所述当前帧对应的相异性声源数量。9.根据权利要求7或8所述的方法,其特征在于,所述多个声场分类参数为temp[i],所述i=0,1,

,min(L,K)

2,所述L表示所述当前帧的通道数量,所述K为所述当前帧的每个通道对应的信号点数,所述min表示取最小值运算;所述根据所述多个声场分类参数的值获取所述当前帧对应的相异性声源数量,包括:从i=0开始依次执行如下判断流程:判断所述temp[i]是否大于预设的相异性声源判定阈值;当本次判断流程中所述temp[i]小于所述相异性声源判定阈值时,更新i的取值为i+1,继续执行下次判断流程;或者,当本次判断流程中所述temp[i]大于或等于所述相异性声源判定阈值时,终止执行判断流程,确定本次判断流程的i加上1等于所述相异性声源数量。10.根据权利要求7所述的方法,其特征在于,所述根据所述当前帧对应的相异性声源数量确定所述声场类型,包括:当所述相异性声源数量满足第一预设条件时,确定所述声场类型为第一声场类型;当所述相异性声源数量不满足所述第一预设条件时,确定所述声场类型为第二声场类型;其中,所述第一声场类型对应的相异性声源数量和所述第二声场类型对应的相异性声源数量不同。11.根据权利要求10所述的方法,其特征在于,所述第一预设条件包括所述相异性声源数量大于第一阈值且小于第二阈值,其中,所述第二阈值大于所述第一阈值;或者,所述第一预设条件包括所述相异性声源数量不大于第一阈值或不小于第二阈值,其中,所述第二阈值大于所述第一阈值。12.根据权利要求1至11中任一项所述的方法,其特征在于,所述方法还包括:根据所述声场分类结果确定所述当前帧对应的编码模式。13.根据权利要求12所述的方法,其特征在于,所述根据所述声场分类结果确定所述当前帧对应的编码模式,包括:当所述声场分类结果包括相异性声源数量,或所述声场分类结果包括相异性声源数量和声场类型时,根据所述相异性声源数量确定所述当前帧对应的编码模式;或者,当所述声场分类结果包括声场类型,或所述声场分类结果包括相异性声源数量和声场类型时,根据所述声场类型确定所述当前帧对应的编码模式;或者,当所述声场分类结果包括相异性声源数量和声场类型时,根据所述相异性声源数量和
所述声场类型确定所述当前帧对应的编码模式。14.根据权利要求13所述的方法,其特征在于,所述根据所述相异性声源数量确定所述当前帧对应的编码模式包括:当所述相异性声源数量满足第二预设条件时,确定所述编码模式为第一编码模式;当所述相异性声源数量不满足所述第二预设条件时,确定所述编码模式为第二编码模式;其中,所述第一编码模式为基于虚拟扬声器选择的HOA编码模式或基于方向音频编码的HOA编码模式,所述第二编码模式为基于虚拟扬声器选择的HOA编码模式或基于方向音频编码的HOA编码模式,且所述第一编码模式和所述第二编码模式为不同的编码模式。15.根据权利要求14所述的方法,其特征在于,所述第二预设条件包括所述相异性声源数量大于第一阈值且小于第二阈值,其中,所述第二阈值大于所述第一阈值;或,所述第二预设条件包括所述相异性声源数量不大于第一阈值或不小于第二阈值,其中,所述第二阈值大于所述第一阈值。16.根据权利要求13所述的方法,其特征在于,所述根据所述声场类型确定所述当前帧对应的编码模式,包括:当所述声场类型为相异性声场时,确定所述编码模式为基于虚拟扬声器选择的HOA编码模式;当所述声场类型为弥散性声场时,确定所述编码模式为基于方向音频编码的HOA编码模式。17.根据权利要求12所述的方法,其特征在于,所述根据所述声场分类结果确定所述当前帧对应的编码模式,包括:根据所述当前帧的声场分类结果确定所述当前帧对应的初始编码模式;获取所述当前帧所在的滑动窗,所述滑动窗包括:所述当前帧的初始编码模式,以及所述当前帧之前的N

1帧的编码模式,所述N为所述滑动窗的长度;根据所述滑动窗内当前帧的初始编码模式和所述N

1帧的编码模式确定所述当前帧的编码模式。18.根据权利要求1至17中任一项所述的方法,其特征在于,所述方法还包括:根据所述声场分类结果确定所述当前帧对应的编码参数。19.根据权利要求18所述的方法,其特征在于,所述编码参数,包括如下至少一种:虚拟扬声器信号的通道数、残差信号的通道数、虚拟扬声器信号的编码比特数、残差信号的编码比特数、或最佳匹配扬声器搜索的投票轮次数;其中,所述虚拟扬声器信号和所述残差信号是根据所述三维音频信号生成的。20.根据权利要求19所述的方法,其特征在于,所述投票轮次数满足如下关系:1≤I≤d,其中,所述I为所述投票轮次数,所述d为所述声场分类结果包括的相异性声源数量。21.根据权利要求19或20所述的方法,其特征在于,所述声场分类结果包括相异性声源数量和声场类型;当所述声场类型为相异性声场时,所述虚拟扬声器信号的通道数满足如下关系:F=min(S,PF),
其中,所述F为所述虚拟扬声器信号的通道数,所述S为所述相异性声源数量,所述PF为编码器预设的虚拟扬声器信号通道数;或,当所述声场类型为弥散性声场时,所述虚拟扬声器信号的通道数满足如下关系:F=1,其中,所述F为所述虚拟扬声器信号的通道数。22.根据权利要求19至21任一项所述的方法,其特征在于,当所述声场类型为弥散性声场时,所述残差信号的通道数满足如下关系:R=max(C

1,PR),其中,所述PR为编码器预设的残差信号通道数,所述C为所述编码器预设的残差信号的通道数和所述编码器预设的虚拟扬声器信号通道数之和;或,当所述声场类型为相异性声场时,所述残差信号的通道数满足如下...

【专利技术属性】
技术研发人员:高原刘帅王宾王喆曲天书徐佳浩
申请(专利权)人:北京大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1