音频的双耳化的操控制造技术

技术编号：33518190 阅读：78 留言：0更新日期：2022-05-19 01:26

本公开提供一种用于操控音频的双耳化的方法。所述方法包括以下步骤：接收(410)音频输入信号，计算(430)指示所述音频输入信号的当前音频帧包括经双耳化音频的可能性的置信度值；基于所述置信度值来确定(450)状态信号；基于所述第一置信度值、所述状态信号及所述音频帧的能量值来确定(460)操控信号；及通过根据所述操控信号处理所述音频输入信号来产生(470)具有经操控双耳化的音频输出信号。(470)具有经操控双耳化的音频输出信号。(470)具有经操控双耳化的音频输出信号。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】音频的双耳化的操控
[0001]相关申请案的交叉参考
[0002]本申请案主张2019年8月19日申请的第PCT/CN2019/101291号国际专利申请案；2019年9月5日申请的第62/896,321号美国临时专利申请案；2019年12月19日申请的第19218142.8号欧洲专利申请案；及2020年1月2日申请的第62/956,424号美国临时专利申请案的优先权，所述申请案以引用的方式并入本文中。

[0003]本公开涉及操控音频的双耳化的领域。特定来说，本公开涉及一种用于操控音频的双耳化的方法、非暂时性计算机可读媒体及系统。

技术介绍

[0004]现今，将空间音频技术实施到音频内容中以提供沉浸式用户体验是常见的。最常见技术之一是双耳化。双耳化使用头部相关传递函数HRTF以产生虚拟音频场景，所述虚拟音频场景可由耳机或扬声器来再现。双耳化也可被称为虚拟化。通过双耳化方法产生的音频可被称为经双耳化音频或经虚拟化音频。
[0005]随着消费者娱乐装置，例如智能电话、平板计算机、PC等的兴起，电子游戏变得...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于操控音频的双耳化的方法，所述方法包括以下步骤：接收(410)音频输入信号，所述音频输入信号包括多个音频帧；计算(430)指示所述音频输入信号的当前音频帧包括经双耳化音频的可能性的置信度值；基于所述置信度值来确定(450)状态信号，所述状态信号指示所述当前音频帧是处于未经双耳化状态还是处于经双耳化状态；确定(460)操控信号，其中在所述状态信号从指示所述未经双耳化状态改变为指示所述经双耳化状态时：通过对所述音频输入信号应用头部相关传递函数HRTF来改变所述操控信号以激活音频的双耳化，从而导致经双耳化音频信号，及产生(470)至少部分地包括所述经双耳化音频信号的音频输出信号；其中在所述状态信号从指示所述经双耳化状态改变为指示所述未经双耳化状态时，将双耳化的取消激活模式设置为真；及在所述双耳化的所述取消激活模式为真，且所述当前音频帧的所述置信度值低于取消激活阈值，且所述当前音频帧的能量值低于所述当前音频帧之前的所述音频输入信号的阈值数目个音频帧的能量值时：将所述双耳化的所述取消激活模式设置为假，改变所述操控信号以取消激活或减少音频的双耳化，及产生(470)至少部分地包括所述音频输入信号的所述音频输出信号。2.根据权利要求1所述的方法，其中在改变所述操控信号以激活音频的双耳化时，产生所述音频输出信号的所述步骤包括：在第一阈值时间段内，将所述经双耳化音频信号与所述音频输入信号混合成经混合音频信号且将所述经混合音频信号设置为音频输出信号，其中在所述第一阈值时段期间逐渐增加所述经混合音频信号中的所述经双耳化音频信号的一部分，且其中在所述第一阈值时段结束时，所述音频输出信号仅包括所述经双耳化音频信号。3.根据权利要求1到2中任一权利要求所述的方法，其中在改变所述操控信号以取消激活或减少音频的双耳化时，产生所述音频输出信号的所述步骤包括：在第二阈值时间段内，将所述经双耳化音频信号与所述音频输入信号混合成经混合音频信号且将所述经混合音频信号设置为音频输出信号，其中在所述第二阈值时段期间逐渐减小所述经混合音频信号中的所述经双耳化音频信号的一部分，且其中在所述第二阈值时段结束时，所述音频输出信号仅包括所述音频输入信号。4.根据权利要求1所述的方法，其中在改变所述操控信号以激活音频的双耳化时，产生所述音频输出信号的所述步骤包括将所述音频输出信号设置为所述经双耳化音频信号。5.根据权利要求1或4所述的方法，其中在改变所述操控信号以取消激活或减少音频的双耳化时，产生所述音频输出信号的所述步骤包括将所述音频输出信号设置为所述音频输入信号。6.根据权利要求1到5中任一权利要求所述的方法，其中计算置信度值的所述步骤包括提取所述音频输入信号的所述当前音频帧的特征且基于所述经提取特征来计算所述置信度值，所述特征包括以下中的至少一者：
声道间电平差ICLD、声道间相位差ICPD、声道间相干性ICC、中/侧梅尔频率倒谱系数。MFCC及频谱图峰值/陷波特征。7.根据权利要求6所述的方法，其中计算置信度值的所述步骤进一步包括：接收所述当前音频帧之前的所述音频输入信号的多个音频帧的特征，所述特征对应于所述当前音频帧的所述经提取特征；将权重施加到所述音频输入信号的所述当前及所述多个先前音频帧的所述特征，其中施加到所述当前音频帧的所述特征的所述权重大于施加到所述多个先前音频帧的所述特征的所述权重，及基于所述经加权特征来计算所述置信度值。8.根据权利要求7所述的方法，其中计算置信度值的所述步骤进一步包括：根据非对称窗函数来将权重施加到所述音频输入信号的所述当前及所述多个先前音频帧的所述特征。9.根据权利要求8所述的方法，其中非对称窗是汉明窗的前半部。10.根据权利要求7所述的方法，其进一步包括：确定所述当前音频帧及所述多个先前音频帧是否包含类脉冲信号，及如果是这种情况，那么将动态权重施加到所述当前音频帧及所述多个先前音频帧的所述特征，其中所述动态权重是基于帧能量的比。11.根据权利要求10所述的方法，其中所述确定步骤涉及：根据下式来计算每一帧的帧能量比R
i
：其中E
i
是帧i中的所有声道的能量的平均值，及如果R
i
大于第一阈值且E
i
大于第二阈值，那么确定帧i是类脉冲的。12.根据权利要求7到11中任一权利要求所述的方法，其中计算置信度值的所述步骤进一步包括：将所述音频输入信号的所述当前及预定数目个先前音频帧的所述特征累加到加权直方图中，所述加权直方图根据用以计算所述特征的每一子带中的总能量来对那个子带进行加权，及基于所述加权直方图的均值或标准差来计算所述置信度值。13.根据权利要求6到12中任一权利要求所述的方法，其中计算置信度值的所述步骤包括：将所述音频输入信号的所述当前音频帧的经提取特征，及如果被接收到那么将所述当前音频帧之前的所述音频输入信号的多个音频帧的特征输入到机器学习分类器中，其中所述机器学习分类器经训练以基于所述输入来输出置信度值。14.根据前述权利要求中任一权利要求所述的方法，其中计算置信度值的所述步骤包括：接收紧接在所述当前音频帧之前的音频帧的置信度值；使用单极滤波器来调整所述当前音频帧的所述置信度值，其中所述当前音频帧的所述
置信度值及紧接在所述当前音频帧之前的音频帧的所述置信度值是到所述单极滤波器的输入且所述经调整置信度值是来自所述单极滤波器的输出。15.根据前述权利要求中任一权利要求所述的方法，其中确定所述状态信号的所述步骤包括：应用四态状态机，其中所述四态状态机的两个状态对应于所述状态信号指示所述当前音频帧处于未经双耳化状态，且所述四态状态机的剩余两个状态对应于所述状态信号指示所述当前音频帧处于经双耳化状态。16.根据权利要求15所述的方法，其中所述单极滤波器具有低于平滑阈值的平滑时间，其中所述平滑阈值是基于RC时间常数来确定。17.根据权利要求15或16所述的方法，其中所述四态状态机包括未经双耳化保持状态U...

【专利技术属性】
技术研发人员：宾清原，雒利滨，杨子瑜，双志伟，余雪梅，王贵平，
申请(专利权)人：杜比实验室特许公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人