基于心理声学的音频编码方法及装置制造方法及图纸

技术编号:31305604 阅读:17 留言:0更新日期:2021-12-12 21:20
本申请提供一种基于心理声学的音频编码方法及装置,涉及音频编码技术领域,能够满足用户的听音需求,提升用户的音质体验。该方法包括:接收音频数据,并且对该音频数据进行解码;获取用户的听觉特征信息,并且根据用户的听觉特征信息,计算用户的心理声学模型参数,以及基于用户的心理声学模型参数,对解码后的音频数据进行编码。其中,用户的听觉特征信息包括下述至少一种:用户的个人信息、用户的听音测试结果信息或用户的频响曲线信息;用户心理声学模型参数包括下述至少一种带内掩蔽参数、低频带间掩蔽直线的斜率、高频带间掩蔽直线的斜率或人耳安静阈值曲线。线的斜率或人耳安静阈值曲线。线的斜率或人耳安静阈值曲线。

【技术实现步骤摘要】
基于心理声学的音频编码方法及装置


[0001]本申请实施例涉及音频编码
,尤其涉及一种基于心理声学的音频编码方法及装置。

技术介绍

[0002]电子设备(例如手机、平板电脑等)采用音频传输协议规定的编码标准对音频进行编码,然后将编码后的音频发送至播音设备(例如耳机、智能音箱等),播音设备解码该音频并播放,从而佩戴或持有该播音设备的用户可以听到对应的音频。
[0003]对音频进行有损编码能够节省编码所使用的比特数,有损编码是对待编码音频中重要的信息进行编码,不重要的信息不进行编码的编码方法。其中,不进行编码的这部分信息通常是一些人耳感知不到的信息。目前,基于心理声学模型的掩蔽效应可以确定一段音频中哪些信息是人耳感知不到的信息。具体的,在对音频编码的过程中,首先采用预设的四种心理声学模型参数(分别为带内掩蔽参数、低频带间掩蔽直线的斜率、高频带间掩蔽直线的斜率以及人耳安静阈值曲线)确定待编码音频中人耳感知不到的信息。然后再使用相应的编码标准(例如AAC或MP3)对该待编码音频中除人耳感知不到的信息之外的信息(即人耳能够感知到的信息)编码。
[0004]然而,上述预设的四种心理声学模型参数是一组根据心理声学实验的统计数据得到的固定参数,基于该预设的心理声学模型参数进行音频编码,其编码结果可能不能满足不同用户对音频质量的需求。

技术实现思路

[0005]本申请实施例提供一种基于心理声学的音频编码方法及装置,能够满足用户的听音需求,提升用户的音质体验。
[0006]为达到上述目的,本申请实施例采用如下技术方案:
[0007]第一方面,本申请实施例提供一种基于心理声学的音频编码方法,包括:接收音频数据,对该音频数据进行解码,然后获取用户的听觉特征信息,该听觉特征信息包括下述至少一种:用户的个人信息、用户的听音测试结果信息或用户的频响曲线信息;并且根据用户的听觉特征信息,计算用户的心理声学模型参数;以及基于用户的心理声学模型参数,对解码后的音频数据进行编码。该心理声学模型参数包括下述至少一种:带内掩蔽参数、低频带间掩蔽直线的斜率、高频带间掩蔽直线的斜率或人耳安静阈值曲线。
[0008]本申请实施例提供的基于心理声学的音频编码方法,电子设备从其他设备接收到音频数据,并解码该音频数据,然后电子设备根据获取的用户的听觉特征信息计算用户的心理声学模型参数,再基于该用户的心理声学模型参数重新编码。由于该用户的听觉特征信息是与该用户的个性化听觉特性和发声设备的硬件特性相关,因此根据该用户的听觉特征信息计算出的心理声学模型参数具有个性化特性,进而基于该用户的心理声学模型参数对上述解码后的音频数据编码,能够满足用户的听音需求,提升用户的音质体验。
[0009]一种可能的实现方式中,上述获取用户的听觉特征信息具体包括:获取用户在电子设备的用户信息输入界面上输入的个人信息。用户的个人信息包括下述至少一项:用户的性别信息、年龄信息、听音偏好信息、听音环境信息或工作环境信息。
[0010]可选地,用户的个人信息包含用户的基本生理信息和用户的生活习惯等。其中,用户的听音偏好信息体现用户对不同种类的音乐的偏好,用户的听音偏好包括但不限于男低音、女高音、重低音等。听音环境信息体现是用户听音频时所处的环境的状态,可选地,用户的听音环境包括但不限于嘈杂或安静,例如在地铁、公交等公众场合中,用户的听音环境比较嘈杂,在家、办公室中,用户的听音环境比较安静。用户的工作环境信息体现用户长期工作的环境的状态,可选地,用户的工作环境也包括但不限于嘈杂或安静。
[0011]应理解,用户的听觉特性与用户的个人信息相关,对于不同用户,用户的个人信息不同,则用户对声音的听觉感受不同,即听觉特性不同。例如,女性比男性对高频的声音更加敏感;用户对声音频率的敏感度会随着年龄的增长而降低;不同听音偏好的用户对不同频率的声音的敏感度不同;听音环境不同,用户对不同频率的声音的敏感度也不同,例如,用户在嘈杂的地铁上,用户对声音不敏感,对于音量比较低的声音,用户可能听不到;工作环境不同,用户对不同频率的声音的敏感度也不同,例如,用户长期工作在嘈杂的环境中,该用户的听力可能受损,如此,用户对声音不敏感,对于音量比较低的声音,用户可能听不到。
[0012]一种可能的实现方式中,该听音测试结果信息包括用户的安静阈值测试结果信息和用户的掩蔽测试结果信息。其中,安静阈值测试结果信息包含多个频率值对应的人耳安静阈值,该掩蔽测试结果信息包含掩蔽频段内的多个频率值对应的掩蔽值,其中,一个掩体频率对应一个掩蔽频段。
[0013]可选地,采用测试音频对用户进行音频测试得到听音测试结果信息,例如用户可以在电子设备完成音频测试(或者称为听音测试),音频测试包含安静阈值测试和掩蔽测试。
[0014]一种可能的实现方式中,上述获取用户的听觉特征信息具体包括:获取用户在电子设备的第一音频测试界面上输入的多个频率值,获取该多个频率值对应的用户的人耳安静阈值,并且根据第一音频测试界面上输入的多个频率值和多个频率值对应的用户的人耳安静阈值获得安静阈值测试结果信息。其中,用户的人耳安静阈值表示测试音频的边界能量值。
[0015]本申请实施例中,测试音频的能量大于或等于测试音频的边界能量值时,用户可感知到测试音频;测试音频的能量小于测试音频的边界能量值时,用户感知不到测试音频。对于不同的用户,上述测试音频的边界能量值可能不同,即对于不同的用户,用户的人耳安静阈值可能不同。
[0016]用户分别测试每个频率(24个巴克刻度)对应的人耳安静阈值。具体的,在上述第一音频测试界面中,用户滑动频率调节按钮将测试音频的频率固定在某一频率,然后用户从低音量至高音量滑动音量调节按钮,直到用户能听到测试音频的声音,此时,音量调节按钮对应的音量即为该测试音频的边界能量值,也就是测试音频的对应的人耳安静阈值。如此,通过同样的测试方法,遍历上述24个巴克刻度,分别得到24个频率对应的人耳安静阈值,至此,得到多个频率值对应的人耳安静阈值。
[0017]一种可能的实现方式中,上述获取用户的听觉特征信息具体包括:获取用户在电子设备的第二音频测试界面上输入的多个频率值,获取该多个频率值对应的掩蔽值,并且根据第二音频测试界面上输入的多个频率值和该多个频率值对应的掩蔽值获得掩蔽测试结果信息。其中,该多个频率值为掩蔽频段内的多个频率值,掩蔽值表示测试音频的边界能量值。
[0018]该测试音频的能量大于或等于测试音频的边界能量值时,用户可感知到测试音频。测试音频的能量小于测试音频的边界能量值时,用户感知不到测试音频。对于不同的用户,上述测试音频的边界能量值可能不同,即对于不同的用户,上述掩蔽值可能不同。
[0019]用户分别测试每个掩体频率(即24个巴克刻度)对应的掩蔽值。示例性的,在上述第二音频测试界面中,以测试一个掩体频率值对应的掩蔽测试结果信息为例说明掩蔽测试的过程,具体包括如下步骤1至步骤2。
[0020]步骤1、用户滑动频率调节按钮将测试音频的掩本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于心理声学的音频编码方法,其特征在于,包括:接收音频数据,对所述音频数据进行解码;获取用户的听觉特征信息,所述听觉特征信息包括下述至少一种:个人信息、听音测试结果信息或频响曲线信息;根据所述用户的听觉特征信息,计算所述用户的心理声学模型参数,所述心理声学模型参数包括下述至少一种:带内掩蔽参数、低频带间掩蔽直线的斜率、高频带间掩蔽直线的斜率或人耳安静阈值曲线;基于所述用户的心理声学模型参数,对解码后的音频数据进行编码。2.根据权利要求1所述的方法,其特征在于,所述获取用户的听觉特征信息,包括:获取所述用户在电子设备的用户信息输入界面上输入的个人信息,所述个人信息包括下述至少一项:性别信息、年龄信息、听音偏好信息、听音环境信息或工作环境信息。3.根据权利要求1或2所述的方法,其特征在于,所述听音测试结果信息包括安静阈值测试结果信息和掩蔽测试结果信息;其中,所述安静阈值测试结果信息包含多个频率值对应的人耳安静阈值,所述掩蔽测试结果信息包含掩蔽频段内的多个频率值对应的掩蔽值,其中,一个掩体频率对应一个掩蔽频段。4.根据权利要求3所述的方法,其特征在于,所述获取用户的听觉特征信息,包括:获取所述用户在所述电子设备的第一音频测试界面上输入的多个频率值,获取所述多个频率值对应的所述用户的人耳安静阈值,根据所述第一音频测试界面上输入的多个频率值和所述多个频率值对应的所述用户的人耳安静阈值获得所述安静阈值测试结果信息,其中,所述用户的人耳安静阈值表示测试音频的边界能量值;获取所述用户在所述电子设备的第二音频测试界面上输入的多个频率值,获取所述多个频率值对应的掩蔽值,根据所述第二音频测试界面上输入的多个频率值和所述多个频率值对应的掩蔽值获得所述掩蔽测试结果信息;其中,所述多个频率值为掩蔽频段内的多个频率值,所述掩蔽值表示所述测试音频的边界能量值。5.根据权利要求1至4任一项所述的方法,其特征在于,所述根据所述用户的听觉特征信息,计算所述用户的心理声学模型参数,包括:根据所述用户的个人信息,从预设的样本库中确定与所述用户的个人信息相匹配的多个测试样本;对所述多个测试样本的安静阈值测试结果信息进行拟合,得到所述用户的人耳安静阈值曲线;对所述多个测试样本的掩蔽测试结果信息进行拟合,得到所述用户的带内掩蔽参数、低频带间掩蔽直线的斜率和高频带间掩蔽直线的斜率。6.根据权利要求3或4所述的方法,其特征在于,所述根据所述用户的听觉特征信息,计算所述用户的心理声学模型参数,包括:对所述用户的安静阈值测试结果信息进行拟合,得到所述用户的人耳安静阈值曲线;对所述用户的掩蔽测试结果信息进行拟合,得到所述用户的带内掩蔽参数、低频带间掩蔽直线的斜率和高频带间掩蔽直线的斜率。7.根据权利要求1至6任一项所述的方法,其特征在于,所述根据所述用户的听觉特征信息,计算所述用户的心理声学模型参数,包括:
根据所述用户的频响曲线信息,从预设的样本库中确定与所述用户的频响曲线信息相匹配的多个测试样本;对所述多个测试样本的安静阈值测试结果信息进行拟合,得到所述用户的人耳安静阈值曲线;对所述多个测试样本的掩蔽测试结果信息进行拟合,得到所述用户的带内掩蔽参数、低频带间掩蔽直线的斜率和高频带间掩蔽直线的斜率。8.根据权利要求1至7任一项所述的方法,其特征在于,所述根据所述用户的听觉特征信息,计算所述用户的心理声学模型参数,包括:根据所述用户的个人信息、所述用户的听音测试结果信息或所述用户的频响曲线信息中的至少两种听觉特征信息,计算所述至少两种听觉特征信息各自对应的心理声学模型参数;对所述至少两种听觉特征信息各自对应的心理声学模型参数进行加权求和,得到所述用户的心理声学模型参数。9.根据权利要求1至8任一项所述的方法,其特征在于,所述心理声学模型参数包括至少一个子带对应的心理声学模型参数;其中,一个子带的对应的心理声学模型参数包括下述至少一种:所述子带的带内掩蔽参数、所述子带的低频带间掩蔽直线的斜率、所述子带的高频带间掩蔽直线的斜率或所述子带的人耳安静阈值曲线。10.根据权利要求1至9任一项所述的方法,其特征在于,所述基于所述用户的心理声学模型参数,对解码后的音频数据进行编码,包括:基于所述用户的心理声学模型参数,确定所述解码后的音频数据中所述用户可感知的信息和所述用户不可感知的信息;对所述解码后的音频数据中所述用户可感知的信息进行编码。11.一种音频编码装置,其特征在于,包括:接收模块、解码模块、获取模块、确定模块以及编码模块;所述接收模块,用于接收音频数据;所述解码模块,用于对所述音频数据进行解码;所述获取模块,用于获取用户的听觉特征信息,所述听觉特征信...

【专利技术属性】
技术研发人员:王萌王卓范泛
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1