音频处理方法、模型训练方法及装置、存储介质及设备制造方法及图纸

技术编号:46590499 阅读:1 留言:0更新日期:2025-10-10 21:24
本公开是关于一种音频处理方法、模型训练方法及装置、存储介质及设备,通过对音频描述的第一向量,以及参考描述的第二向量进行加权处理,实现了对第一向量中词向量的权重的区分,以及对第二向量中词向量的权重的区分,进而在基于加权后向量,确定音频描述和参考描述的相似度时,能够根据词向量的权重捕捉音频描述和参考描述中对于声音的差异化表达,提高相似度计算的准确性。进而根据音频描述和参考描述的相似度对音频描述进行度量,能够提高度量的准确性。

【技术实现步骤摘要】

本公开涉及音频处理,尤其涉及一种音频处理方法、模型训练方法及装置、存储介质及设备


技术介绍

1、相关技术可以通过音频理解模型对音频的内容进行理解,得到用于描述音频内容的音频描述。音频理解模型生成的音频描述可以应用在包含音频处理的技术应用中,比如,在一些示例中,音频描述可以应用在音频检索的技术应用中,用于定位音频片段;在另一些示例中,音频描述还可以应用在无障碍服务中,用于将音频内容以音频描述的形式传递给被服务者。

2、然而,在音频理解模型生成的音频描述不够精确的情况下,会导致技术应用的输出结果准确性较低,用户体验较差。


技术实现思路

1、为克服相关技术中存在的问题,本公开提供一种音频处理方法、模型训练方法及装置、存储介质及设备。

2、根据本公开实施例的第一方面,提供一种音频处理方法,包括:获得音频的音频描述的第一向量,以及所述音频的参考描述的第二向量,所述第一向量和所述第二向量包含词向量;对所述第一向量进行加权处理得到第三向量,以及对第二向量进行加权处理得到第四向量,所述加权处理用于对本文档来自技高网...

【技术保护点】

1.一种音频处理方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述对所述第一向量进行加权处理得到第三向量,以及对第二向量进行加权处理得到第四向量,包括:

3.根据权利要求2所述的方法,其特征在于,所述基于所述音频描述中的词汇在所述音频描述中的出现频率、以及所述词汇的逆文档频率,确定所述第一向量中包含的词向量的第一权重,包括:

4.根据权利要求1所述的方法,其特征在于,所述对所述第一向量进行加权处理得到第三向量,以及对第二向量进行加权处理得到第四向量,包括:

5.根据权利要求1-4中任一项所述的方法,其特征在于,所述根据...

【技术特征摘要】

1.一种音频处理方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述对所述第一向量进行加权处理得到第三向量,以及对第二向量进行加权处理得到第四向量,包括:

3.根据权利要求2所述的方法,其特征在于,所述基于所述音频描述中的词汇在所述音频描述中的出现频率、以及所述词汇的逆文档频率,确定所述第一向量中包含的词向量的第一权重,包括:

4.根据权利要求1所述的方法,其特征在于,所述对所述第一向量进行加权处理得到第三向量,以及对第二向量进行加权处理得到第四向量,包括:

5.根据权利要求1-4中任一项所述的方法,其特征在于,所述根据所述相似度对所述音频描述进行度量,包括:

6.根据权利要求5所述的方法,其特征在于,所述目标模型的召回率与第一相似度在多个第二相似度中的排序相关;

7.根据权利要求6所述的方法,其特征在于,所述排序的获取方法,包括:

8.根据权利要求6所述的方法,其特征在于,所述排序的获取方法,包括:

【专利技术属性】
技术研发人员:牛亚东王天资丁翰林周嘉豪李罡刘继忠孙兴伟张俊博栾剑
申请(专利权)人:北京小米移动软件有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1