一种音频处理方法及装置制造方法及图纸

技术编号:39259544 阅读:8 留言:0更新日期:2023-10-30 12:10
本申请提供了一种音频处理方法以及相关装置。本申请实施例可应用于人工智能领域。其方法包括:首先,获取音频信号,音频信号包括N个音频帧;其次,将N个音频帧输入至流式声学网络,得到N个音素特征及N个流式音频特征,N个音素特征用于表征音频信号的音素信息;接着,获取实体集合,实体集合包括预先构建的K个实体,K个实体对应于K个音素信息;然后,根据N个音素特征从实体集合中提取出L个实体,L个实体对应于N个音素特征;最后,将音频信号、N个流式音频特征及L个实体输入至非流式声学网络,得到文本识别结果。本申请实施例提供的音频处理方法,通过建立流式声学网络及非流式声学网络提高文本识别的准确性。高文本识别的准确性。高文本识别的准确性。

【技术实现步骤摘要】
一种音频处理方法及装置


[0001]本申请涉及人工智能
,尤其涉及一种音频处理方法及装置。

技术介绍

[0002]近年来,随着深度学习的蓬勃发展,自动语音识别(ASR)技术以其简化的体系结构及优异的性能广受青睐。而在实际应用中,用于对自动语音识别模型进行训练的训练数据中往往缺乏专有名词或不常见组合(比如人名、地名),导致自动语音识别系统在这些应用场合中性能会受到影响。
[0003]现有常见的解决方案主要是基于外部语言模型的融合方案,通过把使用含有专有名词等实体信息的训练集训练的语言模型与自动语音识别模型的输出进行融合,在训练时,分别单独对语言模型与自动语音识别模型进行训练,将分别训练后的语言模型与自动语音识别模型进行级联,在自动语音识别模型训练过程中无法对级联之后的最终结果进行优化,无法达到实际推理流程中的全局最优,并且由于单独训练的外部语言模型与自动语音识别模型可能存在不匹配现象,在测试时,通过级联的语言模型与自动语音识别模型进行对音频信号进行识别时,对专有名词或不常见组合的识别准确率较低。

技术实现思路

[0004]本申请实施例提供了一种音频处理方法及相关装置,通过建立流式声学网络预测音频信号中N个音频帧对应的N个音素特征及N个流式音频特征,根据得到的N个音素特征从实体集合中提取出与N个音素特征具有对应关系的L个实体,由非流式声学网络根据N个音频帧、N个流式音频特征及L个实体预测音频信号的文本识别结果,提高文本识别的准确性。
[0005]本申请的一方面提供一种音频处理方法,包括:
[0006]获取音频信号,其中,音频信号包括N个音频帧,N为大于1的整数;
[0007]将N个音频帧输入至流式声学网络,得到N个音素特征及N个流式音频特征,其中,N个音素特征用于表征音频信号的音素信息;
[0008]获取实体集合,其中,实体集合包括预先构建的K个实体,K个实体对应于K个音素信息,K为大于1的整数;
[0009]根据N个音素特征从实体集合中提取出+,其中,L个实体对应于N个音素特征,L为大于等于N且小于等于K的整数;
[0010]将音频信号、N个流式音频特征及L个实体输入至非流式声学网络,得到文本识别结果。
[0011]本申请的另一方面提供了一种音频处理装置,包括:
[0012]音频信号获取模块,用于获取音频信号,其中,音频信号包括N个音频帧,N为大于1的整数;
[0013]流式声学网络处理模块,用于将N个音频帧输入至流式声学网络,得到N个音素特征及N个流式音频特征,其中,N个音素特征用于表征音频信号的音素信息;
[0014]实体集合获取模块,用于获取实体集合,其中,实体集合包括预先构建的K个实体,K个实体对应于K个音素信息,K为大于1的整数;
[0015]实体提取模块,用于根据N个音素特征从实体集合中提取出L个实体,其中,L个实体对应于N个音素特征,L为大于等于N且小于等于K的整数;
[0016]非流式声学网络处理模块,用于将音频信号、N个流式音频特征及L个实体输入至非流式声学网络,得到文本识别结果。
[0017]在本申请实施例的另一种实现方式中,流式声学网络包括因果编码子网络、音素预测子网络及音素联合子网络;流式声学网络处理模块,还用于:
[0018]对N个音频帧进行特征提取,得到N个音频帧特征;
[0019]将N个音频帧特征中的每个音频帧特征作为流式声学网络中的因果编码子网络的输入,通过因果编码子网络输出N个音频帧特征中的每个音频帧特征对应的流式音频特征;
[0020]将N个音频帧中的每个音频帧作为流式声学网络中的音素预测子网络的输入,通过音素预测子网络输出N个音频帧中的每个音频帧对应的音素识别信息;
[0021]将N个音频帧特征中的每个音频帧特征对应的流式音频特征与N个音频帧中的每个音频帧对应的音素识别信息输入至流式声学网络中的音素联合子网络,通过音素联合子网络输出N个音素特征。
[0022]在本申请实施例的另一种实现方式中,流式声学网络处理模块,还用于:
[0023]获取N个音频帧中的第i帧音频帧及第i

1帧音频帧对应的第i

1个音素识别信息,其中,第i

1个音素识别信息由音素预测子网络根据第i

1帧音频帧生成,i为大于1的整数;
[0024]将第i帧音频帧及第i

1个音素识别信息作为音素预测子网络的输入,通过音素预测子网络输出第i帧音频帧对应的音素识别信息。
[0025]在本申请实施例的另一种实现方式中,流式声学网络处理模块,还用于:
[0026]获取N个音频帧中的第一帧音频帧及预设音素识别信息;
[0027]将第一帧音频帧及预设音素识别信息作为音素预测子网络的输入,通过音素预测子网络输出第一帧音频帧对应的音素识别信息。
[0028]在本申请实施例的另一种实现方式中,非流式声学网络包括字预测子网络、非因果编码子网络、上下文信息提取子网络及注意力偏置字联合子网络;非流式声学网络处理模块,还用于:
[0029]将N个音频帧中的每个音频帧作为非流式声学网络中的字预测子网络的输入,通过字预测子网络输出N个音频帧中的每个音频帧对应的字识别信息;
[0030]将N个流式音频特征作为非流式声学网络中的非因果编码子网络的输入,通过非因果编码子网络输出N个音频帧对应的非流式音频特征;
[0031]将L个实体作为非流式声学网络中的上下文信息提取子网络的输入,通过上下文信息提取子网络输出L个实体对应的上下文信息特征;
[0032]将N个音频帧中的每个音频帧对应的字识别信息、N个音频帧对应的非流式音频特征及上下文信息特征作为注意力偏置字联合子网络的输入,通过注意力偏置字联合子网络输出文本识别结果。
[0033]在本申请实施例的另一种实现方式中,注意力偏置字联合子网络包括注意力偏置子网络及字联合子网络;非流式声学网络处理模块,还用于:
[0034]将N个音频帧中的每个音频帧对应的字识别信息、N个音频帧对应的非流式音频特征及上下文信息特征作为注意力偏置字联合子网络中的注意力偏置子网络的输入,通过注意力偏置子网络输出字关联特征及非流式音频关联特征,其中,字关联特征用于表征N个音频帧中的每个音频帧对应的字识别信息与上下文信息特征的关联性,非流式音频关联特征用于表征N个音频帧对应的非流式音频特征与上下文信息特征的关联性;
[0035]将字关联特征及非流式音频关联特征作为非流式声学网络中的字联合子网络的输入,通过字联合子网络输出文本识别结果。
[0036]在本申请实施例的另一种实现方式中,注意力偏置子网络包括第一注意力偏置子网络及第二注意力偏置子网络;非流式声学网络处理模块,还用于:
[0037]将N个音频帧中的每个音频帧对应的字识别信息及上下文信息特征作为注意力偏置子网络中的第一注意力偏置本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种音频处理方法,其特征在于,包括:获取音频信号,其中,所述音频信号包括N个音频帧,N为大于1的整数;将所述N个音频帧输入至流式声学网络,得到N个音素特征及N个流式音频特征,其中,所述N个音素特征用于表征所述音频信号的音素信息;获取实体集合,其中,所述实体集合包括预先构建的K个实体,所述K个实体对应于K个音素信息,K为大于1的整数;根据所述N个音素特征从所述实体集合中提取出L个实体,其中,所述L个实体对应于所述N个音素特征,L为大于等于N且小于等于K的整数;将所述音频信号、所述N个流式音频特征及所述L个实体输入至非流式声学网络,得到文本识别结果。2.如权利要求1所述的音频处理方法,其特征在于,所述流式声学网络包括因果编码子网络、音素预测子网络及音素联合子网络;所述将所述N个音频帧输入至流式声学网络,得到N个音素特征及N个流式音频特征,包括:对所述N个音频帧进行特征提取,得到N个音频帧特征;将所述N个音频帧特征中的每个音频帧特征作为所述流式声学网络中的因果编码子网络的输入,通过所述因果编码子网络输出所述N个音频帧特征中的每个音频帧特征对应的流式音频特征;将所述N个音频帧中的每个音频帧作为所述流式声学网络中的音素预测子网络的输入,通过所述音素预测子网络输出所述N个音频帧中的每个音频帧对应的音素识别信息;将所述N个音频帧特征中的每个音频帧特征对应的流式音频特征与所述N个音频帧中的每个音频帧对应的音素识别信息输入至所述流式声学网络中的音素联合子网络,通过所述音素联合子网络输出N个音素特征。3.如权利要求2所述的音频处理方法,其特征在于,所述将所述N个音频帧中的每个音频帧作为所述流式声学网络中的音素预测子网络的输入,通过所述音素预测子网络输出所述N个音频帧中的每个音频帧对应的音素识别信息,包括:获取所述N个音频帧中的第i帧音频帧及第i

1帧音频帧对应的第i

1个音素识别信息,其中,所述第i

1个音素识别信息由所述音素预测子网络根据所述第i

1帧音频帧生成,i为大于1的整数;将所述第i帧音频帧及所述第i

1个音素识别信息作为所述音素预测子网络的输入,通过所述音素预测子网络输出所述第i帧音频帧对应的音素识别信息。4.如权利要求2所述的音频处理方法,其特征在于,所述将所述N个音频帧中的每个音频帧作为所述流式声学网络中的音素预测子网络的输入,通过所述音素预测子网络输出所述N个音频帧中的每个音频帧对应的音素识别信息,包括:获取N个音频帧中的第一帧音频帧及预设音素识别信息;将所述第一帧音频帧及所述预设音素识别信息作为所述音素预测子网络的输入,通过所述音素预测子网络输出所述第一帧音频帧对应的音素识别信息。5.如权利要求1所述的音频处理方法,其特征在于,所述非流式声学网络包括字预测子网络、非因果编码子网络、上下文信息提取子网络及注意力偏置字联合子网络;
所述将所述音频信号、所述N个流式音频特征及所述L个实体输入至非流式声学网络,得到文本识别结果,包括:将所述音频信号作为所述非流式声学网络中的字预测子网络的输入,通过所述字预测子网络输出所述音频信号对应的字识别信息;将所述N个流式音频特征作为所述非流式声学网络中的非因果编码子网络的输入,通过所述非因果编码子网络输出所述N个音频帧对应的非流式音频特征;将所述L个实体作为所述非流式声学网络中的上下文信息提取子网络的输入,通过所述上下文信息提取子网络输出所述L个实体对应的上下文信息特征;将所述音频信号对应的字识别信息、所述N个音频帧对应的非流式音频特征及所述上下文信息特征作为所述非流式声学网络中的注意力偏置字联合子网络的输入,通过所述注意力偏置字联合子网络输出文本识别结果。6.如权利要求5所述的音频处理方法,其特征在于,所述注意力偏置字联合子网络包括注意力偏置子网络及字联合子网络;所述将所述音频信号对应的字识别信息、所述N个音频帧对应的非流式音频特征及所述上下文信息特征作为所述非流式声学网络中的注意力偏置字联合子网络的输入,通过所述注意力偏置字联合子网络输出文本识别结果,包括:将所述音频信号对应的字识别信息、所述N个音频帧对应的非流式音频特征及所述上下文信息特征作为所述注意力偏置字联合子网络中的注意力偏置子网络的输入,通过所述注意力偏置子网络输出字关联特征及非流式音频关联特征,其中,所述字关联特征用于表征所述音频信号对应的字识别信息与所述上下文信息特征的关联性,所述非流式音频关联特征用于表征所述N个音频帧对应的非流式音频特征与所述上下文信息特征的关联性;将所述字关联特征及所述非流式音频关联特征作为所述注意力偏置字联合子网络中的字联合子网络的输入,通过所述字联合子网络输出文本识别结果。7.如权利要求6所...

【专利技术属性】
技术研发人员:杨展恒孙思宁
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1