音频处理方法、装置、电子设备及存储介质制造方法及图纸

技术编号:39745355 阅读:8 留言:0更新日期:2023-12-17 23:44
本申请公开了一种音频处理方法、装置、电子设备及存储介质,属于音频技术领域。本申请通过仅对预测词格和待操作词格进行一次交集操作,利用一次交集操作所得的目标词格及作为其副产物的路径关系信息,能够对目标词格中的每个状态都进行预测分数的赋值,使得利用各个状态的预测分数,能够方便地逐帧重建出来候选文本的预测概率,以便于基于预测概率来筛选出来语义匹配程度最高的识别文本,这样能够在不损失音频解码精度的前提下,由于一次交集操作极大压缩了计算开销,从而能够极大节约计算资源、提升计算速度,从而提升音频解码速度。从而提升音频解码速度。从而提升音频解码速度。

【技术实现步骤摘要】
音频处理方法、装置、电子设备及存储介质


[0001]本申请涉及音频
,特别涉及一种音频处理方法、装置、电子设备及存储介质。

技术介绍

[0002]在音频识别系统中,通常将音频识别任务划分成训练阶段和解码阶段:在训练阶段中利用标注的音频

文本对训练ASR(Automatic Speech Recognition,自动语音识别)神经网络,在解码阶段中利用ASR神经网络对输入的音频进行解码,得到音频中所包含的音素相对应的文本。
[0003]目前,LF

MMI(Lattice

Free Maximum Mutual Information,无词格最大互信息)方式,既能够用于训练ASR神经网络,也能够用于对输入音频进行解码。在利用LF

MMI方式进行解码时,需要将ASR神经网络输出分布和输入的分子/分母FST(Finite

State Transducer,有限状态转录机),进行逐帧Intersection(交集)操作,以上解码过程的计算代价高、解码速度低。

技术实现思路

[0004]本申请实施例提供了一种音频处理方法、装置、电子设备及存储介质,能够在不损失音频解码精度的前提下,节约音频解码过程的计算资源、提升计算速度,从而提升音频解码速度。该技术方案如下:
[0005]一方面,提供了一种音频处理方法,所述方法包括:
[0006]对待识别音频中的多个音频帧进行解码,得到所述多个音频帧的预测词格,所述预测词格提供对所述多个音频帧识别所得的多个候选文本的字符序列;
[0007]基于所述多个音频帧的任一候选文本,获取待操作词格,所述待操作词格用于提供所述候选文本的字符序列或者不同候选文本的全局字符序列;
[0008]对所述预测词格和所述待操作词格进行交集操作,得到目标词格和路径关系信息,所述路径关系信息指示所述目标词格中每条弧到所述待操作词格中相同弧的关联关系,所述目标词格中每条弧指示一个字符;
[0009]基于所述目标词格和所述路径关系信息,确定所述目标词格中多个状态的预测分数,所述预测分数指示每个状态与所述待识别音频中的前序音频帧之间的语义匹配程度;
[0010]基于所述目标词格中多个状态的预测分数,确定所述候选文本的预测概率,所述预测概率表征所述候选文本与所述待识别音频之间的语义匹配程度。
[0011]一方面,提供了一种音频处理装置,所述装置包括:
[0012]解码模块,用于对待识别音频中的多个音频帧进行解码,得到所述多个音频帧的预测词格,所述预测词格提供对所述多个音频帧识别所得的多个候选文本的字符序列;
[0013]获取模块,用于基于所述多个音频帧的任一候选文本,获取待操作词格,所述待操作词格用于提供所述候选文本的字符序列或者不同候选文本的全局字符序列;
[0014]交集操作模块,用于对所述预测词格和所述待操作词格进行交集操作,得到目标词格和路径关系信息,所述路径关系信息指示所述目标词格中每条弧到所述待操作词格中相同弧的关联关系,所述目标词格中每条弧指示一个状态;
[0015]分数确定模块,用于基于所述目标词格和所述路径关系信息,确定所述目标词格中多个状态的预测分数,所述预测分数指示每个状态与所述待识别音频中的前序音频帧之间的语义匹配程度;
[0016]概率确定模块,用于基于所述目标词格中多个字符的预测分数,确定所述候选文本的预测概率,所述预测概率表征所述候选文本与所述待识别音频之间的语义匹配程度。
[0017]在一些实施例中,所述分数确定模块包括:
[0018]筛选单元,用于对所述目标词格中的各条弧进行筛选,得到多条目标弧,以使所述目标词格中的每个状态有且仅有一条到达所述状态的目标弧;
[0019]弧确定单元,用于基于所述路径关系信息,从所述待操作词格中确定每条目标弧所关联的关联弧,所述目标弧和所述关联弧在词格中指示相同的字符;
[0020]赋值单元,用于基于每条关联弧所连接的到达状态在所述待操作词格中的前向分数,为所述到达状态在所述目标词格中的预测分数进行赋值。
[0021]在一些实施例中,所述分数确定模块还包括:
[0022]状态确定单元,用于在所述待操作词格中确定每条关联弧所连接的到达状态;
[0023]分数获取单元,用于基于所述待操作词格中到达所述到达状态的各条弧,获取所述到达状态的前向分数。
[0024]在一些实施例中,所述分数获取单元用于:
[0025]对于所述待操作词格中到达所述到达状态的每条弧,将每条弧所连接的出发状态的前向分数和每条弧上的权重相加,得到每条弧的前向权重参数;
[0026]以自然底数为底数,以每条弧的前向权重参数为指数,获取每条弧的前向权重指数;
[0027]将各条弧的前向权重指数之间的和值取对数,得到所述下文字符的前向分数。
[0028]在一些实施例中,所述赋值单元用于:
[0029]从所述待操作词格的各个状态进行查询,得到满足查询条件的多个候选状态,所述查询条件指示存在一条从本状态出发且到达终末状态的弧,所述到达终末状态的弧指示对所述多个音频帧中的最后一个音频帧识别得到的字符;
[0030]在所述到达状态属于所述候选状态的情况下,将所述到达状态到达所述终末字符的弧上的权重与所述到达状态的前向分数相加,得到所述到达状态的预测分数;
[0031]在所述到达状态不属于所述候选状态的情况下,将预设值赋值给所述到达状态的预测分数。
[0032]在一些实施例中,所述待操作词格包括分子词格和分母词格,所述分子词格提供所述候选文本的字符序列,所述分母词格提供不同候选文本的全局字符序列;
[0033]所述交集操作模块用于:
[0034]对所述预测词格和所述分子词格进行交集操作,得到目标分子词格;
[0035]对所述预测词格和所述分母词格进行交集操作,得到目标分母词格。
[0036]在一些实施例中,所述概率确定模块包括:
[0037]第一获取单元,用于对所述多个音频帧中的每个音频帧,基于所述目标分子词格,获取所述音频帧的分子预测分量;
[0038]第二获取单元,用于基于所述目标分母词格,获取所述音频帧的分母预测分量;
[0039]预测分量确定单元,用于基于所述音频帧的分子预测分量和分母预测分量,确定所述音频帧的单帧预测分量;
[0040]概率获取单元,用于基于所述多个音频帧各自的单帧预测分量,获取所述候选文本的预测概率。
[0041]在一些实施例中,所述第一获取单元用于:
[0042]从所述目标分子词格中,查询对所述音频帧识别得到的至少一个候选分子状态;
[0043]以自然底数为底数,以每个候选分子状态的预测分数为指数,获取每个候选分子状态的预测指数;
[0044]将所述至少一个候选分子状态的预测本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种音频处理方法,其特征在于,所述方法包括:对待识别音频中的多个音频帧进行解码,得到所述多个音频帧的预测词格,所述预测词格提供对所述多个音频帧识别所得的多个候选文本的字符序列;基于所述多个音频帧的任一候选文本,获取待操作词格,所述待操作词格用于提供所述候选文本的字符序列或者不同候选文本的全局字符序列;对所述预测词格和所述待操作词格进行交集操作,得到目标词格和路径关系信息,所述路径关系信息指示所述目标词格中每条弧到所述待操作词格中相同弧的关联关系,所述目标词格中每条弧指示一个字符;基于所述目标词格和所述路径关系信息,确定所述目标词格中多个状态的预测分数,所述预测分数指示每个状态与所述待识别音频中的前序音频帧之间的语义匹配程度;基于所述目标词格中多个状态的预测分数,确定所述候选文本的预测概率,所述预测概率表征所述候选文本与所述待识别音频之间的语义匹配程度。2.根据权利要求1所述的方法,其特征在于,所述基于所述目标词格和所述路径关系信息,确定所述目标词格中多个状态的预测分数包括:对所述目标词格中的各条弧进行筛选,得到多条目标弧,以使所述目标词格中的每个状态有且仅有一条到达所述状态的目标弧;基于所述路径关系信息,从所述待操作词格中确定每条目标弧所关联的关联弧,所述目标弧和所述关联弧在词格中指示相同的字符;基于每条关联弧所连接的到达状态在所述待操作词格中的前向分数,为所述到达状态在所述目标词格中的预测分数进行赋值。3.根据权利要求2所述的方法,其特征在于,所述方法还包括:在所述待操作词格中确定每条关联弧所连接的到达状态;基于所述待操作词格中到达所述到达状态的各条弧,获取所述到达状态的前向分数。4.根据权利要求3所述的方法,其特征在于,所述基于所述待操作词格中到达所述到达状态的各条弧,获取所述到达状态的前向分数包括:对于所述待操作词格中到达所述到达状态的每条弧,将每条弧所连接的出发状态的前向分数和每条弧上的权重相加,得到每条弧的前向权重参数;以自然底数为底数,以每条弧的前向权重参数为指数,获取每条弧的前向权重指数;将各条弧的前向权重指数之间的和值取对数,得到所述下文字符的前向分数。5.根据权利要求2所述的方法,其特征在于,所述基于每条关联弧所连接的到达状态在所述待操作词格中的前向分数,为所述到达状态在所述目标词格中的预测分数进行赋值包括:从所述待操作词格的各个状态进行查询,得到满足查询条件的多个候选状态,所述查询条件指示存在一条从本状态出发且到达终末状态的弧,所述到达终末状态的弧指示对所述多个音频帧中的最后一个音频帧识别得到的字符;在所述到达状态属于所述候选状态的情况下,将所述到达状态到达所述终末字符的弧上的权重与所述到达状态的前向分数相加,得到所述到达状态的预测分数;在所述到达状态不属于所述候选状态的情况下,将预设值赋值给所述到达状态的预测分数。
6.根据权利要求1所述的方法,其特征在于,所述待操作词格包括分子词格和分母词格,所述分子词格提供所述候选文本的字符序列,所述分母词格提供不同候选文本的全局字符序列;所述对所述预测词格和所述待操作词格进行交集操作,得到目标词格包括:对所述预测词格和所述分子词...

【专利技术属性】
技术研发人员:田晋川余剑威翁超邹月娴
申请(专利权)人:北京大学深圳研究生院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1