一种垂类领域端到端语音识别方法与装置制造方法及图纸

技术编号:37747073 阅读:12 留言:0更新日期:2023-06-05 23:33
本发明专利技术提供了一种垂类领域端到端语音识别方法与装置,涉及智能语音技术领域,包括如下步骤:接收待识别语音信号,提取待识别语音信号的声学特征;将声学特征输入训练好的端到端语音识别模型中获取识别结果;通过编码器提取语音信号的高级声学表征,并通过与上下文感知矩阵融合得到上下文声学表征;通过上下文编码器将上下文短语映射成固定维度的字嵌入表征;通过编码器结合解码器提取音频对应文本的最终词嵌入表征并与所述上下文声学表征通过注意力机制进行融合,输出解码结果。本发明专利技术考虑上下文编码器同时考虑了上下文短语的字序列及发音序列,有利于提取更加具有区分性的词嵌入表征,缓解上下文短语量级的提升而导致的相似短语之间的串扰。相似短语之间的串扰。相似短语之间的串扰。

【技术实现步骤摘要】
一种垂类领域端到端语音识别方法与装置


[0001]本专利技术涉及智能语音
,尤其涉及一种垂类领域端到端语音识别方法与装置。

技术介绍

[0002]作为人机交互的重要手段之一,语音识别(auto speechrecognition,ASR)技术已广泛应用于手机、音箱、大屏、车机等智能终端设备上。目前,语音识别方案可分为传统方案及端到端方案,传统方案由声学模型(acoustic model)、语言模型(language model)、发音词典(lexicon)及解码器(decoder)等相互独立的模块组成,端到端方案则是将传统方案中各个独立的模块融合到一个由编码器及解码器组成的神经网络模型中进行联合优化,直接将输入的声音信号转换成对应的文本序列。近年来,随着端到端语音识别技术的发展及相对于传统方案的优越性,端到端的语音识别方案已经成为业界使用的主流方案。在通用领域,端到端语音识别已经能够达到较好的识别效果,但是,在一些垂类领域(医学领域、金融领域等),由于存在大量的专有名词且在训练集中出现的频率较低,这些专有名词通常被识别成发音相近的通用词汇,导致ASR模型对于这类专有名词识别效果较差。
[0003]为了提升端到端语音识别模型对垂类领域中专有名词的识别效果,现有端到端识别方案一般是在识别过程中动态融入上下文信息(contextual information),增加模型对上下文的感知能力,进而根据提供的垂类上下文短语(如医学领域的药品名,金融领域的专有名词等)去提升识别效果。具体做法是首先在模型训练过程中随机抽取当前批次(batch)文本数据中的若干连续不定长文本作为当前batch数据的上下文短语,通过一个上下文编码器(context encoder)将每个短语映射成固定维度的词嵌入,然后采用attention注意力机制对词嵌入计算注意力得分,在模型输出预测的每一步根据attention计算得到的注意力得分对提供的上下文短语列表进行加权平均,去聚焦可用的上下文信息,对目标文本进行定向增强。而在推理阶段,根据提供的垂类领域上下文短语列表,对识别结果进行纠偏增强。
[0004]针对端到端语音识别方案在垂类领域识别效果较差的问题,现有方案一般是在端到端语音识别模型中增加一个上下文编码器,将提供的上下文短语映射成固定维度的词嵌入特征,在模型解码过程中通过注意力机制计算当前音频对于各个上下文短语的注意力得分并根据注意力得分将上下文短语对应的词嵌入特征进行加权和,并将加权和后的词嵌入特征融合到模型的解码过程中,进而使得模型根据当前的上下文信息输出正确的解码结果。然而,一方面,现有方案一般仅在解码器中与上下文编码器输出的上下文信息进行融合,未充分利用编码器提取的音频声学表征,导致上下文短语召回率较低,此外,现有方案中上下文编码器仅对上下文短语对应的字序列进行建模,对于含有多音字的上下文短语,无法生成具有区分性的词嵌入表征,进而导致该类上下文短语召回率较低;另一方面,当垂类领域的上下文短语量级较大(1000)时,通过注意力机制计算得到的端到端语音识别模型对于上下文短语列表的注意力得分分布趋于平滑,模型对于目标上下文短语与其他不相关
上下文短语之间的区分性减弱,导致模型不能解码出正确的上下文短语,进而导致上下文短语召回率下降。

技术实现思路

[0005]本专利技术提供了一种垂类领域端到端语音识别方法与装置,目的是解决现有技术中存在的缺点。
[0006]为了实现上述目的,本专利技术提供如下技术方案:一种垂类领域端到端语音识别方法,包括如下步骤:
[0007]接收待识别语音信号,提取所述待识别语音信号的声学特征;
[0008]构建端到端语音识别模型;
[0009]获取所述声学特征并输入至训练好的端到端语音识别模型中获取识别结果;
[0010]所述端到端语音识别模型由编码器、上下文编码器及解码器构成,且获取所述声学特征并输入至训练好的端到端语音识别模型中获取识别结果包括如下步骤:
[0011]通过编码器提取语音信号的声学表征,并获取声学特征对应的标注文本表征和上下文短语;
[0012]计算声学表征、标注文本表征与上下文短语的相似性矩阵,并对相似性矩阵进行多维度排序,选取值最大的topk值进行softmax归一化处理,其他位置元素置零;
[0013]通过归一化处理后的相似性矩阵对上下文短语的词嵌入进行加权和得到上下文感知矩阵;
[0014]通过与上下文感知矩阵融合得到上下文声学表征X
context

[0015]通过上下文编码器将上下文短语映射成固定维度的字嵌入表征与音素嵌入表征,并将字嵌入表征与音素嵌入表征拼接组成最终词嵌入表征;
[0016]通过解码器提取音频对应文本的最终词嵌入表征,并与所述上下文声学表征X
context
通过注意力机制进行融合,输出识别结果。
[0017]优选的,将所述通过编码器提取语音信号的声学表征,并通过与上下文感知矩阵融合得到上下文声学表征X
context
,具体包括如下步骤:
[0018]通过声学编码模块及第一上下文注意力模块构建所述编码器;
[0019]将所述声学特征送入到声学编码模块中计算,得到语音信号的声学表征;
[0020]利用第一上下文注意力模块将声学表征作为查询向量Q、将上下文短语的词嵌入表征作为键向量K及值向量V,进行声学表征与上下文短语的词嵌入表征之间的相关性计算;
[0021]根据查询向量Q、键向量K与值向量V计算得到上下文感知矩阵H与声学表征X;
[0022]将上下文感知矩阵H与声学表征X进行融合得到上下文声学表征X
context

[0023]优选的,所述根据查询向量、键向量与值向量计算上下文感知矩阵H与声学表征X计算公式如下:
[0024]Q1=σ(X
T
W
q
+1(b
q
)
T
)
[0025]K1=σ(C
T
W
k
+1(b
k
)
T
)
[0026]V1=σ(C
T
W
v
+1(b
v
)
T
)
[0027][0028]H=a1V1[0029]X
context
=X+H或X
context
=[X,H][0030]其中,X=[h1,...,h
T
]∈R
dxT
为声学编码模块的输出且T为音频经过声学编码模块提取的帧数,d为每一帧声学表征的维度;C=[c1,...,c
n
]∈R
k
×
n
为上下文编码器生成的词嵌入表征,n为上下文短语的个数,k为上下文短语的词嵌入维度;σ(
·
)为激活函数,W
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种垂类领域端到端语音识别方法,其特征在于,包括如下步骤:接收待识别语音信号,提取所述待识别语音信号的声学特征;构建端到端语音识别模型;获取所述声学特征并输入至端到端语音识别模型中获取识别结果;所述端到端语音识别模型由编码器、上下文编码器及解码器构成,且获取所述声学特征并输入至训练好的端到端语音识别模型中获取识别结果包括如下步骤:通过编码器提取声学特征的声学表征,并获取声学特征对应的标注文本表征和上下文短语;计算声学表征、标注文本表征与上下文短语的相似性矩阵,并对相似性矩阵进行多维度排序,选取值最大的topk值进行softmax归一化处理,其他位置元素置零;通过归一化处理后的相似性矩阵对上下文短语的词嵌入进行加权和得到上下文感知矩阵;将所述上下文感知矩阵通过与声学表征融合得到上下文声学表征X
context
;通过上下文编码器将上下文短语映射成固定维度的字嵌入表征与音素嵌入表征,并将字嵌入表征与音素嵌入表征拼接组成最终词嵌入表征;通过解码器提取音频对应文本的最终词嵌入表征,并与所述上下文声学表征X
context
通过注意力机制进行融合,输出识别结果。2.如权利要求1所述的一种垂类领域端到端语音识别方法,其特征在于,将所述上下文感知矩阵通过与声学表征融合得到上下文声学表征X
context
,具体包括如下步骤:通过声学编码模块及第一上下文注意力模块构建所述编码器;将所述声学特征送入到声学编码模块中计算,得到语音信号的声学表征;利用第一上下文注意力模块将声学表征作为查询向量Q、将上下文短语的词嵌入表征作为键向量K及值向量V,进行声学表征与上下文短语的词嵌入表征之间的相关性计算;根据查询向量Q、键向量K与值向量V计算得到上下文感知矩阵H与声学表征X;将上下文感知矩阵H与声学表征X进行融合得到上下文声学表征X
context
。3.如权利要求2所述的一种垂类领域端到端语音识别方法,其特征在于,所述根据查询向量、键向量与值向量计算上下文感知矩阵H与声学表征X计算公式如下:Q1=σ(X
T
W
q
+1(b
q
)
T
)K1=σ(C
T
W
k
+1(b
k
)
T
)V1=σ(C
T
W
v
+1(b
v
)
T
)H=a1V1X
context
=X+H或X
context
=[X,H]其中,X=[h1,...,h
T
]∈R
dxT
为声学编码模块的输出且T为音频经过声学编码模块提取的帧数,d为每一帧声学表征的维度;C=[c1,...,c
n
]∈R
k
×
n
为上下文编码器生成的词嵌入表征,n为上下文短语的个数,k为上下文短语的词嵌入维度;σ(
·
)为激活函数,W
q
、W
k
、W
v
...

【专利技术属性】
技术研发人员:余兰林莫远秋余涛熊军林都海波李晨
申请(专利权)人:合肥工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1