一种垂类领域端到端语音识别方法与装置制造方法及图纸

技术编号：37747073 阅读：12 留言：0更新日期：2023-06-05 23:33

本发明专利技术提供了一种垂类领域端到端语音识别方法与装置，涉及智能语音技术领域，包括如下步骤：接收待识别语音信号，提取待识别语音信号的声学特征；将声学特征输入训练好的端到端语音识别模型中获取识别结果；通过编码器提取语音信号的高级声学表征，并通过与上下文感知矩阵融合得到上下文声学表征；通过上下文编码器将上下文短语映射成固定维度的字嵌入表征；通过编码器结合解码器提取音频对应文本的最终词嵌入表征并与所述上下文声学表征通过注意力机制进行融合，输出解码结果。本发明专利技术考虑上下文编码器同时考虑了上下文短语的字序列及发音序列，有利于提取更加具有区分性的词嵌入表征，缓解上下文短语量级的提升而导致的相似短语之间的串扰。相似短语之间的串扰。相似短语之间的串扰。

全部详细技术资料下载

【技术实现步骤摘要】
一种垂类领域端到端语音识别方法与装置

[0001]本专利技术涉及智能语音
，尤其涉及一种垂类领域端到端语音识别方法与装置。

技术介绍

[0002]作为人机交互的重要手段之一，语音识别(auto speechrecognition,ASR)技术已广泛应用于手机、音箱、大屏、车机等智能终端设备上。目前，语音识别方案可分为传统方案及端到端方案，传统方案由声学模型(acoustic model)、语言模型(language model)、发音词典(lexicon)及解码器(decoder)等相互独立的模块组成，端到端方案则是将传统方案中各个独立的模块融合到一个由编码器及解码器组成的神经网络模型中进行联合优化，直接将输入的声音信号转换成对应的文本序列。近年来，随着端到端语音识别技术的发展及相对于传统方案的优越性，端到端的语音识别方案已经成为业界使用的主流方案。在通用领域，端到端语音识别已经能够达到较好的识别效果，但是，在一些垂类领域(医学领域、金融领域等)，由于存在大量的专有名词且在训练集中出现的频率较低，这些专有名词通常被识别成发音相近的通用词汇，导致ASR模型对于这类专有名词识别效果较差。
[0003]为了提升端到端语音识别模型对垂类领域中专有名词的识别效果，现有端到端识别方案一般是在识别过程中动态融入上下文信息(contextual information)，增加模型对上下文的感知能力，进而根据提供的垂类上下文短语(如医学领域的药品名，金融领域的专有名词等)去提升识别效果。具体做法是首先在模型训练过程中随机...

【技术保护点】

【技术特征摘要】
1.一种垂类领域端到端语音识别方法，其特征在于，包括如下步骤：接收待识别语音信号，提取所述待识别语音信号的声学特征；构建端到端语音识别模型；获取所述声学特征并输入至端到端语音识别模型中获取识别结果；所述端到端语音识别模型由编码器、上下文编码器及解码器构成，且获取所述声学特征并输入至训练好的端到端语音识别模型中获取识别结果包括如下步骤：通过编码器提取声学特征的声学表征，并获取声学特征对应的标注文本表征和上下文短语；计算声学表征、标注文本表征与上下文短语的相似性矩阵，并对相似性矩阵进行多维度排序，选取值最大的topk值进行softmax归一化处理，其他位置元素置零；通过归一化处理后的相似性矩阵对上下文短语的词嵌入进行加权和得到上下文感知矩阵；将所述上下文感知矩阵通过与声学表征融合得到上下文声学表征X
context
；通过上下文编码器将上下文短语映射成固定维度的字嵌入表征与音素嵌入表征，并将字嵌入表征与音素嵌入表征拼接组成最终词嵌入表征；通过解码器提取音频对应文本的最终词嵌入表征，并与所述上下文声学表征X
context
通过注意力机制进行融合，输出识别结果。2.如权利要求1所述的一种垂类领域端到端语音识别方法，其特征在于，将所述上下文感知矩阵通过与声学表征融合得到上下文声学表征X
context
，具体包括如下步骤：通过声学编码模块及第一上下文注意力模块构建所述编码器；将所述声学特征送入到声学编码模块中计算，得到语音信号的声学表征；利用第一上下文注意力模块将声学表征作为查询向量Q、将上下文短语的词嵌入表征作为键向量K及值向量V，进行声学表征与上下文短语的词嵌入表征之间的相关性计算；根据查询向量Q、键向量K与值向量V计算得到上下文感知矩阵H与声学表征X；将上下文感知矩阵H与声学表征X进行融合得到上下文声学表征X
context
。3.如权利要求2所述的一种垂类领域端到端语音识别方法，其特征在于，所述根据查询向量、键向量与值向量计算上下文感知矩阵H与声学表征X计算公式如下：Q1＝σ(X
T
W
q
+1(b
q
)
T
)K1＝σ(C
T
W
k
+1(b
k
)
T
)V1＝σ(C
T
W
v
+1(b
v
)
T
)H＝a1V1X
context
＝X+H或X
context
＝[X,H]其中，X＝[h1,...,h
T
]∈R
dxT
为声学编码模块的输出且T为音频经过声学编码模块提取的帧数，d为每一帧声学表征的维度；C＝[c1,...,c
n
]∈R
k
×
n
为上下文编码器生成的词嵌入表征，n为上下文短语的个数，k为上下文短语的词嵌入维度；σ(
·
)为激活函数，W
q
、W
k
、W
v
...

【专利技术属性】
技术研发人员：余兰林，莫远秋，余涛，熊军林，都海波，李晨，
申请(专利权)人：合肥工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人