多方言语音识别方法、装置、设备和存储介质制造方法及图纸

技术编号：28058984 阅读：23 留言：0更新日期：2021-04-14 13:33

本发明专利技术实施例公开了一种多方言语音识别方法、装置、设备和存储介质，该方法包括：通过多方言编码器获取输入的语音声学特征，输出固定长度的第一向量编码；通过方言识别器对所述第一向量编码进行识别得到对应的方言向量；依据所述方言向量通过多方言解码器对所述第一向量编码进行解码得到所述语音声学特征对应的识别文本。本方案提高了方言识别效率，无需大量的样本数据，识别精确度较现有方案更优。识别精确度较现有方案更优。识别精确度较现有方案更优。

全部详细技术资料下载

【技术实现步骤摘要】
多方言语音识别方法、装置、设备和存储介质

[0001]本申请实施例涉及计算机领域，尤其涉及一种多方言语音识别方法、装置、设备和存储介质。

技术介绍

[0002]方言通常指相同语言的变体，关联于特定的地理区域或社会群体。例如，阿拉伯语有多种变体，包括埃及阿拉伯语、海湾阿拉伯语和现代标准阿拉伯语等。虽然在各种方言之间存在一定的相似度，但是在语言层面上通常存在较大差异。由此导致为一种特定的方言训练的自动语音识别系统在另一种方言上的表现很差。
[0003]针对方言的自动语音识别，如果每种方言都有足够的样本数据，则可以针对每种方言进行单独的模型训练。但是，在方言资源匮乏的情况下，该种方式可行性较低。现有技术中，存在多种方言共享的语音识别模型，但是其依然需要各自方言的大量特征样本。

技术实现思路

[0004]本专利技术实施例提供了一种多方言语音识别方法、装置、设备和存储介质，提高了方言识别效率，无需大量的样本数据，识别精确度较现有方案更优。
[0005]第一方面，本专利技术实施例提供了一种多方言语音识别方

【技术保护点】

【技术特征摘要】
1.多方言语音识别方法，其特征在于，包括：通过多方言编码器获取输入的语音声学特征，输出固定长度的第一向量编码；通过方言识别器对所述第一向量编码进行识别得到对应的方言向量；依据所述方言向量通过多方言解码器对所述第一向量编码进行解码得到所述语音声学特征对应的识别文本。2.根据权利要求1所述的多方言语音识别方法，其特征在于，在通过多方言编码器获取输入的语音声学特征之前，还包括：通过多方言编码器获取输入的训练语音声学特征，输出固定长度的第二向量编码；根据所述第二向量编码、设定方言向量以及训练识别文本对多方言解码器进行训练，所述训练识别文本和所述训练声学特征相对应。3.根据权利要求2所述的多方言语音识别方法，其特征在于，所述解码器包括attention解码单元以及CTC解码单元，所述attention解码单元和所述CTC解码单元分配有不同的权重比。4.根据权利要求2所述的多方言语音识别方法，其特征在于，在通过多方言编码器获取输入的训练语音声学特征之前，还包括：通过神经网络模型对输入的已知方言类型的方言样本进行学习得到对应的设定方言向量。5.根据权利要求1所述的多方言语音识别方法，其特征在于，所述通过方言识别器对所述第一向量编码进行识别得到对应的方言向量，包括：通过方言识别器对所述第一向量编码进行识别以确定包含的方言种类；确定每个方言种类对应的方言向量。6.根据权利要求5所述的多方言语音识别方法，其特征在于，当所述方言识别器确定出所述第一向量编码中包含多种方言种类时，还包括：对所述第一向量编码进行分段得到多个第一分段向量编码，并为每个所述第一分段向量编码标注对应的方言向量；相应的，所述依据所述方言向量通过多方言解码器对所述第一向量编码进行解码，包括...

【专利技术属性】
技术研发人员：罗海斯，
申请(专利权)人：百果园技术新加坡有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人