语音识别方法、装置、设备、介质和程序产品制造方法及图纸

技术编号：41395771 阅读：9 留言：0更新日期：2024-05-20 19:19

本公开提供了一种语音识别方法，可以应用于人工智能领域和金融技术领域。该语音识别方法包括：获取待识别语音数据，待识别语音数据至少部分包括特定语音和/或专业词汇；采用预先训练的语音识别模型对待识别语音数据进行识别，得到识别结果；其中，语音识别模型由多个不同数据集迭代训练得到。本公开还提供了一种语音识别装置、设备、存储介质和程序产品。

全部详细技术资料下载

【技术实现步骤摘要】

本公开涉及人工智能领域和金融领域，具体涉及语音识别领域，更具体地涉及一种语音识别方法、装置、设备、介质和程序产品。

技术介绍

1、语音识别技术，也被称为自动语音识别(automatic speech recognition，asr)，其目标是将人类语音中的词汇内容转换为计算机可读的输入，例如按键、二进制编码或者字符序列。

2、语音识别的基本原理是将输入的语音信号通过语音信号处理和模式识别让机器自动识别和理解人类口述的语句。其基本流程包括特征提取、声学模型、语言模型以及字典与解码四大部分。其中特征提取是将声音信号从时域转换到频域，为声学模型提供特征向量；声学模型是计算每一个特征向量在声学特征上的得分；语言模型则是根据语言学相关的理论，计算该声音信号对应可能词组序列的概率；字典是对词组序列进行解码，得到最后可能的文本表示。

3、语言模型应用广泛。在大模型训练过程中，虽然可以通过迁移学习来降低训练成本，但是对于特定领域如小语种(包括方言)等进行语言模型的迁移学习时，由于数据获取、数据处理难度较高、人工标注成本较高，仍会存在训练数据缺乏的问题。而训练数据的缺乏会导致模型在迁移学习过程中模型训练表现不佳，难以达到可用于实际应用的训练效果。

技术实现思路

1、鉴于上述问题，本公开提供了提高语言模型性能的语音识别方法、装置、设备、介质和程序产品。

2、根据本公开的第一个方面，提供了一种语音识别方法，包括：获取待识别语音数据，待识别语音数据至少部分包括特定语音和

3、根据本公开的实施例，语音识别模型的训练包括：获取训练语音数据集，训练语音数据集包括第一语音数据集和第二语音数据集，第一语音数据集的样本数量大于第二语音数据集的样本数量，第二语音数据集为特定的专业语音数据集；采用窗口滑动法对第二语音数据集进行碎片化处理，得到多个语音片段；采用第一语音数据集对初始语音识别模型进行训练，得到中间语音识别模型；以及采用多个语音片段对中间语音识别模型进行再训练，得到语音识别模型。

4、根据本公开的实施例，采用窗口滑动法对第二语音数据集进行碎片化处理，得到多个语音片段包括：确定滑动窗口的长度和窗口重叠率；确定第二语音数据集中的多个训练样本；根据窗口重叠率，分别滑动滑动窗口，以对多个训练样本进行分割，得到多个语音片段。

5、根据本公开的实施例，采用窗口滑动法对第二语音数据集进行碎片化处理，得到多个语音片段还包括：采用语音活动检测算法分别对多个语音片段进行语音活性检测，以确定包含非语音数据的待处理语音片段；判断非语音数据在待处理语音片段中的位置；在非语音数据处于待处理语音片段的首尾位置的情况下，剔除非语音数据；在非语音数据处于待处理语音片段的非首尾位置的情况下，复制待处理语音片段；以及分别将复制的待处理语音片段与相邻的语音片段进行拼接。

6、根据本公开的实施例，采用多个语音片段对中间语音识别模型进行再训练，得到语音识别模型包括：分别对多个语音片段进行标注，得到多个标注语音片段；采用多个标注语音片段对中间语音识别模型进行再训练，得到语音识别模型。

7、根据本公开的实施例，采用多个标注语音片段对中间语音识别模型进行再训练，得到语音识别模型包括：分别提取多个标注语音片段的mfcc特征和fbank特征；分别对多个标注语音片段进行文本转写，得到多个转写文本；以及采用mfcc特征和fbank特征，以及对应标注语音片段的转写文本对中间语音识别模型进行再训练，得到语音识别模型。

8、根据本公开的实施例，分别对多个语音片段进行标注，得到多个标注语音片段包括：对每个语音片段进行多次标注，得到多个标注结果；确定在多个标注结果中占比最大的结果为标注语音片段。

9、根据本公开的实施例，在对中间语音识别模型进行再训练之前，语音识别方法还包括：对多个标注语音片段进行相似度判断，以确定重复语音数据；以及对重复语音数据进行去重处理。

10、根据本公开的实施例，语音识别方法还包括：对训练语音数据集进行预处理，预处理包括：音频增强、噪声去除、音频修复和样本扩充中的任意一种或多种。

11、根据本公开的实施例，语音识别模型包括asr语音识别模型、小语种语音识别模型、方言语音识别模型和专业领域语音识别模型。

12、本公开的第二方面提供了一种语音识别装置，包括：获取模块，用于获取待识别语音数据，待识别语音数据至少部分包括特定语音和/或专业词汇；以及识别模块，用于采用预先训练的语音识别模型对待识别语音数据进行识别，得到识别结果；其中，语音识别模型由多个不同数据集迭代训练得到。

13、根据本公开的实施例，语音识别装置还包括训练模块，用于对语音识别模型进行训练；其中，训练模块包括：获取单元，用于获取训练语音数据集，训练语音数据集包括第一语音数据集和第二语音数据集，第一语音数据集的样本数量大于第二语音数据集的样本数量，第二语音数据集为特定的专业语音数据集；碎片化单元，用于采用窗口滑动法对第二语音数据集进行碎片化处理，得到多个语音片段；第一训练单元，用于采用第一语音数据集对初始语音识别模型进行训练，得到中间语音识别模型；以及第二训练单元，用于采用多个语音片段对中间语音识别模型进行再训练，得到语音识别模型。

14、本公开的第三方面提供了一种电子设备，包括：一个或多个处理器；存储器，用于存储一个或多个程序，其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得一个或多个处理器执行上述语音识别方法。

15、本公开的第四方面还提供了一种计算机可读存储介质，其上存储有可执行指令，该指令被处理器执行时使处理器执行上述语音识别方法。

16、本公开的第五方面还提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述语音识别方法。

17、与现有技术相比，本公开提供的语音识别方法、装置、电子设备、存储介质和程序产品，至少具有以下有益效果：

18、(1)本公开的语音识别方法，针对包括特定语音及专业词汇的待识别语音的识别，通过不同数据集迭代训练语音识别模型，可以实现对多种特定语音的灵活、精准识别。

19、(2)本公开的语音识别方法，在训练语音识别模型时，先采用大规模通用语音训练集对语音识别模型进行预训练，得到可以精准识别通用语音的中间语音识别模型，然后再根据特定领域的语音识别需要，采用小规模的专业语音数据集对该中间语音识别模型进行微调再训练，使得语音模型的训练可以灵活适应多种特定语音的识别，克服了低泛化性，针对小众语言(方言等)迁移性方案较为灵活，可以在小样本语音数据的基础上，完成较好的模型训练效果，提高语音识别精度的同时，大大降低了模型训练成本。

20、(3)本公开的语音识别方法，采用滑动窗口，按一定重叠率对小规模的专业语本文档来自技高网...

【技术保护点】

1.一种语音识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述语音识别模型的训练包括：

3.根据权利要求2所述的方法，其特征在于，所述采用窗口滑动法对所述第二语音数据集进行碎片化处理，得到多个语音片段包括：

4.根据权利要求3所述的方法，其特征在于，所述采用窗口滑动法对所述第二语音数据集进行碎片化处理，得到多个语音片段还包括：

5.根据权利要求4所述的方法，其特征在于，所述采用所述多个语音片段对所述中间语音识别模型进行再训练，得到所述语音识别模型包括：

6.根据权利要求5所述的方法，其特征在于，所述采用所述多个标注语音片段对所述中间语音识别模型进行再训练，得到所述语音识别模型包括：

7.根据权利要求5或6所述的方法，其特征在于，所述分别对所述多个语音片段进行标注，得到多个标注语音片段包括：

8.根据权利要求5或6所述的方法，其特征在于，在对所述中间语音识别模型进行再训练之前，所述方法还包括：

9.根据权利要求2～8任一项所述的方法，其特征在于，所述方法还包括：

10.根据权利要求9所述的方法，其特征在于，所述语音识别模型包括ASR语音识别模型、小语种语音识别模型、方言语音识别模型和专业领域语音识别模型。

11.一种语音识别装置，其特征在于，所述装置包括：

12.根据权利要求11所述的装置，其特征在于，所述装置还包括训练模块，用于对所述语音识别模型进行训练；

13.一种电子设备，包括：

14.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现根据权利要求1～10中任一项所述方法的步骤。

15.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现根据权利要求1～10中任一项所述方法的步骤。

...

【技术特征摘要】