语言模型的训练方法、语音识别方法及相关装置制造方法及图纸

技术编号：30019439 阅读：12 留言：0更新日期：2021-09-11 06:35

本申请实施例提供的语言模型的训练方法、语音识别方法及相关装置，方法包括：获得口语训练语料集和业务训练语料集；其中，口语训练语料集是在任意场景下采集的文本集；业务数据集是在直播场景下采集的主播用户对应的文本集；根据口语训练语料集，对初始的语言模型进行预训练，获得预训练的语言模型；根据业务训练语料集，对预训练的语言模型进行微调训练，获得训练后的语言模型。本申请的训练样本不仅有业务训练语料，还有口语语料，在训练过程中先用口语训练语料进行预训练再用业务训练语料进行微调训练的训练，从而使得获得的语言模型不仅能够适配业务场景，还能避免出现过拟合。合。合。

全部详细技术资料下载

【技术实现步骤摘要】
语言模型的训练方法、语音识别方法及相关装置

[0001]本申请涉及语音识别领域，具体而言，涉及一种语言模型的训练方法、语音识别方法及相关装置。

技术介绍

[0002]随着人工智能和自然语言处理技术的不断发展，语音识别技术也得到了快速地发展。采用语音识别技术可以自动将音频信号转变为相应的文本或命令，可以应用在普通的、日常的语音识别场景中，并取得较好的识别效果。
[0003]近年来，端到端语音识别(E2E
‑
ASR)已经逐渐成为主流，但是在具体的应用场景中，端到端语音识别用到的语言模型的训练样本仅仅是业务数据，而业务数据通常呈现出短文本多长文本少的分布状态，训练过程容易过拟合，无法适配业务场景。

技术实现思路

[0004]为了解决上述技术问题，本申请的目的在于提供一种语言模型的训练方法、语音识别方法及相关装置。
[0005]本申请实采用的技术方案如下：
[0006]第一方面，本申请提供一种语言模型的训练方法，所述方法包括：获得口语训练语料集和业务训练语料集；其中，所述口语训练语料集是在任意场景下采集的文本集；所述业务数据集是在直播场景下采集的主播用户对应的文本集；根据所述口语训练语料集，对初始的语言模型进行预训练，获得预训练的所述语言模型；根据所述业务训练语料集，对所述预训练的所述语言模型进行微调训练，获得训练后的所述语言模型。
[0007]第二方面，本申请提供一种语音识别方法，所述方法包括：获得待识别语音；基于预训练的语音识别模型和语言模型，获得所述待识...

【技术保护点】

【技术特征摘要】
1.一种语言模型的训练方法，其特征在于，所述方法包括：获得口语训练语料集和业务训练语料集；其中，所述口语训练语料集是在任意场景下采集的文本集；所述业务训练语料集是在直播场景下采集的主播用户对应的文本集；根据所述口语训练语料集，对初始的语言模型进行预训练，获得预训练的所述语言模型；根据所述业务训练语料集，对所述预训练的所述语言模型进行微调训练，获得训练后的所述语言模型。2.根据权利要求1所述的语言模型的训练方法，其特征在于，在获得口语训练语料集和业务训练语料集的步骤之后，所述方法还包括：获得所述口语训练语料集中的第一待处理文本和所述业务训练语料集中的第二待处理文本；其中，所述第一待处理文本和所述第二待处理文本各自的文本长度大于预设长度；根据预设截断概率和预设截断长度，分别对所述第一待处理文本和所述第二待处理文本进行截断；将截断后的所述第一待处理文本作为所述口语训练语料集中的训练语料，将截断后的所述第二待处理文本作为所述业务训练语料集中的训练语料。3.根据权利要求1所述的语言模型的训练方法，其特征在于，获得口语训练语料集和业务训练语料集之后，所述方法还包括：对所述口语训练语料集和所述业务训练语料集中的每个文本进行语料清洗。4.一种语音识别方法，其特征在于，所述方法包括：获得待识别语音；基于预训练的语音识别模型和语言模型，获得所述待识别语音对应的目标文本；其中，所述语言模型是基于口语训练语料集和业务训练语料集训练而成；所述口语训练语料集是在任意场景下采集的文本集；所述训练语料集是在直播场景下采集的主播用户对应的文本集。5.根据权利要求4所述的语音识别方法，其特征在于，所述语言模型通过以下方式训练：根据所述口语训练语料集，对初始的所述语言模型进行预训练，获得预训练的所述语言模型；根据所述业务训练语料集，对所述预训练的所述语言模型进行微调训练，获得训练后的所述语言模型。6.根据权利要求4所述的语音识别方法，其特征在于，基于预训练的语音识别模型和语言模型，获得所述待识别语音对应的目标文本，包括：获得所述待识别语音对应的音频特征；基于所述语音识别模型，获得所述音频特征对应的文字序列以及...

【专利技术属性】
技术研发人员：吴振宗，徐易楠，康世胤，许佳，
申请(专利权)人：广州虎牙科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人