语音的处理方法和装置制造方法及图纸

技术编号：27099090 阅读：15 留言：0更新日期：2021-01-25 18:40

本申请公开了一种语音的处理方法，包括：获取原始语音数据；对原始语音数据进行预识别，以获得预识别文本；通过领域场景分类器模型对预识别文本进行处理，以获得预识别文本所属的领域场景信息；通过与领域场景信息对应的领域场景语言模型对预识别结果进行二次识别，以获得最终识别文本；对最终识别文本进行正确性修正和领域场景信息标注，以获得修正后文本；根据领域场景信息，将修正后文本加入到相应的领域场景语言模型的文本数据库中；对领域场景语言模型进行更新；将修正后文本加入到领域场景分类器模型的训练数据库中；对领域场景分类器模型进行迭代训练。能够使得语音识别模型与具体的应用领域场景更有效的匹配，提高语音识别的准确性。音识别的准确性。音识别的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
语音的处理方法和装置

[0001]本申请属于语音识别
，具体涉及一种语音的处理方法和装置。

技术介绍

[0002]现有技术中，语音识别系统主要包含声学模型和语言模型两部分，声学模型负责将语音信号加窗分帧、提取特征，之后转化为每帧对应的音素状态得分；语言模型主要负责对可能存在的多种音素序列，找到与音素状态序列最匹配的文本序列。通常情况下，选用不同的语言模型最终得到的语音识别文本是有差异的。
[0003]但是在实现本申请过程中，专利技术人发现，目前至少存在以下问题：一般来说，现有技术会选取构建一个通用的语言模型，由于不同领域场景的语言模型在话题、词频和风格上有着较大的差异，通用的语言模型与实际应用需求之间的匹配度往往不高，导致不能有效的降低语音识别系统的识别错误率。

技术实现思路

[0004]本申请实施例的目的是提供语音的处理方法和装置，能够解决目前的由于不同领域场景的语言模型在话题、词频和风格上有着较大的差异，通用的语言模型与实际应用需求之间的匹配度往往不高，导致不能有效的降低语音识别系统的识别错误率的技术问题。
[0005]为了解决上述技术问题，本申请是这样实现的：第一方面，本申请实施例提供了一种语音的处理方法，包括：获取原始语音数据；对所述原始语音数据进行预识别，以获得预识别文本；通过领域场景分类器模型对所述预识别文本进行处理，以获得所述预识别文本所属的领域场景信息；通过与所述领域场景信息对应的领域场景语言模型对所述预识别结果进行二次识别，以获得最终识别文本；对所述最终识别文本...

【技术保护点】

【技术特征摘要】
1.一种语音的处理方法，其特征在于，包括：获取原始语音数据；对所述原始语音数据进行预识别，以获得预识别文本；通过领域场景分类器模型对所述预识别文本进行处理，以获得所述预识别文本所属的领域场景信息；通过与所述领域场景信息对应的领域场景语言模型对所述预识别结果进行二次识别，以获得最终识别文本；对所述最终识别文本进行正确性修正和领域场景信息标注，以获得修正后文本；根据所述领域场景信息，将所述修正后文本加入到相应的所述领域场景语言模型的文本数据库中；对所述领域场景语言模型进行更新；将所述修正后文本加入到领域场景分类器模型的训练数据库中；对所述领域场景分类器模型进行迭代训练。2.根据权利要求1所述的方法，其特征在于，所述对所述领域场景语言模型进行更新，具体为：定时对所述领域场景语言模型进行更新，或者，在加入到所述文本数据库中的文本数量大于第一预设值的情况下，对所述领域场景语言模型进行更新。3.根据权利要求1所述的方法，其特征在于，所述对所述领域场景分类器模型进行迭代训练，具体为：定时对所述领域场景分类器模型进行迭代训练，或者，在加入到所述训练数据库中的文本数量大于第二预设值的情况下，对所述领域场景分类器模型进行迭代训练。4.根据权利要求1所述的方法，其特征在于，所述对所述领域场景分类器模型进行迭代训练，具体为：在bert预训练模型上利用所述修正后文本与所述领域场景信息对所述领域场景分类器模型进行微调。5.根据权利要求1所述的方法，其特征在于，所述领域场景分类器模型由对textcnn模型或者fasttext模型进行训练生成；所述领域场景语言模型由对N-gram模型或者神经网络进行训练生成。6.一种语音的处理装置，其特征在于，包括：获...

【专利技术属性】
技术研发人员：张晴晴，何淑琳，贾艳明，张雪璐，
申请(专利权)人：北京爱数智慧科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人