一种多模态语音识别纠错方法和系统技术方案

技术编号：37713896 阅读：22 留言：0更新日期：2023-06-02 00:08

本发明专利技术公开了一种多模态语音识别纠错方法和系统，包括：从语料库中获取原始样本数据，利用模糊音生成器对原始样本生成错误样本；根据错误样本文字的声母和韵母进行标注，构建不同相似度等级的模糊音文字；根据标注的错误样本数据，调整错误样本数据模糊音文字不同相似度等级比例参数；基于原始的正确样本和错误样本数据构建语音和文字融合特征向量，将所述融合特征向量输入到纠错模型模型中训练，通过全连接层和激活函数输出每一个语音位置的正确概率最大的字。方法和系统利用语音和文本的多模态融合的特征进行训练，得到用于客服语音纠错的模型，基于文本和语音结合的纠错模型可以降低方言和环境噪音等影响，从而提高客服语音质检的准确率。质检的准确率。质检的准确率。

全部详细技术资料下载

【技术实现步骤摘要】
一种多模态语音识别纠错方法和系统

[0001]本专利技术涉及语音识别
，特别涉及一种多模态语音识别纠错方法和系统。

技术介绍

[0002]现今的客服服务主要以热线电话为主，客服语音质检是热线服务运营中一个非常重要的质量控制环节，传统的客服质检是通过人工监听客服通话录音完成的耗时又耗力，且只能用随机采样的方法进行抽检。智能质检的出现更改了传统客服中心质量检验的现状，全量质量检验，可同屏质检并线上提示客户意味着数据分析报告可即时查询。但客服语音受到环境噪音及方言等问题困扰，自动语音识别文本错误无法避免，如果缺少对文本的纠错处理，质检的准确率无法保证。因此文本纠错技术是智能质检结果可靠性的基础。目前在质检语音纠错任务面临的主要问题有：1、大多数纠错方案只对语音识别后的文本数据进行纠错，损失了原本的语音数据信息；2、目前客服场景语音识别的错误样本标注较少，难以达到较好的训练效果。

技术实现思路

[0003]本专利技术其中一个专利技术目的在于提供一种多模态语音识别纠错方法和系统，所述方法和系统利用语音和文本的多模...

【技术保护点】

【技术特征摘要】
1.一种多模态语音识别纠错方法，其特征在于，所述方法包括：从语料库中获取原始样本数据，利用模糊音生成器对所述原始样本生成错误样本；根据文字的声母和韵母对错误样本进行标注，构建不同相似度等级的模糊音文字；根据标注的错误样本数据，调整错误样本数据模糊音文字不同相似度等级比例参数；基于原始的正确样本和错误样本数据构建语音和文字融合特征向量，将所述融合特征向量输入到纠错模型模型中训练，通过全连接层和激活函数输出每一个语音位置的正确概率最大的字。2.根据权利要求1所述的一种多模态语音识别纠错方法，其特征在于，所述错误样本标记方法包括：根据错误样本每个文字的平卷舌音、声调和前后鼻音分别进行标记，得到标记后样本数据。3.根据权利要求1所述的一种多模态语音识别纠错方法，其特征在于，所述错误样本的生成方法包括：基于模糊音生成器的模糊拼音对原始样本进行处理，得到相似拼音文字不同的错误样本数据。4.根据权利要求1所述的一种多模态语音识别纠错方法，其特征在于，基于错误样本的模糊音文字相似度等级构建方法包括，将存在的至少一个平卷舌音、声调和前后鼻音的相似文字根据相似类型数量配置相似等级，其中相似类型越多相似等级越高。5.根据权利要求1所述的一种多模态语音识别纠错方法，其特征在于，所述错误样本生成方法包括：根据错误样本中模糊音整体情况，调整不同等级模糊音的比例，使得所述错误样本更接近真实数据增强样本。...

【专利技术属性】
技术研发人员：刘卫东，宣明辉，王慜骊，
申请(专利权)人：信雅达科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人