基于语音识别的数据处理方法、装置、设备和存储介质制造方法及图纸

技术编号：39438104 阅读：12 留言：0更新日期：2023-11-19 16:21

本申请提供了一种基于语音识别的数据处理方法、装置、设备和存储介质，所述方法通过获取目标语音，通过语音转写模型对目标语音进行转写，生成文字文本，对文字文本的语篇结构及谈论对象进行抽取，通过错误检出模型对文字文本进行检测，根据抽取结果及检测结果，判断文字文本是否存在错误数据，提高文字文本中错误数据识别的准确率，从而提高语音识别准确率。从而提高语音识别准确率。从而提高语音识别准确率。

全部详细技术资料下载

【技术实现步骤摘要】
基于语音识别的数据处理方法、装置、设备和存储介质

[0001]本申请涉及数据处理
，尤其涉及一种基于语音识别的数据处理方法、装置、设备和计算机可读存储介质。

技术介绍

[0002]随着5G技术和人工智能技术的发展，语音识别、机器翻译技术的准确性、实时性得到巨大提升，2022年3月在业界首次实现多语种能力的AI多媒体服务器与5G软交换核心网的融合，成功突破AI与通信网络之间的兼容问题，实现了在视频通话中搭载实时多语种翻译能力。但由于视频通话场景实时性高，对话双方交流内容广，通话数据隐私性强，以及通话场景噪声、衰落信道等多种因素的限制，目前视频通话场景下的多语种翻译仅能满足不同语言之间用户的基础使用需求，在对话体验层面有待进一步提高。
[0003]现有技术方案中，针对语音识别和翻译中的错误问题，常用方法有两种：
[0004]方案一是标注人员人工筛查，通过海量数据查阅+关键词检索的方式，对数据中的转写和翻译错误数据进行筛查、定位和修改。
[0005]方案二是收集海量同场景数据训练模型，并将数据投入训练好的模型中进行对比、分级和打分，并配合人工筛查的方式找出低评分、低分级数据中有转写或翻译错误的内容。
[0006]因此，视频通话场景下的语音识别准确率有待提高是亟待解决的技术问题。

技术实现思路

[0007]本申请提供了一种基于语音识别的数据处理方法、装置、设备和存储介质，旨在解决目前视频通话场景下语音识别准确率的提高面临成本高、同场景训练数据需求量大的技术问题。
...

【技术保护点】

【技术特征摘要】
1.一种基于语音识别的数据处理方法，其特征在于，所述方法包括：获取目标语音，通过语音转写模型对所述目标语音进行转写，生成文字文本；对所述文字文本的语篇结构及谈论对象进行抽取，并通过错误检出模型对所述文字文本进行检测；根据抽取结果及检测结果，判断所述文字文本是否存在错误数据。2.根据权利要求1所述的基于语音识别的数据处理方法，其特征在于，所述语篇结构包括意图识别结果和句间关系；所述对所述文字文本的语篇结构及谈论对象进行抽取，包括：将所述文字文本输入第一文本分类模型，输出意图识别结果；根据所述文字文本及所述意图识别结果生成目标数据，将所述目标数据输入第二文本分类模型，输出所述文字文本的句间关系及谈论对象。3.根据权利要求2所述的基于语音识别的数据处理方法，其特征在于，所述根据所述文字文本及所述意图识别结果生成目标数据，将所述目标数据输入第二文本分类模型，输出所述文字文本的句间关系及谈论对象，包括：从所述文字文本中提取上轮话语和当前话语，从所述意图识别结果中提取上轮意图和当前意图，拼接所述上轮话语、所述当前话语、所述上轮意图和所述当前意图，获得目标数据；将所述目标数据输入第二文本分类模型，经过所述第二文本分类模型中变换层、全连接层、传输层的计算，输出所述文字文本的句间关系及谈论对象。4.根据权利要求1所述的基于语音识别的数据处理方法，其特征在于，所述通过错误检出模型对所述文字文本进行检测，包括：遍历所述文字文本，提取上轮话语和当前话语；拼接所述上轮话语和所述当前话语，将拼接后话语输入错误检出模型，输出所述当前话语中的当前错误；遍历完成，获得所述文字文本中的文本错误，所述文本错误包括至少一个当前错误。5.根据权利要求4所述的基于语音识别的数据处理方法，其特征在于，所述拼接所述上轮话语和所述当前话语，将拼接后话语输入错误检出模型，输出所述当前话语中的当前错误，包括：拼接所述上轮话语和所述当前话语，将拼接后话语输入错误检出模型，经过变换层和条件随机场的计算，输出所述当前话语中的错误，其中，所述变换层中的注意力机制为融合相似度的注意力机制。6.根据权利要求1所述的基于语音识别的数据处理方法，其特征在于，所述获取目标语音，通过语音转写模型对所述目标语音进行...

【专利技术属性】
技术研发人员：彭英伦，赵红红，刘平平，伍大勇，王宝鑫，
申请(专利权)人：广州市讯飞樽鸿信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人