基于语音识别的数据处理方法、装置、设备和存储介质制造方法及图纸

技术编号:39438104 阅读:12 留言:0更新日期:2023-11-19 16:21
本申请提供了一种基于语音识别的数据处理方法、装置、设备和存储介质,所述方法通过获取目标语音,通过语音转写模型对目标语音进行转写,生成文字文本,对文字文本的语篇结构及谈论对象进行抽取,通过错误检出模型对文字文本进行检测,根据抽取结果及检测结果,判断文字文本是否存在错误数据,提高文字文本中错误数据识别的准确率,从而提高语音识别准确率。从而提高语音识别准确率。从而提高语音识别准确率。

【技术实现步骤摘要】
基于语音识别的数据处理方法、装置、设备和存储介质


[0001]本申请涉及数据处理
,尤其涉及一种基于语音识别的数据处理方法、装置、设备和计算机可读存储介质。

技术介绍

[0002]随着5G技术和人工智能技术的发展,语音识别、机器翻译技术的准确性、实时性得到巨大提升,2022年3月在业界首次实现多语种能力的AI多媒体服务器与5G软交换核心网的融合,成功突破AI与通信网络之间的兼容问题,实现了在视频通话中搭载实时多语种翻译能力。但由于视频通话场景实时性高,对话双方交流内容广,通话数据隐私性强,以及通话场景噪声、衰落信道等多种因素的限制,目前视频通话场景下的多语种翻译仅能满足不同语言之间用户的基础使用需求,在对话体验层面有待进一步提高。
[0003]现有技术方案中,针对语音识别和翻译中的错误问题,常用方法有两种:
[0004]方案一是标注人员人工筛查,通过海量数据查阅+关键词检索的方式,对数据中的转写和翻译错误数据进行筛查、定位和修改。
[0005]方案二是收集海量同场景数据训练模型,并将数据投入训练好的模型中进行对比、分级和打分,并配合人工筛查的方式找出低评分、低分级数据中有转写或翻译错误的内容。
[0006]因此,视频通话场景下的语音识别准确率有待提高是亟待解决的技术问题。

技术实现思路

[0007]本申请提供了一种基于语音识别的数据处理方法、装置、设备和存储介质,旨在解决目前视频通话场景下语音识别准确率的提高面临成本高、同场景训练数据需求量大的技术问题。
[0008]第一方面,本申请实施例提供了一种基于语音识别的数据处理方法,所述方法包括:
[0009]获取目标语音,通过语音转写模型对所述目标语音进行转写,生成文字文本;
[0010]对所述文字文本的语篇结构及谈论对象进行抽取,并通过错误检出模型对所述文字文本进行检测;
[0011]根据抽取结果及检测结果,判断所述文字文本是否存在错误数据。
[0012]第二方面,本申请实施例提供了一种基于语音识别的数据处理装置,所述装置包括:
[0013]转写模块,用于获取目标语音,通过语音转写模型对所述目标语音进行转写,生成文字文本;
[0014]抽取及检测模块,用于对所述文字文本的语篇结构及谈论对象进行抽取,并通过错误检出模型对所述文字文本进行检测;
[0015]判断模块,用于根据抽取结果及检测结果,判断所述文字文本是否存在错误数据。
[0016]第三方面,本申请实施例提供了一种基于语音识别的数据处理设备,所述基于语音识别的数据处理设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的基于语音识别的数据处理程序,其中所述基于语音识别的数据处理程序被所述处理器执行时,实现如上所述的基于语音识别的数据处理方法的步骤。
[0017]第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其中所述计算机程序被处理器执行时,实现如上所述的基于语音识别的数据处理方法的步骤。
[0018]本申请实施例提供了一种基于语音识别的数据处理方法、装置、设备和存储介质,所述方法通过获取目标语音,通过语音转写模型对所述目标语音进行转写,生成文字文本,对所述文字文本的语篇结构及谈论对象进行抽取,并通过错误检出模型对所述文字文本进行检测,根据抽取结果及检测结果,判断所述文字文本是否存在错误数据,提高文字文本中错误数据识别的准确率,从而提高语音识别准确率,同时克服了人工筛查成本高、模型筛查数据需求量大的问题。
[0019]应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请实施例的公开内容。
附图说明
[0020]为了更清楚地说明本申请实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0021]图1是本申请实施例提供的基于语音识别的数据处理设备的硬件结构示意图;
[0022]图2是本申请实施例提供的基于语音识别的数据处理方法第一实施例的流程示意图;
[0023]图3是本申请一实施方式中对话语篇结构分析及谈论对象抽取模型结构图;
[0024]图4是本申请一实施方式中错误检出模型结构图;
[0025]图5是本申请实施例提供的基于语音识别的数据处理方法第二实施例的流程示意图;
[0026]图6是本申请一实施方式中实际场景下实时展示目标语音对应的文字文本示例图;
[0027]图7是本申请实施例提供的基于语音识别的数据处理装置的功能模块示意图。
具体实施方式
[0028]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0029]附图中所示的流程图仅是示例说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解、组合或部分合并,因此实际执行的顺序有可能根据实际情况改变。
[0030]下面结合附图,对本申请的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
[0031]参照图1,图1为本专利技术实施例方案中涉及的基于语音识别的数据处理设备的硬件结构示意图。本专利技术实施例中,基于语音识别的数据处理设备可以包括处理器1001(例如CPU),通信总线1002,用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信;用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard);网络接口1004可选的可以包括标准的有线接口、无线接口(如WI

FI接口);存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non

volatile memory),例如磁盘存储器,存储器1005可选的还可以是独立于前述处理器1001的存储装置。
[0032]本领域技术人员可以理解,图1中示出的硬件结构并不构成对基于语音识别的数据处理设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
[0033]参照图1,图1中作为一种计算机可读存储介质的存储器1005可以包括操作系统、网络通信模块以及基于语音识别的数据处理程序。
[0034]在图1中,网络通信模块主要用于连接服务器,与服务器进行数据通信;而处理器1001可以调用存储器1005中存储的基于语音识别的数据处理程序,并执行本专利技术实施例提供的基于语音识别的数据处理方法。
[0035本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于语音识别的数据处理方法,其特征在于,所述方法包括:获取目标语音,通过语音转写模型对所述目标语音进行转写,生成文字文本;对所述文字文本的语篇结构及谈论对象进行抽取,并通过错误检出模型对所述文字文本进行检测;根据抽取结果及检测结果,判断所述文字文本是否存在错误数据。2.根据权利要求1所述的基于语音识别的数据处理方法,其特征在于,所述语篇结构包括意图识别结果和句间关系;所述对所述文字文本的语篇结构及谈论对象进行抽取,包括:将所述文字文本输入第一文本分类模型,输出意图识别结果;根据所述文字文本及所述意图识别结果生成目标数据,将所述目标数据输入第二文本分类模型,输出所述文字文本的句间关系及谈论对象。3.根据权利要求2所述的基于语音识别的数据处理方法,其特征在于,所述根据所述文字文本及所述意图识别结果生成目标数据,将所述目标数据输入第二文本分类模型,输出所述文字文本的句间关系及谈论对象,包括:从所述文字文本中提取上轮话语和当前话语,从所述意图识别结果中提取上轮意图和当前意图,拼接所述上轮话语、所述当前话语、所述上轮意图和所述当前意图,获得目标数据;将所述目标数据输入第二文本分类模型,经过所述第二文本分类模型中变换层、全连接层、传输层的计算,输出所述文字文本的句间关系及谈论对象。4.根据权利要求1所述的基于语音识别的数据处理方法,其特征在于,所述通过错误检出模型对所述文字文本进行检测,包括:遍历所述文字文本,提取上轮话语和当前话语;拼接所述上轮话语和所述当前话语,将拼接后话语输入错误检出模型,输出所述当前话语中的当前错误;遍历完成,获得所述文字文本中的文本错误,所述文本错误包括至少一个当前错误。5.根据权利要求4所述的基于语音识别的数据处理方法,其特征在于,所述拼接所述上轮话语和所述当前话语,将拼接后话语输入错误检出模型,输出所述当前话语中的当前错误,包括:拼接所述上轮话语和所述当前话语,将拼接后话语输入错误检出模型,经过变换层和条件随机场的计算,输出所述当前话语中的错误,其中,所述变换层中的注意力机制为融合相似度的注意力机制。6.根据权利要求1所述的基于语音识别的数据处理方法,其特征在于,所述获取目标语音,通过语音转写模型对所述目标语音进行...

【专利技术属性】
技术研发人员:彭英伦赵红红刘平平伍大勇王宝鑫
申请(专利权)人:广州市讯飞樽鸿信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1