System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种文本修正方法、装置、设备及存储介质制造方法及图纸_技高网

一种文本修正方法、装置、设备及存储介质制造方法及图纸

技术编号:41133276 阅读:4 留言:0更新日期:2024-04-30 18:03
本申请实施例提供了一种文本修正方法、装置、设备及存储介质。其中,一种文本修正方法,包括:获取对目标语音进行文本转换所得到的文本,作为目标文本;获取所述目标文本对应的上文文本;判断所述目标文本的字数是否大于预设阈值;根据所述目标文本的字数确定对所述目标文本的修正策略。可见,本方案可以对利用用户的语音转换成的文本数据进行修正,得到更加贴合用户实际表达内容的文本数据。

【技术实现步骤摘要】

本申请涉及机器识别,特别是涉及一种文本修正方法、装置、设备及存储介质


技术介绍

1、智能客服应用范围广泛,可以为用户提供服务,在提升了工作效率的同时,为公司降本增效。而智能客服在应用时需要理解并明确用户的意图,继而进行个性化服务,可见精准理解用户所表达的意图是十分关键的。

2、在用户与智能客服交互过程中,智能客服需要将用户的语音转换成对应的文本数据,从而基于文本数据进行意图识别。但是,由于语音转换的技术原因以及其它因素,例如用户发音不标准以及环境噪音的影响,导致转换得到的文本数据不准确,从而导致后续对用户意图理解出现偏差。并且,用户与智能客服交互过程中,用户通常倾向于简短并且口语化的表达,因此用户表述中存在着大量信息省略和指代问题,这会导致仅仅基于转换得到的文本数据,智能客服无法确定用户表达的意图。

3、因此,为了更加精准的理解用户所表达的意图,如何对利用用户的语音转换成的文本数据进行修正,得到更加贴合用户实际表达内容的文本数据成为亟需解决的问题。


技术实现思路

1、本申请实施例的目的在于提供一种文本修正方法、装置、设备及存储介质,以实现对利用用户的语音转换成的文本数据进行修正,得到更加贴合用户实际表达内容的文本数据。

2、具体技术方案如下:

3、第一方面,本申请实施例提供了一种文本修正方法,所述方法包括:

4、获取对目标语音进行文本转换所得到的文本,作为目标文本;其中,所述目标语音为用户与交互对象进行语音交互时所发出的语音;

5、获取所述目标文本对应的上文文本;其中,所述上文文本为所述目标语音对应的参考语音的文本,所述目标语音对应的参考语音为:在进行所述语音交互时,所述目标语音发出之前所产生的交互语音;

6、判断所述目标文本的字数是否大于预设阈值;

7、若判断出所述目标文本的字数大于所述预设阈值,基于所述上文文本,对所述目标文本进行预定的文本纠正处理,得到第一文本,并基于所述上文文本,对所述第一文本进行预定的文本补全处理,得到所述目标文本对应的文本修正结果;

8、若判断出所述目标文本的字数不大于所述预设阈值,基于所述上文文本,对所述目标文本进行所述文本补全处理,得到第二文本,并基于所述上文文本,对所述第二文本进行所述文本纠正处理,得到所述目标文本对应的文本修正结果;

9、其中,对所述第一文本和所述目标文本中的任一文本进行所述文本补全处理的过程包括:

10、获得该文本对应的目标文本序列;其中,所述目标文本序列为基于预定拼接符,将该文本和所述上文文本进行拼接后所得到的文本序列;

11、基于预先训练的文本补全模型以及所述目标文本序列,确定该文本的关于所述文本补全处理的结果;其中,所述文本补全模型用于基于所述目标文本序列中的所述上文文本的语义,将所述目标文本序列中的该文本中存在的省略和/或指代的字进行补全。

12、第二方面,本申请实施例提供了一种文本修正装置,所述装置包括:

13、第一获取模块,用于获取对目标语音进行文本转换所得到的文本,作为目标文本;其中,所述目标语音为用户与交互对象进行语音交互时所发出的语音;

14、第二获取模块,用于获取所述目标文本对应的上文文本;其中,所述上文文本为所述目标语音对应的参考语音的文本,所述目标语音对应的参考语音为:在进行所述语音交互时,所述目标语音发出之前所产生的交互语音;

15、判断模块,用于判断所述目标文本的字数是否大于预设阈值;

16、第一处理模块,用于若判断出所述目标文本的字数大于所述预设阈值,基于所述上文文本,对所述目标文本进行预定的文本纠正处理,得到第一文本,并基于所述上文文本,对所述第一文本进行预定的文本补全处理,得到所述目标文本对应的文本修正结果;

17、第二处理模块,用于若判断出所述目标文本的字数不大于所述预设阈值,基于所述上文文本,对所述目标文本进行所述文本补全处理,得到第二文本,并基于所述上文文本,对所述第二文本进行所述文本纠正处理,得到所述目标文本对应的文本修正结果;

18、其中,对所述第一文本和所述目标文本中的任一文本进行所述文本补全处理的过程包括:

19、获得该文本对应的目标文本序列;其中,所述目标文本序列为基于预定拼接符,将该文本和所述上文文本进行拼接后所得到的文本序列;

20、基于预先训练的文本补全模型以及所述目标文本序列,确定该文本的关于所述文本补全处理的结果;其中,所述文本补全模型用于基于所述目标文本序列中的所述上文文本的语义,将所述目标文本序列中的该文本中存在的省略和/或指代的字进行补全。

21、第三方面,本申请实施例提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;

22、存储器,用于存放计算机程序;

23、处理器,用于执行存储器上所存放的程序时,实现上述任一所述的文本修正方法。

24、第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一所述的文本修正方法。

25、本申请实施例还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述任一所述的文本修正方法。

26、本申请实施例有益效果:

27、本申请实施例提供的一种文本修正方法,通过获取对目标语音进行文本转换所得到的文本,作为目标文本,并获取目标文本的上文文本,根据目标文本的字数,采取不同的修正策略;其中,当目标文本的字数大于所述预设阈值时,基于所述上文文本对所述目标文本进行预定的文本纠正处理,得到第一文本,并基于所述上文文本,对所述第一文本进行预定的文本补全处理,得到所述目标文本对应的文本修正结果;所述目标文本的字数不大于所述预设阈值,基于所述上文文本,对所述目标文本进行所述文本补全处理,得到第二文本,并基于所述上文文本,对所述第二文本进行所述文本纠正处理,得到所述目标文本对应的文本修正结果。

28、本申请中,所述文本补全处理和所述文本纠正处理都需要用到所述目标文本和所述上文文本的语义,而需要采取两种策略的原因是所述目标文本的字数对于语义有影响,所述目标文本的字数越少,获取的关于所述目标文本的语义信息越少,而所述文本补全处理依赖所述上文文本的语义,因此在所述目标文本的字数不大于所述预设阈值时,先进行所述文本补全处理,补全后的文本字数更多,语义信息更丰富,此时再进行所述文本纠正处理会更加准确。而通过上述两种策略,都可以实现在符合语义的情况下,对目标文本进行补全和纠正,可见,本申请可以对利用用户的语音转换成的文本数据进行修正,得到更加贴合用户实际表达内容的文本数据。

29、当然,实施本申请的任一产品或方法并不一定需要同时达到以上所述的所有优点。

本文档来自技高网...

【技术保护点】

1.一种文本修正方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述文本补全模型包括编码器和解码器,所述文本补全模型的训练过程包括:

3.根据权利要求1或2所述的方法,其特征在于,对所述目标文本和第二文本中的任一待纠正文本进行文本纠正处理的过程由预设的检测器和纠正器进行实现;

4.根据权利要求3所述的方法,其特征在于,所述检测器中包含有第一双向语言模型BERT模型、第二BERT模型以及第一归一化指数softmax层;

5.根据权利要求2所述的方法,其特征在于,所述待进行文本补全的样本文本的获取方式包括:

6.根据权利要求4所述的方法,其特征在于,所述对所述检测器和所述纠正器进行联合训练时所利用的样本文本的获取方式包括:

7.一种文本修正装置,其特征在于,包括:

8.根据权利要求7所述的装置,其特征在于,所述文本补全模型包括编码器和解码器,所述文本补全模型的训练过程包括:

9.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-6任一所述的方法。

...

【技术特征摘要】

1.一种文本修正方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述文本补全模型包括编码器和解码器,所述文本补全模型的训练过程包括:

3.根据权利要求1或2所述的方法,其特征在于,对所述目标文本和第二文本中的任一待纠正文本进行文本纠正处理的过程由预设的检测器和纠正器进行实现;

4.根据权利要求3所述的方法,其特征在于,所述检测器中包含有第一双向语言模型bert模型、第二bert模型以及第一归一化指数softmax层;

5.根据权利要求2所述的方法,其特征在于,所述待进行文本补全的样本文本的获取方式包括:

6....

【专利技术属性】
技术研发人员:孙冰潘建东刘国杨
申请(专利权)人:中信建投证券股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1