面向保险销售的文本纠错方法、装置及电子设备制造方法及图纸

技术编号:35525601 阅读:11 留言:0更新日期:2022-11-09 14:47
本发明专利技术提供一种面向保险销售的文本纠错方法、装置及电子设备,预先对掩码预训练模型进行训练得到纠错模型、且掩码预训练模型的输入包括字编码、位置编码、片段编码和拼音编码。对于所获取的目标转写文本,能够对其中同一角色的连续文本进行合并,合并后的目标转写文本中任意相邻的文本片段所属的角色不同;进而,轮询合并后的目标转写文本中连续的三个文本片段,并将所轮询的三个文本片段输入至纠错模型中,以通过纠错模型对所轮询的目标文本片段进行纠错,目标文本片段为所轮询的三个文本片段中、位于中间位置的文本片段。本发明专利技术能够对通话录音转写成文本进行纠错处理,为质量检测输出尽可能准确的文本数据。输出尽可能准确的文本数据。输出尽可能准确的文本数据。

【技术实现步骤摘要】
面向保险销售的文本纠错方法、装置及电子设备


[0001]本专利技术涉及软件
,更具体地说,涉及一种面向保险销售的文本纠错方法、装置及电子设备。

技术介绍

[0002]互联网保险领域中客服主要使用拨打电话的方式与客户进行沟通,以即时获取客户的需求并为之提供相应的服务。
[0003]由于对保险领域内的相关产品、政策等信息掌握的不熟悉等原因,导致客服在通过电话和客户进行沟通的过程中会出现许多服务错误。对此,就需要对客服使用电话同客户沟通的录音文本进行质量检测。
[0004]当前采用讯飞公司提供的第三方接口将录音转成对应的文本方便进行后续的内容审核,但通过对比观察通话录音和讯飞转写出的文本发现存在许多转写错误的字词。

技术实现思路

[0005]有鉴于此,为解决上述问题,本专利技术提供一种面向保险销售的文本纠错方法、装置及电子设备,技术方案如下:
[0006]一种面向保险销售的文本纠错方法,所述方法包括:
[0007]获取目标转写文本;
[0008]对所述目标转写文本中同一个角色的连续文本进行合并,合并后的目标转写文本中任意相邻的文本片段所属的角色不同;
[0009]轮询合并后的目标转写文本中连续的三个文本片段,并将所轮询的三个文本片段输入至纠错模型中,以通过所述纠错模型对所轮询的目标文本片段进行纠错,所述目标文本片段为所轮询的三个文本片段中、位于中间位置的文本片段;
[0010]其中,所述纠错模型是预先对掩码预训练模型进行训练得到的,且所述掩码预训练模型的输入包括字编码、位置编码、片段编码和拼音编码。
[0011]优选的,所述轮询合并后的目标转写文本中连续的三个文本片段,包括:
[0012]在合并后的目标转写文本的开始位置和结束位置处分别填充指定内容的第一文本片段和第二文本片段;
[0013]遍历合并后的目标转写文本中的各文本片段;
[0014]如果所遍历到的文本片段为距离开始位置最近的文本片段,则确定连续的三个文本片段分别为所述第一文本片段、所遍历到的文本片段、以及合并后的目标转写文本中与所遍历到的文本片段相邻且未遍历的一个文本片段;
[0015]如果所遍历到的文本片段不为距离开始位置最近的文本片段,则获取合并后的目标转写文本中与所遍历到的文本片段相邻且已遍历的一个文本片段的纠错结果;确定连续的三个文本片段分别为所获取的文本片段的纠错结果、所遍历到的文本片段、以及与所遍历到的文本片段相邻且未遍历的一个文本片段,其中,所遍历的文本片段为距离结束位置
最近的文本片段时,与所遍历到的文本片段相邻且未遍历的一个文本片段为所述第二文本片段。
[0016]优选的,所述将所轮询的三个文本片段输入至纠错模型中,以通过所述纠错模型对所轮询的目标文本片段进行纠错,包括:
[0017]将所轮询的三个文本片段输入至所述纠错模型中,以实现:
[0018]所述纠错模型分别对所轮询的三个文本片段进行字编码、位置编码、片段编码和拼音编码;按照字编码、位置编码、片段编码和拼音编码各自对应的权重参数,对所轮询的三个文本片段的字编码结果、位置结果、片段编码结果和拼音编码结果进行迭加;基于迭加结果对所述目标文本片段进行纠错。
[0019]优选的,所述掩码预训练模型包括:图卷积网络SpellGCN。
[0020]优选的,所述方法还包括:
[0021]获取已构建的关键词表,所述关键词表中记录有保险领域的关键词;
[0022]按照所述关键词表中的关键词对所述目标文本片段进行精准匹配/模糊匹配;
[0023]基于精准匹配/模糊匹配的匹配结果对所述目标文本片段的纠错结果进行调整。
[0024]一种面向保险销售的文本纠错装置,所述装置包括:
[0025]文本获取模块,用于获取目标转写文本;
[0026]文本合并模块,用于对所述目标转写文本中同一个角色的连续文本进行合并,合并后的目标转写文本中任意相邻的文本片段所属的角色不同;
[0027]文本纠错模块,用于轮询合并后的目标转写文本中连续的三个文本片段,并将所轮询的三个文本片段输入至纠错模型中,以通过所述纠错模型对所轮询的目标文本片段进行纠错,所述目标文本片段为所轮询的三个文本片段中、位于中间位置的文本片段;
[0028]其中,所述纠错模型是预先对掩码预训练模型进行训练得到的,且所述掩码预训练模型的输入包括字编码、位置编码、片段编码和拼音编码。
[0029]优选的,用于轮询合并后的目标转写文本中连续的三个文本片段的所述文本纠错模块,具体用于:
[0030]在合并后的目标转写文本的开始位置和结束位置处分别填充指定内容的第一文本片段和第二文本片段;遍历合并后的目标转写文本中的各文本片段;如果所遍历到的文本片段为距离开始位置最近的文本片段,则确定连续的三个文本片段分别为所述第一文本片段、所遍历到的文本片段、以及合并后的目标转写文本中与所遍历到的文本片段相邻且未遍历的一个文本片段;如果所遍历到的文本片段不为距离开始位置最近的文本片段,则获取合并后的目标转写文本中与所遍历到的文本片段相邻且已遍历的一个文本片段的纠错结果;确定连续的三个文本片段分别为所获取的文本片段的纠错结果、所遍历到的文本片段、以及与所遍历到的文本片段相邻且未遍历的一个文本片段,其中,所遍历的文本片段为距离结束位置最近的文本片段时,与所遍历到的文本片段相邻且未遍历的一个文本片段为所述第二文本片段。
[0031]优选的,用于将所轮询的三个文本片段输入至纠错模型中,以通过所述纠错模型对所轮询的目标文本片段进行纠错的所述文本纠错模块,具体用于:
[0032]将所轮询的三个文本片段输入至所述纠错模型中,以实现:所述纠错模型分别对所轮询的三个文本片段进行字编码、位置编码、片段编码和拼音编码;按照字编码、位置编
码、片段编码和拼音编码各自对应的权重参数,对所轮询的三个文本片段的字编码结果、位置结果、片段编码结果和拼音编码结果进行迭加;基于迭加结果对所述目标文本片段进行纠错。
[0033]优选的,所述装置还包括:
[0034]词表匹配模块,用于获取已构建的关键词表,所述关键词表中记录有保险领域的关键词;按照所述关键词表中的关键词对所述目标文本片段进行精准匹配/模糊匹配;基于精准匹配/模糊匹配的匹配结果对所述目标文本片段的纠错结果进行调整。
[0035]一种电子设备,所述电子设备包括:至少一个存储器和至少一个处理器;所述存储器存储有应用程序,所述处理器调用所述存储器存储的应用程序,所述应用程序用于实现所述的面向保险销售的文本纠错方法。
[0036]相较于现有技术,本专利技术实现的有益效果为:
[0037]本专利技术提供一种面向保险销售的文本纠错方法、装置及电子设备,预先对掩码预训练模型进行训练得到纠错模型、且掩码预训练模型的输入包括字编码、位置编码、片段编码和拼音编码。对于所获取的目标转写文本,能够对其中同一角色的连续文本进行合本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向保险销售的文本纠错方法,其特征在于,所述方法包括:获取目标转写文本;对所述目标转写文本中同一个角色的连续文本进行合并,合并后的目标转写文本中任意相邻的文本片段所属的角色不同;轮询合并后的目标转写文本中连续的三个文本片段,并将所轮询的三个文本片段输入至纠错模型中,以通过所述纠错模型对所轮询的目标文本片段进行纠错,所述目标文本片段为所轮询的三个文本片段中、位于中间位置的文本片段;其中,所述纠错模型是预先对掩码预训练模型进行训练得到的,且所述掩码预训练模型的输入包括字编码、位置编码、片段编码和拼音编码。2.根据权利要求1所述的方法,其特征在于,所述轮询合并后的目标转写文本中连续的三个文本片段,包括:在合并后的目标转写文本的开始位置和结束位置处分别填充指定内容的第一文本片段和第二文本片段;遍历合并后的目标转写文本中的各文本片段;如果所遍历到的文本片段为距离开始位置最近的文本片段,则确定连续的三个文本片段分别为所述第一文本片段、所遍历到的文本片段、以及合并后的目标转写文本中与所遍历到的文本片段相邻且未遍历的一个文本片段;如果所遍历到的文本片段不为距离开始位置最近的文本片段,则获取合并后的目标转写文本中与所遍历到的文本片段相邻且已遍历的一个文本片段的纠错结果;确定连续的三个文本片段分别为所获取的文本片段的纠错结果、所遍历到的文本片段、以及与所遍历到的文本片段相邻且未遍历的一个文本片段,其中,所遍历的文本片段为距离结束位置最近的文本片段时,与所遍历到的文本片段相邻且未遍历的一个文本片段为所述第二文本片段。3.根据权利要求1所述的方法,其特征在于,所述将所轮询的三个文本片段输入至纠错模型中,以通过所述纠错模型对所轮询的目标文本片段进行纠错,包括:将所轮询的三个文本片段输入至所述纠错模型中,以实现:所述纠错模型分别对所轮询的三个文本片段进行字编码、位置编码、片段编码和拼音编码;按照字编码、位置编码、片段编码和拼音编码各自对应的权重参数,对所轮询的三个文本片段的字编码结果、位置结果、片段编码结果和拼音编码结果进行迭加;基于迭加结果对所述目标文本片段进行纠错。4.根据权利要求1所述的方法,其特征在于,所述掩码预训练模型包括:图卷积网络SpellGCN。5.根据权利要求1所述的方法,其特征在于,所述方法还包括:获取已构建的关键词表,所述关键词表中记录有保险领域的关键词;按照所述关键词表中的关键词对所述目标文本片段进行精准匹配/模糊匹配;基于精准匹配/模糊匹配的匹配结果对所述目标文本片段的纠错结果进行调整。6.一种面向保险销售的文本纠错装置,其特征在于,所述装置包括:文本获取模块,用于获取目标转写文本;文本合并模块,用于对所述目标转写文本中同一个角色的连...

【专利技术属性】
技术研发人员:唐万祺
申请(专利权)人:慧择成都网络科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1