System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 文本纠错方法、装置、设备及存储介质制造方法及图纸_技高网

文本纠错方法、装置、设备及存储介质制造方法及图纸

技术编号:39941323 阅读:5 留言:0更新日期:2024-01-08 22:35
本发明专利技术涉及数字金融领域的人工智能技术,揭露了一种文本纠错方法,包括:在接收到已授权第一终端发送的纠错请求的情况下,生成所述第一终端相关联的第一文件框,所述第一文件框用于获取用户键入的待纠错文本;对所述待纠错文本进行文本处理,生成待预测错词集;将所述待预测错词集和所述待纠错文本输入至预先训练好的上下文语义识别模型对所述待纠错文本进行语义预测,生成对应的第二预测词,利用所述第二预测词替换所述待预测错文本中的错误词,得到纠错后的正确文本。本发明专利技术还涉及区块链技术,所述纠错结果可存储在区块链的节点中。本发明专利技术还提出一种文本纠错装置、电子设备以及可读存储介质。本发明专利技术可以提高检测目标错词的准确率。

【技术实现步骤摘要】

本专利技术涉及数字金融及人工智能,尤其涉及一种文本纠错方法、装置、电子设备及可读存储介质。


技术介绍

1、随着人们生活的进一步发展,对精神需求越来越重视,通过养宠物的方式来满足一定的精神需求的方式越来越普遍,而且,很多家庭并不仅仅养宠物猫和宠物狗,对观赏鱼类动物、鸟类动物、爬行类动物以及啮齿类动物等的饲养越发普遍,因此,饲养的宠物在发生疾病、意外伤害等情况的也越普遍,宠物种类的多样性以及宠物疾病的多样性导致可以投保的保险种类的增加,所以在发生宠物意外理赔时,客服人员和客户进行沟通需要获取大量的理赔材料,其中,难免会出现录入错误或者收集错误的问题造成理赔异常,可以提出一种文本纠错方法来检测大量的不同类型的理赔文件中是否出现文本语法错误,并自动进行纠正。


技术实现思路

1、本专利技术提供一种文本纠错方法、装置、电子设备及可读存储介质,其主要目的在于解决不同类型的理赔文本中出现的错误文本的问题。

2、为实现上述目的,本专利技术提供的一种文本纠错方法,包括:

3、在接收到已授权第一终端发送的纠错请求的情况下,生成所述第一终端相关联的第一文件框,所述第一文件框用于获取用户键入的待纠错文本;

4、对所述待纠错文本进行文本处理,得到对应的第一预测文本集;

5、提取所述第一预测文本集中和所述待纠错文本比对不一致的字段进行分词处理,生成待预测错词集;

6、将所述待预测错词集和所述待纠错文本输入至预先训练好的上下文语义识别模型对所述待纠错文本进行语义预测,生成对应的第二预测词;

7、利用所述第二预测词替换所述待预测错文本中的错误词,得到纠错后的正确文本。

8、可选地,所述对所述待纠错文本进行文本处理,得到对应的第一预测文本集之前,包括:

9、获取原始训练文本集,

10、利用随机函数确定所述原始训练文本集中每一个原始训练文本中的可替换实体字词;

11、基于所述可替换实体字词对所述每一个原型训练文本进行单词置换,生成置换文本集;

12、将所述置换文本集汇入所述训练文本集,得到完备训练文本集;

13、利用所述完备训练文本集对所述上下文语义识别模型进行训练,得到训练好的上下文语义识别模型。

14、可选地,所述基于所述可替换实体字词对所述每一个原型训练文本进行单词置换,生成置换文本集,还包括:

15、获取预存的相似词词典和同音字词典,其中,所述同音字字典中包括同一拼音与不同字形的同拼音字关系,所述相似字字典包括同型字与不同偏旁的相似字性形关系;

16、基于所述同拼音字关系对所述可替换实体字词进行对所述单词置换,得到第一置换文本集;

17、基于所述相似字形关系对所述可替换实体字词进行对所述单词置换,得到第二置换文本集;

18、汇总所述第一置换文本和所述第二置换文本,得到所述置换文本集。

19、可选的,所述汇总所述第一置换文本和所述第二置换文本,得到所述置换文本集,还包括:

20、基于所述相似字形关系中的相似字对所述第一置换文本集中的已替换实体字词进行再替换,得到第三置换文本集;

21、基于所述同拼音字关系中的同音字对所述第二置换文本集中的已替换实体字词进行再替换,得到第四置换文本集;

22、汇总所述第三置换文本集和所述第四置换文本集,得到所述置换文本集。

23、可选地,所述利用所述完备训练文本集对所述上下文语义识别模型进行训练,得到训练好的上下文语义识别模型,包括:

24、将所述完备训练文本集输入到待训练神经网络模型,得到预测结果;

25、根据所述完备训练文本集每个文本中的预测结果以及真实结果,确定第一损失函数,所述真实结果用于表示预先标注的所述完备训练文本集每个文本中单词是否被置换;

26、利用所述原型训练文本集和所述完备训练文本集,确定第二损失函数

27、根据所述第一损失函数和所述第二损失函数对所述待训练神经网络模型进行微调训练,得到训练好的上下文语义识别模型。

28、可选地,所述对所述待纠错文本进行文本处理,得到对应的第一预测文本集,包括:

29、对所述待纠错文本进行短语划分,得到多个短语;

30、基于各所述短语中每个字的多元语法生成所述待纠错文本对应的候选文本;

31、汇总符合预设语义概率的候选文本,得到第一预测文本集。

32、可选地,所述将所述待预测错词集和所述待纠错文本输入至预先训练好的上下文语义识别模型对所述待纠错文本进行语义预测,生成对应的第二预测词,包括:

33、利用所述上下语义识别模型对所述待纠错文本和所述待预测错词集进行特征编码,得到第一语义向量和待纠错词字符向量集;

34、将所述第一语义向量和所述待纠错字符向量集相乘,得到各待纠错字符集中各个字符的候选纠错概率;

35、选择概率最大的候选纠错概率对应的待纠错字符向量进行解码,生成第二预测词。

36、为了解决上述问题,本专利技术还提供一种文本纠错装置,所述装置包括:

37、文本获取模块:用于在接收到已授权第一终端发送的纠错请求的情况下,生成所述第一终端相关联的第一文件框,所述第一文件框用于获取用户键入的待纠错文本;

38、文本处理模块:用于对所述待纠错文本进行文本处理,得到对应的第一预测文本集;

39、字段对比模块:用于提取所述第一预测文本集中和所述待纠错文本比对不一致的字段进行分词处理,生成待预测错词集;

40、语义预测模块:用于将所述待预测错词集和所述待纠错文本输入至预先训练好的上下文语义识别模型对所述待纠错文本进行语义预测,生成对应的第二预测词;

41、文本替换模块:用于利用所述第二预测词替换所述待预测错文本中的错误词,得到纠错后的正确文本。

42、为了解决上述问题,本专利技术还提供一种电子设备,所述电子设备包括:

43、存储器,存储至少一个计算机程序;及

44、处理器,执行所述存储器中存储的计算机程序以实现上述所述的文本纠错方法。

45、为了解决上述问题,本专利技术还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一个计算机程序,所述至少一个计算机程序被电子设备中的处理器执行以实现上述所述的文本纠错方法。

46、本专利技术通过对纠错文本进行基于语义的文本预测,提高了对待纠错文本的纠错能力,结合了双向门控循环单元和注意力机制强化了语义识别模型的语义理解的准确度。通过构建好的上下文语义识别模型对待纠错文本进行基于语义的目标错词识别,进一步提高了对待纠错文本中错词的识别准确率。因此本专利技术提出的文本纠错方法、装置、电子设备及计算机可读存储介质,可以提高待纠错文本的目标错词的准确率。

本文档来自技高网...

【技术保护点】

1.一种文本纠错方法,其特征在于,所述方法包括:

2.如权利要求1所述的方法,其特征在于,所述对所述待纠错文本进行文本处理,得到对应的第一预测文本集之前,还包括;

3.如权利要求2所述的方法,其特征在于,所述基于所述可替换实体字词对所述每一个原型训练文本进行单词置换,生成置换文本集,包括:

4.如权利要求3所述的方法,其特征在于,所述汇总所述第一置换文本和所述第二置换文本,得到所述置换文本集,还包括:

5.如权利要求4所述的方法,其特征在于,所述利用所述完备训练文本集对所述上下文语义识别模型进行训练,得到训练好的上下文语义识别模型,包括:

6.如权利要求1所述的方法,其特征在于,所述对所述待纠错文本进行文本处理,得到对应的第一预测文本集,包括:

7.如权利要求1所述的方法,其特征在于,所述将所述待预测错词集和所述待纠错文本输入至预先训练好的上下文语义识别模型对所述待纠错文本进行语义预测,生成对应的第二预测词,包括:

8.一种文本纠错装置,其特征在于,所述装置包括:

9.一种电子设备,其特征在于,所述电子设备包括:

10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6中任意一项所述的文本纠错方法。

...

【技术特征摘要】

1.一种文本纠错方法,其特征在于,所述方法包括:

2.如权利要求1所述的方法,其特征在于,所述对所述待纠错文本进行文本处理,得到对应的第一预测文本集之前,还包括;

3.如权利要求2所述的方法,其特征在于,所述基于所述可替换实体字词对所述每一个原型训练文本进行单词置换,生成置换文本集,包括:

4.如权利要求3所述的方法,其特征在于,所述汇总所述第一置换文本和所述第二置换文本,得到所述置换文本集,还包括:

5.如权利要求4所述的方法,其特征在于,所述利用所述完备训练文本集对所述上下文语义识别模型进行训练,得到训练好的上下文语义识别模型,包...

【专利技术属性】
技术研发人员:袁美璐
申请(专利权)人:中国平安财产保险股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1