【技术实现步骤摘要】
文本定长纠错方法、装置、设备及存储介质
[0001]本专利技术涉及人工智能
,尤其涉及一种文本定长纠错方法、装置、电子设备及计算机可读存储介质。
技术介绍
[0002]在银行的不同业务活动中,有许多业务场景涉及到文字记录:如人工坐席会以文字录入的形式记录客户的问题咨询、客户的服务过程概述、客户的投诉概要等内容,而这些记录的文字中可能会存在因人工疏忽而误录入错别字的情况。这时就需要使用文本纠错技术来找出录入文本中的错别字,并依照上下文内容对错别字进行纠正。
[0003]现有的文本纠错方法通常利用一种基于预训练语言模型进行文本定长纠错,使用先遮罩再预测的方式对文本中的每个单字进行纠错,这种纠错方式需要顺序进行,且很难一次性并行纠错,因此会造成纠错的误差,导致文本纠错的准确度较低。
技术实现思路
[0004]本专利技术提供一种文本定长纠错方法、装置及计算机可读存储介质,其主要目的在于解决文本定长纠错的准确度较低的问题。
[0005]为实现上述目的,本专利技术提供的一种文本定长纠错方法,包括:< ...
【技术保护点】
【技术特征摘要】
1.一种文本定长纠错方法,其特征在于,所述方法包括:获取原始文本集,对所述原始文本集进行数据增强处理,得到训练文本集;对所述训练文本集进行向量化处理,得到训练文本向量;将所述训练文本向量输入至预设的深度纠错模型的错误探查网络中进行错误探查,得到拼写是否正确的输出结果;根据所述拼写是否正确的输出结果,对所述训练文本向量进行软遮罩连接处理,得到嵌入数据;利用所述深度纠错模型的纠错网络对所述嵌入数据进行纠错处理,得到纠错结果;根据所述纠错结果计算所述深度纠错模型的交叉熵损失值,并根据所述交叉熵损失值调整所述深度纠错模型的模型参数,输出标准深度纠错模型;将预获取的待纠错数文本输入至所述标准深度纠错模型中,基于预设的多轮纠错机制,得到纠错后的正确文本。2.如权利要求1所述的文本定长纠错方法,其特征在于,所述对所述原始文本集进行数据增强处理,得到训练文本集,包括:获取预设的语料库及所述语料库中语料对应的词频;从所述原始文本集中随机选择多个被替换字;根据所述词频,利用预设的混淆概率计算公式计算预设的混淆字典中的混淆字与所述被替换字之间的混淆概率值;根据所述混淆概率值对所述混淆字进行排序,并选择所述混淆概率值最大的混淆字对所述被替换字进行替换,得到训练文本集。3.如权利要求1所述的文本定长纠错方法,其特征在于,所述对所述训练文本集进行向量化处理,得到训练文本向量,包括:获取所述训练文本集中训练文本的每一个字符的字嵌入向量、位置嵌入向量和段嵌入向量;对所述字嵌入向量、所述位置嵌入向量和所述段嵌入向量进行求和处理,得到训练文本向量。4.如权利要求1所述的文本定长纠错方法,其特征在于,所述将所述训练文本向量输入至预设的深度纠错模型的错误探查网络中进行错误探查,得到拼写是否正确的输出结果,包括:分别对所述训练文本向量进行正向编码和反向编码,得到正向编码向量和反向编码向量;对所述正向编码向量和所述反向编码向量进行横向合并,得到编码隐藏向量;将所述编码隐藏向量输入至全连接层中进行二分类处理,得到拼写是否正确的输出结果。5.如权利要求4所述的文本定长纠错方法,其特征在于,所述将所述编码隐藏向量输入至全连接层中进行二分类处理,得到拼写是否正确的输出结果,包括:将所述编码隐藏向量输入至所述全连接层中,得到分类概率;当所述分类概率大于或者等...
【专利技术属性】
技术研发人员:周柱君,
申请(专利权)人:平安银行股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。