文本比对方法、装置、设备及介质制造方法及图纸

技术编号:33787562 阅读:16 留言:0更新日期:2022-06-12 14:43
本发明专利技术涉及人工智能技术领域,提供了一种文本比对方法、装置、设备及介质。该方法包括:将图片文本进行光学字符识别得到识别文本,将识别文本输入预设语言模型组进行纠错得到纠错文本;对校对文本与识别文本进行计算得到校对文本与纠错文本在不同位置的字符串的第一编辑次数;当字符串的第一编辑次数大于预设值时,计算校对文本与纠错文本在该字符串的第二编辑次数;根据第二编辑次数与预设值的大小关系,判断该字符串在识别文本中为被改动过的内容或识别错误的内容,将字符串在校对文本与识别文本中进行定位标记并反馈至用户。本发明专利技术还涉及区块链技术领域,上述第一编辑次数、第二编辑次数还可以存储于一区块链的节点中。编辑次数还可以存储于一区块链的节点中。编辑次数还可以存储于一区块链的节点中。

【技术实现步骤摘要】
文本比对方法、装置、设备及介质


[0001]本专利技术涉及人工智能
,尤其涉及一种文本比对方法、装置、设备及介质。

技术介绍

[0002]由于互联网具有数据传输速度快,信息交互效率高等优点,因此越来越多的企业或个人使用互联网传输文本,例如,企业甲将撰写好的电子版或PDF版的文本,通过互联网的方式发送给企业乙,企业乙将接收到的文本打印出来签名和盖章,企业乙通过扫描上传或邮寄等方式将签名和盖章后的文本发送给企业甲。
[0003]在接收到对方签署返回的文本后,企业甲需要花费大量的人力物力对签署文本与原文件内容对比,校验文本内容是否被改动过,尤其对于一些页数、条款数量较多的文本,难以做到准确校验,不仅效率低下,且存在漏查风险。

技术实现思路

[0004]鉴于以上内容,本专利技术提供一种文本比对方法、装置、设备及介质,其目的在于解决现有技术中校验文本的效率低且存在漏查风险的技术问题。
[0005]为实现上述目的,本专利技术提供一种文本比对方法,该方法包括:
[0006]接收用户输入的图片文本和校对文本,将所述图片文本进行光学字符识别得到识别文本,再将识别文本输入预设语言模型组进行纠错得到纠错文本;
[0007]根据第一预设编辑距离公式对所述校对文本与所述识别文本进行计算,得到所述校对文本与所述识别文本中的不同位置的字符串的第一编辑次数;
[0008]当所述不同位置的字符串的第一编辑次数大于预设值时,根据第二预设编辑距离公式计算所述校对文本与所述纠错文本在所述不同位置的字符串的第二编辑次数;
[0009]根据所述第二编辑次数与所述预设值的大小关系,判断所述不同位置的字符串在识别文本中为被改动过的内容或识别错误的内容,将所述不同位置的字符串在所述校对文本与所述识别文本中进行定位标记,将定位标记后的所述校对文本与所述识别文本反馈至所述用户。
[0010]优选的,所述预设语言模型组包括第一预训练语言模型与第二预训练语言模型,所述第一预训练语言模型为bert4csc预训练语言模型,所述第二预训练语言模型为macbert预训练语言模型,所述再将识别文本输入预设语言模型组进行纠错得到纠错文本,包括:
[0011]将所述识别文本分别输入所述第一预训练语言模型、所述第二预训练语言模型进行分词得到多个词,根据所述预设语言模型组的预设纠错文本公式对每个词进行计算,得到所述每个词对应的所有预测词的目标概率;
[0012]从所述每个词对应的所有预测词中选取最大目标概率的预测词,根据所述最大目标概率的预测词将所述每个词进行替换得到所述纠错文本。
[0013]优选的,所述预设纠错文本公式包括:
[0014]text_A=α
×
softmax(bert4 csc(text))+β
×
softmax(macbert(text))
[0015]其中,text_A为所述纠错文本,bert4 csc(text)为所述第一预训练语言模型中的识别文本,macbert(text)为所述第二预训练语言模型中的识别文本,α、β为加权系数,softmax为归一化函数。
[0016]优选的,在所述根据第一预设编辑距离公式对所述校对文本与所述识别文本进行计算之前,还包括:
[0017]根据预先构建好的特殊字符词典对所述校对文本、所述识别文本及所述纠错文本的所有特殊字符进行统一的标准化格式。
[0018]优选的,所述根据第二预设编辑距离公式计算所述校对文本与所述纠错文本在所述不同位置的字符串的第二编辑次数,包括:
[0019]读取所述校对文本与所述纠错文本在所述不同位置的字符串进行长度比对;
[0020]根据所述第二预设编辑距离公式计算所述纠错文本的字符串的长度变换成所述校对文本的字符串的长度,得到不同操作方式的编辑次数;
[0021]选取所述不同操作方式中最小的编辑次数作为所述校对文本与所述纠错文本在所述不同位置的字符串的第二编辑次数。
[0022]优选的,所述第二预设编辑距离公式包括:
[0023][0024]其中,ED(i,j)为所述校对文本的第i个字符与所述识别文本、所述纠错文本的第j个字符的编辑次数,a(i)为所述校对文本的第i个字符,b(j)为所述识别文本的第j个字符,c(j)为所述纠错文本的第j个字符,if a(i)=b(j)or a(i)=c(j)为第二条件语句。
[0025]优选的,所述将所述不同位置的字符串在所述校对文本与所述识别文本中进行定位标记,包括:
[0026]当所述第二编辑次数小于或等于所述预设值时,根据预设标记方法将所述不同位置的字符串在所述校对文本与所述识别文本中进行第一标记;
[0027]当所述第二编辑次数大于所述预设值时,根据预设标记方法将所述不同位置的字符串在所述校对文本与所述识别文本中进行第二标记。
[0028]为实现上述目的,本专利技术还提供一种文本比对装置,所述装置包括:
[0029]纠错模块:用于接收用户输入的图片文本和校对文本,将所述图片文本进行光学字符识别得到识别文本,再将识别文本输入预设语言模型组进行纠错得到纠错文本;
[0030]计算模块:用于根据第一预设编辑距离公式对所述校对文本与所述识别文本进行计算,得到所述校对文本与所述识别文本中的不同位置的字符串的第一编辑次数;
[0031]输出模块:用于当所述不同位置的字符串的第一编辑次数大于预设值时,根据第二预设编辑距离公式计算所述校对文本与所述纠错文本在所述不同位置的字符串的第二编辑次数;
[0032]反馈模块:用于根据所述第二编辑次数与所述预设值的大小关系,判断所述不同位置的字符串在识别文本中为被改动过的内容或识别错误的内容,将所述不同位置的字符
串在所述校对文本与所述识别文本中进行定位标记,将定位标记后的所述校对文本与所述识别文本反馈至所述用户。
[0033]为实现上述目的,本专利技术还提供一种电子设备,所述电子设备包括:
[0034]至少一个处理器;以及,
[0035]与所述至少一个处理器通信连接的存储器;其中,
[0036]所述存储器存储有可被所述至少一个处理器执行的程序,所述程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至7中任一项所述文本比对方法。
[0037]为实现上述目的,本专利技术还提供一种计算机可读介质,所述计算机可读介质存储有文本比对程序,所述文本比对程序被处理器执行时,实现如权利要求1至7中任一项所述文本比对方法的步骤。
[0038]本专利技术通过光学字符识别将对方签署后的扫描文本转换成识别文本,再将识别文本输入预设语言模型组进行纠错得到准确率比较高的纠错文本。当第一预设编辑距离公式计算出校对文本与识别文本中的不同位置的字符串的第一编辑距离大于预设值时,将纠错文本作为辅助判断文本计算校对文本与纠错文本在该不同位置的字符串的第二编辑距离,根据第二编辑距离小于或等本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本比对方法,其特征在于,所述方法包括:接收用户输入的图片文本和校对文本,将所述图片文本进行光学字符识别得到识别文本,再将识别文本输入预设语言模型组进行纠错得到纠错文本;根据第一预设编辑距离公式对所述校对文本与所述识别文本进行计算,得到所述校对文本与所述识别文本中的不同位置的字符串的第一编辑次数;当所述不同位置的字符串的第一编辑次数大于预设值时,根据第二预设编辑距离公式计算所述校对文本与所述纠错文本在所述不同位置的字符串的第二编辑次数;根据所述第二编辑次数与所述预设值的大小关系,判断所述不同位置的字符串在识别文本中为被改动过的内容或识别错误的内容,将所述不同位置的字符串在所述校对文本与所述识别文本中进行定位标记,将定位标记后的所述校对文本与所述识别文本反馈至所述用户。2.如权利要求1所述的文本比对方法,其特征在于,所述预设语言模型组包括第一预训练语言模型与第二预训练语言模型,所述第一预训练语言模型为bert4csc预训练语言模型,所述第二预训练语言模型为macbert预训练语言模型,所述再将识别文本输入预设语言模型组进行纠错得到纠错文本,包括:将所述识别文本分别输入所述第一预训练语言模型、所述第二预训练语言模型进行分词得到多个词,根据所述预设语言模型组的预设纠错文本公式对每个词进行计算,得到所述每个词对应的所有预测词的目标概率;从所述每个词对应的所有预测词中选取最大目标概率的预测词,根据所述最大目标概率的预测词将所述每个词进行替换得到所述纠错文本。3.如权利要求2所述的文本比对方法,其特征在于,所述预设纠错文本公式包括:text_A=α
×
softmax(bert4 csc(text))+β
×
softmax(macbert(text))其中,text_A为所述纠错文本,bert4csc(text)为所述第一预训练语言模型中的识别文本,macbert(text)为所述第二预训练语言模型中的识别文本,α、β为加权系数,softmax为归一化函数。4.如权利要求1所述的文本比对方法,其特征在于,在所述根据第一预设编辑距离公式对所述校对文本与所述识别文本进行计算之前,还包括:根据预先构建好的特殊字符词典对所述校对文本、所述识别文本及所述纠错文本的所有特殊字符进行统一的标准化格式。5.如权利要求1所述的文本比对方法,其特征在于,所述根据第二预设编辑距离公式计算所述校对文本与所述纠错文本在所述不同位置的字符串的第二编辑次数,包括:读取所述校对文本与所述纠错文本在所述不同位置...

【专利技术属性】
技术研发人员:林莉芳
申请(专利权)人:平安证券股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1