文本比对方法、装置、设备及介质制造方法及图纸

技术编号：33787562 阅读：16 留言：0更新日期：2022-06-12 14:43

本发明专利技术涉及人工智能技术领域，提供了一种文本比对方法、装置、设备及介质。该方法包括：将图片文本进行光学字符识别得到识别文本，将识别文本输入预设语言模型组进行纠错得到纠错文本；对校对文本与识别文本进行计算得到校对文本与纠错文本在不同位置的字符串的第一编辑次数；当字符串的第一编辑次数大于预设值时，计算校对文本与纠错文本在该字符串的第二编辑次数；根据第二编辑次数与预设值的大小关系，判断该字符串在识别文本中为被改动过的内容或识别错误的内容，将字符串在校对文本与识别文本中进行定位标记并反馈至用户。本发明专利技术还涉及区块链技术领域，上述第一编辑次数、第二编辑次数还可以存储于一区块链的节点中。编辑次数还可以存储于一区块链的节点中。编辑次数还可以存储于一区块链的节点中。

全部详细技术资料下载

【技术实现步骤摘要】
文本比对方法、装置、设备及介质

[0001]本专利技术涉及人工智能
，尤其涉及一种文本比对方法、装置、设备及介质。

技术介绍

[0002]由于互联网具有数据传输速度快，信息交互效率高等优点，因此越来越多的企业或个人使用互联网传输文本，例如，企业甲将撰写好的电子版或PDF版的文本，通过互联网的方式发送给企业乙，企业乙将接收到的文本打印出来签名和盖章，企业乙通过扫描上传或邮寄等方式将签名和盖章后的文本发送给企业甲。
[0003]在接收到对方签署返回的文本后，企业甲需要花费大量的人力物力对签署文本与原文件内容对比，校验文本内容是否被改动过，尤其对于一些页数、条款数量较多的文本，难以做到准确校验，不仅效率低下，且存在漏查风险。

技术实现思路

[0004]鉴于以上内容，本专利技术提供一种文本比对方法、装置、设备及介质，其目的在于解决现有技术中校验文本的效率低且存在漏查风险的技术问题。
[0005]为实现上述目的，本专利技术提供一种文本比对方法，该方法包括：
[0006]接收用户输入的图片文本和校对文本，将所述图片文本进行光学字符识别得到识别文本，再将识别文本输入预设语言模型组进行纠错得到纠错文本；
[0007]根据第一预设编辑距离公式对所述校对文本与所述识别文本进行计算，得到所述校对文本与所述识别文本中的不同位置的字符串的第一编辑次数；
[0008]当所述不同位置的字符串的第一编辑次数大于预设值时，根据第二预设编辑距离公式计算所述校对文本与所述纠错文本在所述不同位置...

【技术保护点】

【技术特征摘要】
1.一种文本比对方法，其特征在于，所述方法包括：接收用户输入的图片文本和校对文本，将所述图片文本进行光学字符识别得到识别文本，再将识别文本输入预设语言模型组进行纠错得到纠错文本；根据第一预设编辑距离公式对所述校对文本与所述识别文本进行计算，得到所述校对文本与所述识别文本中的不同位置的字符串的第一编辑次数；当所述不同位置的字符串的第一编辑次数大于预设值时，根据第二预设编辑距离公式计算所述校对文本与所述纠错文本在所述不同位置的字符串的第二编辑次数；根据所述第二编辑次数与所述预设值的大小关系，判断所述不同位置的字符串在识别文本中为被改动过的内容或识别错误的内容，将所述不同位置的字符串在所述校对文本与所述识别文本中进行定位标记，将定位标记后的所述校对文本与所述识别文本反馈至所述用户。2.如权利要求1所述的文本比对方法，其特征在于，所述预设语言模型组包括第一预训练语言模型与第二预训练语言模型，所述第一预训练语言模型为bert4csc预训练语言模型，所述第二预训练语言模型为macbert预训练语言模型，所述再将识别文本输入预设语言模型组进行纠错得到纠错文本，包括：将所述识别文本分别输入所述第一预训练语言模型、所述第二预训练语言模型进行分词得到多个词，根据所述预设语言模型组的预设纠错文本公式对每个词进行计算，得到所述每个词对应的所有预测词的目标概率；从所述每个词对应的所有预测词中选取最大目标概率的预测词，根据所述最大目标概率的预测词将所述每个词进行替换得到所述纠错文本。3.如权利要求2所述的文本比对方法，其特征在于，所述预设纠错文本公式包括：text_A＝α
×
softmax(bert4 csc(text))+β
×
softmax(macbert(text))其中，text_A为所述纠错文本，bert4csc(text)为所述第一预训练语言模型中的识别文本，macbert(text)为所述第二预训练语言模型中的识别文本，α、β为加权系数，softmax为归一化函数。4.如权利要求1所述的文本比对方法，其特征在于，在所述根据第一预设编辑距离公式对所述校对文本与所述识别文本进行计算之前，还包括：根据预先构建好的特殊字符词典对所述校对文本、所述识别文本及所述纠错文本的所有特殊字符进行统一的标准化格式。5.如权利要求1所述的文本比对方法，其特征在于，所述根据第二预设编辑距离公式计算所述校对文本与所述纠错文本在所述不同位置的字符串的第二编辑次数，包括：读取所述校对文本与所述纠错文本在所述不同位置...

【专利技术属性】
技术研发人员：林莉芳，
申请(专利权)人：平安证券股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人