文本对比方法、计算机设备及计算机存储介质技术

技术编号：34845023 阅读：27 留言：0更新日期：2022-09-08 07:43

本申请实施例公开了一种文本对比方法、计算机设备及计算机存储介质，用于实现多篇文档之间的语义及事件一致性核验，提高文档匹配的效率以及可靠性。本申请实施例提出了一种实现语义及事件一致性核验的文档对比方法，从段落粒度的语义对比层面出发，创新性结合NLP来处理两阶段式的文本匹配语义一致性对比和事件要素联合一致性判断，通过此文本对比方法解决文档之间内容匹配的过程，实现无监督学习以及有监督学习相互结合，共同提高匹配的效率以及可靠性。同时，本实施例从句子/短语粒度的事实对比层面出发，创新性提出一类基于事件要素抽取结合内容一致性判别方法框架，解决事件一致性核验的任务。性核验的任务。性核验的任务。

全部详细技术资料下载

【技术实现步骤摘要】
文本对比方法、计算机设备及计算机存储介质

[0001]本申请实施例涉及文本处理领域，具体涉及一种文本对比方法、计算机设备及计算机存储介质。

技术介绍

[0002]现有的文档对比方法，大都采取无监督的方式来计算两篇文档特定文本段落的内容字面的重合度/相似性，直接确定得分最高的候选段落，实现内容对比和信息匹配的过程，从而实现对多个文本之间的差异化的提示功能。
[0003]过去的方法更多解决的是文档段落对应的关系，却无法基于事件的角度上实现更进一步的核验。金融行业普遍存在需要关注文档之间的事件一致性的场景，例如文档之间数值的一致性核验、报告文件与素材文件之间引用事件的一致性比对等等。不同的人面对同一份资料文件进行提炼、修饰到最后形成总结报告，虽然在文字组织及语言表达方法技巧上有所差异，但其所蕴含的事件依据却是不变的、客观存在的。进一步来说，当两篇文档的内容篇幅较长时，科学有效地实现语义及事件一致性核验的过程，其本身存在较大的挑战。现有论文、专利和商业软件针对这一问题并没有现成的解决方案。

技术实现思路

[0004]本申请实施例提供了一种文本对比方法、计算机设备及计算机存储介质，用于实现多篇文档之间的语义及事件一致性核验，提高文档匹配的效率以及可靠性。
[0005]本申请实施例第一方面提供了一种文本对比方法，所述方法包括：
[0006]获取目标文档和对比文档，获取预训练语言模型，根据所述目标文档和所述对比文档训练所述预训练语言模型，直至满足收敛条件时停止训练，得到文本表示向量模型；r/>[0007]根据所述文本表示向量模型提取所述目标文档的单位化向量以及所述对比文档的单位化向量，根据所述目标文档的单位化向量以及所述对比文档的单位化向量从所述对比文档中确定所述对比文档的候选段落；
[0008]根据人工标注的目标文档与对比文档之间的匹配关系，构建文本对匹配关系数据集，根据所述文本对匹配关系数据集训练所述预训练语言模型，得到文本对语义匹配模型；
[0009]根据所述文本对语义匹配模型计算所述目标文档的每一段落各自与所述候选段落中每一段落的匹配关系概率，分别从所述目标文档的每一段落对应的多个匹配关系概率中确定最大匹配关系概率；
[0010]提示所述目标文档中最大匹配关系概率小于预设概率的段落与所述对比文档的任一段落不匹配。
[0011]本申请实施例第二方面提供了一种计算机设备，包括：
[0012]训练单元，用于获取目标文档和对比文档，获取预训练语言模型，根据所述目标文档和所述对比文档训练所述预训练语言模型，直至满足收敛条件时停止训练，得到文本表示向量模型；
[0013]确定单元，用于根据所述文本表示向量模型提取所述目标文档的单位化向量以及所述对比文档的单位化向量，根据所述目标文档的单位化向量以及所述对比文档的单位化向量从所述对比文档中确定所述对比文档的候选段落；
[0014]训练单元还用于根据人工标注的目标文档与对比文档之间的匹配关系，构建文本对匹配关系数据集，根据所述文本对匹配关系数据集训练所述预训练语言模型，得到文本对语义匹配模型；
[0015]计算单元，用于根据所述文本对语义匹配模型计算所述目标文档的每一段落各自与所述候选段落中每一段落的匹配关系概率，分别从所述目标文档的每一段落对应的多个匹配关系概率中确定最大匹配关系概率；
[0016]提示单元，用于提示所述目标文档中最大匹配关系概率小于预设概率的段落与所述对比文档的任一段落不匹配。
[0017]本申请实施例第三方面提供了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现前述第一方面的方法。
[0018]本申请实施例第四方面提供了一种计算机存储介质，计算机存储介质中存储有指令，该指令在计算机上执行时，使得计算机执行前述第一方面的方法。
[0019]从以上技术方案可以看出，本申请实施例具有以下优点：
[0020]本实施例中，创新性提出了一种实现语义及事件一致性核验的文档对比方法，从段落粒度的语义对比层面出发，创新性结合NLP来处理两阶段式的文本匹配语义一致性对比和事件要素联合一致性判断，通过此文本对比方法解决文档之间内容匹配的过程，实现无监督学习以及有监督学习相互结合，共同提高匹配的效率以及可靠性。同时，本实施例从句子/短语粒度的事实对比层面出发，创新性提出一类基于事件要素抽取结合内容一致性判别方法框架，解决事件一致性核验的任务。
附图说明
[0021]图1为本申请实施例中文本对比方法一个流程示意图；
[0022]图2为本申请实施例中文本对比方法另一流程示意图；
[0023]图3为本申请实施例中计算机设备一个结构示意图；
[0024]图4为本申请实施例中计算机设备另一结构示意图。
具体实施方式
[0025]本申请实施例提供了一种文本对比方法、计算机设备及计算机存储介质，用于实现多篇文档之间的语义及事件一致性核验，提高文档匹配的效率以及可靠性。
[0026]下面对本申请实施例中的文本对比方法进行描述：
[0027]请参阅图1，本申请实施例中文本对比方法一个实施例包括：
[0028]101、获取目标文档和对比文档，获取预训练语言模型，根据所述目标文档和所述对比文档训练所述预训练语言模型，直至满足收敛条件时停止训练，得到文本表示向量模型；
[0029]本实施例的方法可应用于计算机设备，该计算机设备可以终端设备或者服务器设备等设备形式存在，用于为用户提供标签计算和标记的服务和功能。当计算机设备为终端
时，可以是个人电脑(personal computer，PC)、台式计算机等终端设备；当计算机设备为服务器时，可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云数据库、云计算以及大数据和人工智能平台等基础云计算服务的云服务器。
[0030]本实施例中，可获取细分
内的大规模文本段落数据，并基于Transformer双向编码器表示模型，如BERT、Roberta、XLNET等预训练语言模型，进行参数学习，进而构建各细分
对应的预训练语言模型，记为ModelA。
[0031]给定多篇文档，包括目标文档A和对比文档B，各自经过文件内容的解析，获取所有文本段落集合，分别记为{a1，a2，
…
，an}和{b1，b2，
…
，bm}，n、m分别代表目标文档A和对比文档B的段落数目。因此，可根据目标文档和对比文档训练预训练语言模型，直至满足收敛条件时停止训练，得到文本表示向量模型。
[0032]具体的，对预训练语言模型进行训练得到文本表示向量模型的具体实施方式可包括以下多个步骤：
[0033]将目标文档和对比文档输入至预训练语言模型以使预训练语言模型根据自监督学习算法进行模型训练，并输出目标文档的表征向量和对比文档的表征向量；...

【技术保护点】

【技术特征摘要】
1.一种文本对比方法，其特征在于，所述方法包括：获取目标文档和对比文档，计算所述目标文档的每一段落各自与所述候选段落中每一段落的匹配关系概率；分别从所述目标文档的每一段落对应的多个匹配关系概率中确定最大匹配关系概率；提示所述目标文档中最大匹配关系概率小于预设概率的段落与所述对比文档的任一段落不匹配。2.根据权利要求1所述的方法，其特征在于，所述计算所述目标文档的每一段落各自与所述候选段落中每一段落的匹配关系概率，包括：获取预训练语言模型，根据所述目标文档和所述对比文档训练所述预训练语言模型，直至满足收敛条件时停止训练，得到文本表示向量模型；根据所述文本表示向量模型提取所述目标文档的单位化向量以及所述对比文档的单位化向量，根据所述目标文档的单位化向量以及所述对比文档的单位化向量从所述对比文档中确定所述对比文档的候选段落；根据目标文档与对比文档之间的匹配关系，构建文本对匹配关系数据集，根据所述文本对匹配关系数据集训练所述预训练语言模型，得到文本对语义匹配模型；根据所述文本对语义匹配模型计算所述目标文档的每一段落各自与所述候选段落中每一段落的匹配关系概率。3.根据权利要求2所述的方法，其特征在于，所述根据所述文本表示向量模型提取所述目标文档的单位化向量以及所述对比文档的单位化向量，包括：将所述目标文档的段落集合以及所述对比文档的段落集合输入至所述文本表示向量模型，以使得所述文本表示向量模型分别提取所述目标文档的各段落的语义向量以及所述对比文档的各段落的语义向量；分别对所述目标文档的各段落的语义向量以及所述对比文档的各段落的语义向量进行单位化，得到所述目标文档的各段落的单位化向量以及所述对比文档的各段落的单位化向量；所述根据所述目标文档的单位化向量以及所述对比文档的单位化向量从所述对比文档中确定所述对比文档的候选段落，包括：分别将所述目标文档的每一单位化向量与所述对比文档的单位化向量的集合进行矩阵计算，得到所述目标文档的每一单位化向量对应的多个分值；分别从所述目标文档的每一单位化向量对应的多个分值中确定最大的K个分值，并将所述最大的K个分值对应的所述对比文档的段落确定为所述候选段落，其中K为正整数。4.根据权利要求2所述的方法，其特征在于，所述根据所述目标文档和所述对比文档训练所述预训练语言模型，直至满足收敛条件时停止训练，得到文本表示向量模型，包括：将所述目标文档和所述对比文档输入至所述预训练语言模型以使所述预训练语言模型根据自监督学习算法进行模型训练，并输出所述目标文档的表征向量和所述对比文档的表征向量；构建InfoNCE Loss损失函数，根据所述目标文档的表征向量和所述对比文档的表征向量计算InfoNCE Loss值，当InfoNCE Loss值满足预设数值范围时确定所述预训练语言模型的模型训练满足收敛条件，并停止所述预训练语言模型的模型训练，得到所述文本表示向
量模型。5.根据权利要求2所述的方法，其特征在于，所述预训练语言模型包括Transformer的双向编码器表示模型；所述根据人工标注的目标文档与对比文档之间的匹配关系，构建文本对匹配关系数据集，根据所述文本对匹配关系数据集训练所述预训练语言模型，得到文本对语义匹配模型，包括：构建所述目标文档的每一段落分别对应的文本对匹配关系数据集，所述文本对匹配关系数据集为所述目标文档的任一段落与所述对比文档的段落集合中每个段落之间的人工标注的信息集合；基于所述文本对匹配关系数据集将所述目标文档的段落与所述对比文档的段落进行拼接，得到拼接段落，并在所述拼接段落添加CLS标志位和SEP标志位；对添加CLS标志位和SEP标志位的所述拼接段落进行特征化并输入至所述Transformer双向编码器表示模型，以使得所述Transformer双向编码器表示模型的分类层对所述拼接段落的CLS标志位进行处理，得到所述Transformer双向编码器...

【专利技术属性】
技术研发人员：黄何，毛瑞彬，朱菁，雷若琦，淮佳，张俊，杨建明，
申请(专利权)人：深圳证券信息有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人