System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及事实验证研究,具体为一种跨篇章事实验证方法及系统。
技术介绍
1、跨篇章事实验证任务旨在从多个文件中检索相关证据,以验证给定索赔的真实性,依赖于检索证据的质量。社交媒体的显著进步不可避免地导致了假新闻和网络谣言的增加。为了减轻这种虚假陈述的负面影响,自动事实验证在最近的研究中引起了相当大的关注。事实验证旨在通过从可靠的语料库中检索相关证据来验证给定主张的真实性。具体来说,需要一个事实验证系统将一个主张标记为“支持”、“反驳”或“信息不足”,表明证据是否可以支持、反驳或不足以支持该主张。然而,现有的跨篇章事实验证方法严重依赖于特定的启发式或基于规则的策略,利用索赔和文件之间语义或表面形式的相似性度量来进行证据检索。因此,如何检索更可信的且更有利于验证声明事实性的证据句子,是跨篇章事实验证任务中的一个难题。
2、augenstein等人提出使用google返回的摘要片段作为证据。这种方法的一个关键限制是摘要片段不能提供足够的信息来验证声明。nie等人通过对句子的语义相似度排序,选择前k个句子作为证据。这种方法倾向于基于高相似度对句子进行优先排序。而忽略了表达不同观点或呈现不同信息的句子的包含。因此,这种限制阻碍了证据的多样性,使系统更容易受到信息过滤的挑战。因此,有必要训练事实验证系统,学习如何有效地从网页上的完整文档中检索证据句子。
3、zhou等人将每个索赔-证据对视为单个节点,并基于图注意机制构建全连通图来传播节点信息。在此基础上,liu等人利用句子和令牌层面的内核关注机制对节点特征聚合算
技术实现思路
1、鉴于上述现有存在的问题,提出了本专利技术。
2、因此,本专利技术提供了一种跨篇章事实验证方法及系统解决现有事实验证方法基于最相似句子的信息不足以提供全面的验证依据和解释,且在大型文本集合中容易导致信息丢失的问题。
3、为解决上述技术问题,本专利技术提供如下技术方案:
4、第一方面,本专利技术提供了一种跨篇章事实验证方法,包括:采用bert编码器获取数据集的第一语义嵌入特征及第二语义嵌入特征;通过所述第一语义嵌入特征及第二语义嵌入特征构建句子图,利用自注意力机制处理所述句子图中的节点获取对应的预测结果;将所述预测结果与实际的句子标签进行拟合计算预测概率,并对所述预测概率进行排序以得到最相关的句子作为证据句子;根据所述证据句子构建声明-证据图,并利用自注意力机制评估所述证据句子的重要程度,利用损失函数拟合评估结果与声明标签,并通过反向传播调整参数形成目标函数优化模型的学习结果。
5、作为本专利技术所述的跨篇章事实验证方法的一种优选方案,其中:所述采用bert编码器获取数据集的第一语义嵌入特征及第二语义嵌入特征包括:
6、在开源跨篇章事实验证数据集上对文本进行初步的特征提取,即通过将输入文本的给定句子处理成“[cls]句子[sep]”的形式,利用bert编码器进行编码获取对应的特征;
7、对于所述开源跨篇章事实验证数据集中的每个声明,通过聚合与声明相对应的每个文档中的所有句子形成一个候选证据句集,再采用bert编码器获取声明和所述候选证据句集中每个句子的第一语义嵌入特征;
8、将每个声明对应的所有黄金证据句子拼接成一个长句并添加特殊标记,采用bert编码器获取经过所述特殊标记的黄金证据句子的第二语义嵌入特征。
9、作为本专利技术所述的跨篇章事实验证方法的一种优选方案,其中:所述构建句子图并利用自注意力机制处理所述句子图中的节点获取对应的预测结果包括:
10、通过所述第一语义嵌入特征及第二语义嵌入特征构建句子图g=(v,e),其中节点v包括文本中的句子以及黄金证据句子,边e连接所有节点;
11、使用所述黄金证据句子作为第一个节点依次添加文本中的句子;
12、利用注意力机制使得训练模型学习到与所述黄金证据句子最相关的句子作为证据句子来检索证据辅助事实验证任务,并将所述证据句子作为注意力机制的预测结果进行输出。
13、作为本专利技术所述的跨篇章事实验证方法的一种优选方案,其中:所述拟合计算预测概率包括:
14、通过对所述预测结果与实际的句子标签进行拟合计算预测概率,表示为:其中,wl表示最终线性变换的权重矩阵,表示图注意力神经网络模型最后一层得到的节点i的最终表;
15、所述图注意力神经网络模型通过输入数据生成每个类的预测概率,形成目标函数优化模型的学习结果,并使用最小化损失函数作为目标函数,通过反向传播更新所述图注意力神经网络模型的参数;
16、所述最小化损失函数的计算为:
17、
18、其中,yi表示第i类标签的预测结果。
19、作为本专利技术所述的跨篇章事实验证方法的一种优选方案,其中:将通过对所述预测结果与实际的句子标签进行拟合计算获取的预测概率按照标签为1相关的概率从大到小进行排序,选择前k个句子作为最相关的证据句子辅助后续的事实验证,其中已排除索引为0的节点,即黄金证据句子节点。
20、作为本专利技术所述的跨篇章事实验证方法的一种优选方案,其中:包括:
21、根据所述最相关的证据句子构建声明-证据图,将所述开源跨篇章事实验证数据集中的声明作为第一个节点,依次添加所述最相关的证据句子;
22、每个节点与其相邻节点具有不同的注意权值,利用自注意力机制处理所述声明-证据图中的节点之间的注意权值,使模型自动学习不同证据的重要程度,并交换融合不同节点之间的信息,获得更新之后的节点表示。
23、作为本专利技术所述的跨篇章事实验证方法的一种优选方案,其中:还包括:
24、通过对所述更新之后的节点表示与实际的声明标签进行拟合计算预测概率;
25、所述图注意力神经网络模型通过输入数据生成每个类的预测概率,形成目标函数优化模型的学习结果,并使用损失函数作为目标函数,通过反向传播更新所述图注意力神经网络模型的参数,形成目标函数优化模型的学习结果;
26、所述损失函数的计算为:
27、
28、第二方面,本专利技术提供了一种跨篇章事实验证系统,包括:
29、句子编码模块,用于采用bert编码器获取数据集的第一语义嵌入特征及第二语义嵌入特征;
30、相关证据选择模块,用于通过所述第一语义嵌入特征及第二语义嵌入特征构建句子图,利用自注意力机制处理所述句子图中的节点获取对应的预测结果,将所述预测结果与实际的句子标签进行拟合计算预测概率,并对所述预测概率进行排序以得到最相关的句子作为证据句子;
31、声明验证模块,用于根据所述证据句子构建声明-证据图,并利用自注意力机制评估所述证据句子的重要程度,利用损失函数拟合评估结果与声明标签,并通过反向传播调整参数形成目标函数优化模型的学习结果。
32、第三方本文档来自技高网...
【技术保护点】
1.一种跨篇章事实验证方法,其特征在于,包括:
2.如权利要求1所述的跨篇章事实验证方法,其特征在于,所述采用BERT编码器获取数据集的第一语义嵌入特征及第二语义嵌入特征包括:
3.如权利要求2所述的跨篇章事实验证方法,其特征在于,所述构建句子图并利用自注意力机制处理所述句子图中的节点获取对应的预测结果包括:
4.如权利要求3所述的跨篇章事实验证方法,其特征在于,所述拟合计算预测概率包括:
5.如权利要求4所述的跨篇章事实验证方法,其特征在于,将通过对所述预测结果与实际的句子标签进行拟合计算获取的预测概率按照标签为1相关的概率从大到小进行排序,选择前k个句子作为最相关的证据句子辅助后续的事实验证,其中已排除索引为0的节点,即黄金证据句子节点。
6.如权利要求5所述的跨篇章事实验证方法,其特征在于,包括:
7.如权利要求6所述的跨篇章事实验证方法,其特征在于,还包括:
8.一种应用如权利要求1~7任一所述的跨篇章事实验证方法的系统,其特征在于,包括:
9.一种电子设备,包括:
...【技术特征摘要】
1.一种跨篇章事实验证方法,其特征在于,包括:
2.如权利要求1所述的跨篇章事实验证方法,其特征在于,所述采用bert编码器获取数据集的第一语义嵌入特征及第二语义嵌入特征包括:
3.如权利要求2所述的跨篇章事实验证方法,其特征在于,所述构建句子图并利用自注意力机制处理所述句子图中的节点获取对应的预测结果包括:
4.如权利要求3所述的跨篇章事实验证方法,其特征在于,所述拟合计算预测概率包括:
5.如权利要求4所述的跨篇章事实验证方法,其特征在于,将通过对所述预测结果与实际的句子标签进行拟合计算获取的预测概率按照标...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。