一种面向中文表格型数据的事实验证方法技术

技术编号:39672698 阅读:10 留言:0更新日期:2023-12-11 18:38
本发明专利技术公开了一种面向中文表格型数据的事实验证方法,具体如下,构建中文表格型数据事实验证数据集;将数据集中的表格和陈述特征嵌入到语义空间中;使用基于

【技术实现步骤摘要】
一种面向中文表格型数据的事实验证方法


[0001]本专利技术涉及一种面向中文表格型数据的事实验证方法,该方法可用于进行中文表格型数据的事实验证,属于互联网与自然语言处理



技术介绍

[0002]伴随着时间的推进和科技的进步,互联网技术逐渐走入了千家万户,成为了人民获取信息和资源的重要途径

另一方面,随着网络技术的不断升级,人们获取信息的方式也从报纸

期刊杂志等传统的纸质媒介扩展到了如今的新闻门户网站

社交网络

论坛等更加快捷

方便的途径

借助这些途径,人们能够以更快地速度获取,从而快速地跟进各类热点事件

作为
Web2.0
时代标志之一的社交网络
(
例如国内的新浪微博

微信以及国外的
Facebook、Twitter
等平台
)
在近年来也以惊人的速度得到了发展

社交网络由于其易于操作的特点和信息的交互性,迅速取得了广大互联网用户
(
尤其是年轻用户
)
的青睐,因而在社会中广为流传,对人们日常生活的方法面面起到了深远的影响

而正因为在线内容的激增以及社交网络的繁荣发展,例如谣言等错误信息也在不断增加,当人们面对错综复杂的信息时,为了辨别信息的真假,需要对这些信息进行验证

在自然语言理解和语义表征的研究中,验证一句文本陈述是否符合给定的事实证据是一个基础任务

现有的工作主要集中在对非结构化的文本数据进行事实验证,它们用到的证据都属于纯文本信息

由于半结构化和结构化数据在结构上具有依赖性

在内容上具有隐含性,比如表格

图表

数据库等,基于这些数据形式的事实验证任务面临很大的挑战

[0003]尽管以前的工作取得了一定的成果,但对于基于目标表格验证陈述这一任务仍然存在一些问题

首先,虽然像
BERT
这样的预训练语言模型在各种自然语言理解任务上取得了显著的表现,但当它遇到具有复杂逻辑推理特征的句子时,如最高级关系

比较关系

聚合关系等,它的效果往往不尽如人意

其次,现有的方法提出的逻辑表达式过于庞杂,利用这些逻辑表达式表示陈述时,易使其语义复杂化

这就要求陈述必须包含表格中几乎全部的信息才能进行有效的推理,而陈述本身大概率会缺失表格中的一些信息,所以依赖于逻辑表达式实现这一任务是不可靠的

最后,先前的工作过于注重表格的特征而没有充分利用陈述的特征,这可能会忽略陈述中所蕴含的潜在证据,而中文陈述具有更加丰富的语法结构和语义信息,发现其蕴含的潜在证据至关重要

[0004]针对目前网络谣言盛行的严峻形势以及现有表格事实验证研究存在理解陈述的方式有缺陷或者只理解表格的信息而忽略陈述的问题,本专利技术提出了一种面向中文表格型数据的事实验证方法,为陈述构建依存句法分析图和命名实体连接图,使用异构图注意力网络和胶囊图神经网络强化陈述的特征,充分挖掘陈述中隐含的表格信息,提升了表格事实验证任务的准确率


技术实现思路

[0005]针对现有技术存在的问题与不足,本专利技术提供一种面向中文表格型数据的事实验
证方法,该方法能够完成对中文表格型数据进行事实验证的目标,相比现有方法,能够更有效地对陈述部分进行深层次的理解,从而改善现有方法中没有充分利用陈述信息从而导致准确率不高的问题

[0006]为了实现上述目的,本专利技术的技术方案如下:一种面向中文表格型数据的事实验证方法,该方法涵盖中文表格型数据事实验证的全过程,主要包括表格和陈述编码

构建异构图

特征提取与强化和事实验证等过程,能够有效地对中文表格进行事实验证,从而提升该任务的准确率

该方法主要包括散个步骤,具体如下:
[0007]步骤1,构建中文表格型数据事实验证数据集

首先对主流
TABFACT

INFOTABS
表格事实验证英文数据集进行了中文转化,然后专门针对中文表格型数据的特点构建了基于
UCL
国家标准的数据集
UCLDS
,最后将按照数据集中的训练集和验证集进行事实验证模型的训练和验证

[0008]步骤2,中文表格型数据事实验证模型训练

首先,将数据集中的表格和陈述送入模型的基于
RoBERTa

wwm

ext

large

Chinese
的编码层中,得出表格和陈述的编码结果;然后,对陈述进行依存句法分析和命名实体识别构建异构图;接下来,异构图和陈述的编码结果会被送入异构图注意力网络中,让模型从句法和命名实体的角度充分理解陈述的结构信息和语义信息;紧接着,胶囊图神经网络对异构图注意力网络的输出进行特征强化,挖掘出陈述中隐含的表格信息;最后,将强化后的陈述特征和表格特征进行拼接和池化,给出事实验证预测结果

在训练阶段,模型的损失函数会将模型的预测值与真实值作比较并计算损失值,通过反向传播更新模型参数,使模型参数变得更优

此外,每经过一个轮次的训练,验证集的数据都会被送入模型中进行验证

[0009]步骤3,对数据集测试集进行分类

对于待检测文本,首先将其送入经过步骤2训练过程得到的模型,该模型对表格和陈述进行编码

对陈述构建异构图以及特征强化等步骤,最后将表格和陈述的特征拼接和池化获得中文表格事实验证的结果

[0010]相对于现有技术,本专利技术的有益效果如下:
[0011]1、
本专利技术提出了一种通用的面向表格的事实验证方法,它从结构和语义两个角度来深刻理解陈述从而挖掘陈述中隐藏的表格信息,以此实现细粒度的推理

[0012]2、
本专利技术提出了一种基于自然语言的异构图构建方法,通过对自然语句进行依存句法分析和命名实体识别构建异构图,从而让模型更好的理解自然语句的结构和语义

[0013]3、
为解决现有中文表格型事实验证数据集匮乏的难题
,
本专利技术将主流数据集
TABFACT

INFOTABS
进行了中文转换,并构建了基于
UCL
国家标准的中文表格事实验证数据集
UCLDS。
[0014]4、
本专利技术的方法在三个数本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种面向中文表格型数据的事实验证方法,其特征在于,所述方法包括以下步骤:步骤1,构建中文表格型数据事实验证数据集,步骤2,中文表格型数据事实验证模型训练,步骤3,对数据集测试集进行分类
。2.
根据权利要求1所述的面向中文表格型数据的事实验证方法,其特征在于,步骤1,构建中文表格型数据事实验证数据集,首先对主流
TABFACT

INFOTABS
表格事实验证英文数据集进行了中文转化,然后专门针对中文表格型数据的特点构建了基于
UCL
国家标准的数据集
UCLDS
,最后将按照数据集中的训练集和验证集进行事实验证模型的训练和验证
。3.
根据权利要求1所述的面向中文表格型数据的事实验证方法,其特征在于,步骤2,中文表格型数据事实验证模型训练,首先,将数据集中的表格和陈述送入模型的基于
RoBERTa

wwm

ext

large

Chinese
的编码层中,得出表格和陈述的编码结果;然后,对陈述进行依存句法分析和命名实体识别构建异构图;接下来,异构图和陈述的编码结果会被送入异构图注意力网络中,让模型从句法和命名实体的角度充分理解陈述的结构信息和语义信息;紧接着,胶囊图神经网络对异构图注意力网络的输出进行特征强化,挖掘出陈述中隐含的表格信息;最后,将强化后的陈述特征和表格特征进行拼接和池化,给出事实验证预测结果,在训练阶段,模型的损失函数会将模型的预测值与真实值作比较并计算损失值,通过反向传播更新模型参数,使模型参数变得更优,此外,每经过一个轮次的训练,验证集的数据都会被送入模型中进行验证
。4.
根据权利要求1所述的面向中文表格型数据的事实验证方法,其特征在于,步骤3,对数据集测试集进行分类,对于待检测文本,首先将其送入经过步骤2训练过程得到的模型,该模型对表格和陈述进行编码

对陈述构建异构图以及特征强化等步骤,最后将表格和陈述的特征拼接和池化获得中文表格事实验证的结果
。5.
根据权利要求3所述的面向中文表格型数据的事实验证方法,其特征在于,步骤2具体如下:该步骤实施过程分为5个子步骤:子步骤2‑1,使用基于
RoBERTa

wwm

ext

large

Chinese
的编码层对表格和陈述进行编码,具体过程如下:首先将表格
T
按水平方向展平并拼接起来得到
Seq
T
,接着将
Seq
T
送入编码模块后得到表格的文本表示
E
T
,然后将陈述
S
送入编码模块得到文本表示其中,
d
表示每个词语的特征维数,
n
表示陈述中的词语数量,
h
i
表示第
i
个词语的文本表示,同时也将作为异构图注意力网络中第
i
个词语节点的特征表示;子步骤2‑2,对陈述进行依存句法分析和命名实体识别构建异构图,具体过程如下:
(1)
对陈述
S
进行依存句法分析得到陈述句法单位之间的依存句法关系,然后利用
RoBERTa

wwm

ext

large

Chines
分词器对陈述进行分词,将分词后的每一个
token
作为依存句法分析图中的一个节点,将
token
和句法单位进行对齐得到
token
节点之间的边,从而构建出依存句法分析图
g1,
(2)
对陈述
S
进行命名实体识别得到陈述中蕴含的命名实体,同样的,利用
RoBERTa

wwm

ext

large

Chines
分词器对陈述进行分词,将分词后的每一个
token
作为命名实体连接图中的一个节点,将
token
和命名实体进行对齐得到
token
节点之间的边,从而构建出命名实体链接图;
(3)
将构建的依存句法分析图
g1和命名实体链接图
g2进行合并得到异构图,此过程可表示为:
G

{g1,g2}

Graph(DP(S),NER(S))
ꢀꢀꢀꢀꢀꢀꢀ
(1)
其中
Graph
表示构建异构图的操作
,DP

NER
分别表示依存句法分析和命名实体识别操作,通过理解该异构图,模型能够从句法依存关系和命名实体的角度全面地理解陈述的结构和语义,从而提升模型的推理能力,达到更好的推理效果,子步骤2‑3,使用异...

【专利技术属性】
技术研发人员:杨鹏查显宇赵广振林茜
申请(专利权)人:浙江华巽科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1