一种面向中文表格型数据的事实验证方法技术

技术编号：39672698 阅读：10 留言：0更新日期：2023-12-11 18:38

本发明专利技术公开了一种面向中文表格型数据的事实验证方法，具体如下，构建中文表格型数据事实验证数据集；将数据集中的表格和陈述特征嵌入到语义空间中；使用基于

全部详细技术资料下载

【技术实现步骤摘要】
一种面向中文表格型数据的事实验证方法

[0001]本专利技术涉及一种面向中文表格型数据的事实验证方法，该方法可用于进行中文表格型数据的事实验证，属于互联网与自然语言处理

。

技术介绍

[0002]伴随着时间的推进和科技的进步，互联网技术逐渐走入了千家万户，成为了人民获取信息和资源的重要途径
。
另一方面，随着网络技术的不断升级，人们获取信息的方式也从报纸
、
期刊杂志等传统的纸质媒介扩展到了如今的新闻门户网站
、
社交网络
、
论坛等更加快捷
、
方便的途径
。
借助这些途径，人们能够以更快地速度获取，从而快速地跟进各类热点事件
。
作为
Web2.0
时代标志之一的社交网络
(
例如国内的新浪微博
、
微信以及国外的
Facebook、Twitter
等平台
)
在近年来也以惊人的速度得到了发展
。
社交网络由于其易于操作的特点和信息的交互性，迅速取得了广大互联网用户
(
尤其是年轻用户
)
的青睐，因而在社会中广为流传，对人们日常生活的方法面面起到了深远的影响
。
而正因为在线内容的激增以及社交网络的繁荣发展，例如谣言等错误信息也在不断增加，当人们面对错综复杂的信息时，为了辨别信息的真假，需要对这些信息进行验证
。
在自然语言理解...

【技术保护点】

【技术特征摘要】
1.
一种面向中文表格型数据的事实验证方法，其特征在于，所述方法包括以下步骤：步骤1，构建中文表格型数据事实验证数据集，步骤2，中文表格型数据事实验证模型训练，步骤3，对数据集测试集进行分类
。2.
根据权利要求1所述的面向中文表格型数据的事实验证方法，其特征在于，步骤1，构建中文表格型数据事实验证数据集，首先对主流
TABFACT
和
INFOTABS
表格事实验证英文数据集进行了中文转化，然后专门针对中文表格型数据的特点构建了基于
UCL
国家标准的数据集
UCLDS
，最后将按照数据集中的训练集和验证集进行事实验证模型的训练和验证
。3.
根据权利要求1所述的面向中文表格型数据的事实验证方法，其特征在于，步骤2，中文表格型数据事实验证模型训练，首先，将数据集中的表格和陈述送入模型的基于
RoBERTa
‑
wwm
‑
ext
‑
large
‑
Chinese
的编码层中，得出表格和陈述的编码结果；然后，对陈述进行依存句法分析和命名实体识别构建异构图；接下来，异构图和陈述的编码结果会被送入异构图注意力网络中，让模型从句法和命名实体的角度充分理解陈述的结构信息和语义信息；紧接着，胶囊图神经网络对异构图注意力网络的输出进行特征强化，挖掘出陈述中隐含的表格信息；最后，将强化后的陈述特征和表格特征进行拼接和池化，给出事实验证预测结果，在训练阶段，模型的损失函数会将模型的预测值与真实值作比较并计算损失值，通过反向传播更新模型参数，使模型参数变得更优，此外，每经过一个轮次的训练，验证集的数据都会被送入模型中进行验证
。4.
根据权利要求1所述的面向中文表格型数据的事实验证方法，其特征在于，步骤3，对数据集测试集进行分类，对于待检测文本，首先将其送入经过步骤2训练过程得到的模型，该模型对表格和陈述进行编码
、
对陈述构建异构图以及特征强化等步骤，最后将表格和陈述的特征拼接和池化获得中文表格事实验证的结果
。5.
根据权利要求3所述的面向中文表格型数据的事实验证方法，其特征在于，步骤2具体如下：该步骤实施过程分为5个子步骤：子步骤2‑1，使用基于
RoBERTa
‑
wwm
‑
ext
‑
large
‑
Chinese
的编码层对表格和陈述进行编码，具体过程如下：首先将表格
T
按水平方向展平并拼接起来得到
Seq
T
，接着将
Seq
T
送入编码模块后得到表格的文本表示
E
T
，然后将陈述
S
送入编码模块得到文本表示其中，
d
表示每个词语的特征维数，
n
表示陈述中的词语数量，
h
i
表示第
i
个词语的文本表示，同时也将作为异构图注意力网络中第
i
个词语节点的特征表示；子步骤2‑2，对陈述进行依存句法分析和命名实体识别构建异构图，具体过程如下：
(1)
对陈述
S
进行依存句法分析得到陈述句法单位之间的依存句法关系，然后利用
RoBERTa
‑
wwm
‑
ext
‑
large
‑
Chines
分词器对陈述进行分词，将分词后的每一个
token
作为依存句法分析图中的一个节点，将
token
和句法单位进行对齐得到
token
节点之间的边，从而构建出依存句法分析图
g1，
(2)
对陈述
S
进行命名实体识别得到陈述中蕴含的命名实体，同样的，利用
RoBERTa
‑
wwm
‑
ext
‑
large
‑
Chines
分词器对陈述进行分词，将分词后的每一个
token
作为命名实体连接图中的一个节点，将
token
和命名实体进行对齐得到
token
节点之间的边，从而构建出命名实体链接图；
(3)
将构建的依存句法分析图
g1和命名实体链接图
g2进行合并得到异构图，此过程可表示为：
G
＝
{g1,g2}
＝
Graph(DP(S),NER(S))
ꢀꢀꢀꢀꢀꢀꢀ
(1)
其中
Graph
表示构建异构图的操作
,DP
和
NER
分别表示依存句法分析和命名实体识别操作，通过理解该异构图，模型能够从句法依存关系和命名实体的角度全面地理解陈述的结构和语义，从而提升模型的推理能力，达到更好的推理效果，子步骤2‑3，使用异...

【专利技术属性】
技术研发人员：杨鹏，查显宇，赵广振，林茜，
申请(专利权)人：浙江华巽科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人