当前位置: 首页 > 专利查询>东南大学专利>正文

一种基于层次图神经网络的表格文本问答方法技术

技术编号:34767462 阅读:21 留言:0更新日期:2022-08-31 19:21
本发明专利技术公开了一种基于层次图神经网络的表格文本问答方法,该方法首先通过稀疏检索器快速召回与问题关联的文本证据信息,并将这些证据信息填充到表格中;接着利用表格行选择模型对表格行打分排序,从而找到最有可能包含答案的答案行;然后对答案行以及关联文本融合编码得到特征向量表示,进而使用基于表格行的层次图神经网络对问题、单元格、短文进行图推理,以捕捉表格特有的半结构化信息;最后,通过三个相互关联的子任务求解得到问题对应的答案。本发明专利技术能够有效地解决表格和文本相互补充场景下的多跳问答问题。景下的多跳问答问题。景下的多跳问答问题。

【技术实现步骤摘要】
一种基于层次图神经网络的表格文本问答方法


[0001]本专利技术涉及一种基于层次图神经网络的表格文本问答方法,属于互联网和人工智能


技术介绍

[0002]随着大数据、网络工程、通讯工程等相关技术的不断发展与进步,信息的传播变得越来越容易,从而导致网络上各种繁杂信息量呈指数性增长。据统计,互联网上的大部分信息以文本的形式存在,但也有较多信息被存放在半结构化的表格中,表格相比非架构化的文本具有更加严谨的信息聚合性,但是表格中的每个单元格的信息量往往较少,通常表现一个短语或者一个数值。如果能够将表格信息和文本信息相结合,就能在丰富信息量的同时,又能较好地保持结构化特征。例如在维基百科上表格中的单元格,大多数都会与相关的百科实体进行链接,作为对表格信息的补充。如何利用自然语言处理技术对表格文本混合信息进行机器阅读理解,是一个十分具有应用价值的难题。
[0003]目前,传统的机器阅读理解的任务主要分为:完形填空、多项选择、常识问答和片段抽取。其中片段抽取是指从给定的预料范围内,通过推理分析,抽取处材料中的文本片段作为答案。片段抽取任务最典型的应用就是问答系统,问答系统允许人们提出符合自然语言形式的问题,然后经过深入的问题分析和知识推理之后,直接返回答案,问答系统能够帮助用户快速从语料库从聚焦关键信息,显著地提高了人们处理信息的效率。由于减少了用户的处理时间,而且便于语音交互,问答系统目前在智能客服、智能检索、IOT智能家居领域等领域获得了广泛应用。尽管越来越多的问答相关算法和系统被提出,但该领域仍有许多挑战需要解决。首先,在大多数数据集中,数据源仅限于一种信息类型,例如非结构化文本、半结构化表格或基于知识的知识图谱。然而,不同类型的数据通常是相互补充的。
[0004]目前,由非结构化文本和半结构化表格组成的混合数据源推理场景越来越受到关注。但是大多数问答系统流程比较冗余繁杂,或者推理效果不佳,一种叫做HYBRIDER的表格文本推理方案,该方案主要由三个模型组成推理阶段:排序模型、多跳模型和阅读理解模型。尽管HYBRIDER设计得很好,但它的推理效果仍然不够理想,推理准确度较低。另有一种名为DocHopper的方案,该方案通过一种新机制扩展了现有的基于注意力的方法,以在多跳迭代中更新问题,DocHopper在多个场景上表现良好,但DocHopper对表格文本问答场景的推理效果有限,因为DocHopper只能应用于非结构化文档。

技术实现思路

[0005]专利技术目的:针对现有技术中存在的问题与不足,本专利技术提出了一种基于层次图神经网络的表格文本问答方法,该方法能够快速对繁杂冗余的表格文本信息进行分析推理,从而得到问题对应的答案。
[0006]技术方案:为实现上述专利技术目的,本专利技术提供一种基于层次图神经网络的表格文本问答方法,首先对问题的答案进行初步定位,选择答案最可能存在的表格行,然后利用图
推理对答案进行精确定位。该方法主要包括五个步骤,具体如下:
[0007](1)关键信息检索:使用一个稀疏检索检索器和一个最长子串匹配器在表格和短文中寻找与答案最可能相关的支持证据标记为SE(Support Evidence),检索器会计算单元格以及短文句子与问题之间的相似度,同时会选择相似度小于0.8的相关证据信息进行标记。
[0008](2)表格行选择:使用TaPas作为表格编码模型,将包含SE信息的表格行用TaPas进行预编码,然后将所有检索到的SE信息填充到table中来得到整张表的向量表示,通过一个表格行选择器。
[0009](3)长文本编码:使用一个长编码模型来对表格行以及该表格行的外链文本进行编码,以此来获取输入的特征向量表示。
[0010](4)层次图推理:本专利技术设计并构建一种名为row

HGN的层次图神经网络模型,用row

HGN对三种类型的节点(问题,单元格,短文)进行建模,然后在三种节点之间做图推理,以捕捉半结构化信息。
[0011](5)多任务答案抽取:一种混合的损失作为模型反向传播的函数,通过单元格选择,答案定位选择以及答案位置定位三个子任务来最终定位答案。
[0012]相对于现有技术,本专利技术的有益效果如下:
[0013]1.本专利技术设计了一个包含稀疏检索器和预训练语言模型的行选择方案,解决了混合异构数据的答案初步定位问题,能够快速找到最有可能包含答案的表格行。相比现有技术,本专利技术能够快速精确地捕捉表格型数据的结构化信息,从而做出推理。
[0014]2.本专利技术提出了一种针对表格文本数据的层次图神经网络,以此来对问题、单元格、短文进行图推理,此外,还构建了三个子任务来完成对答案的精确定位。相比传统方法,本专利技术能够较好地对表格文本混合数据源信息进行推理,从答案行中精确抽取问题对应的答案。
[0015]3.本专利技术提出的基于表格行的层次图神经网络可以应用到多种面向表格和文本的问答场景中,只要对节点进行更换即可,可扩展性强。
附图说明
[0016]图1为本专利技术实施例的方法流程图。
[0017]图2为本专利技术实施例的表格行选择图。
[0018]图3为本专利技术实施例的表格行阅读理解图。
具体实施方式
[0019]以下将结合具体实施例对本专利技术提供的技术方案进行详细说明,应理解下述具体实施方式仅用于说明本专利技术而不用于限制本专利技术的范围。
[0020]实施例1:本专利技术提供一种基于层次图神经网络的表格文本问答方法,所述方法包括以下步骤:
[0021]步骤1:关键信息检索,
[0022]本专利技术通过TF

IDF词频检索和TaPas来完成表格行元数据选择任务,使用TF

IDF来进行问题相关信息的粗召回,旨在降低冗余信息以及噪声对后续推理过程的干扰,之后
利用Tapas对包含了关键证据的表格进行编码,旨在能够进行不同表格行之间的推理,最后通过一个分类器选出答案最可能存在的表格行元数据。
[0023]表格行选择方案(row

selection)的主要目标是选择答案最可能存在的表格行,本专利技术利用一个TF

IDF检索器和一个最长子串匹配器去在表格和短文中寻找与答案最可能相关的支持证据标记为SE(Support Evidence),检索器会计算单元格以及短文句子与问题之间的相似度,同时会选择相似度小于0.8的相关证据信息标记为SE,也就是说SE既可能来自于与问题直接关联的单元格,也可能来自于短文中的某一个句子,一个SE单元主要包含三个部分,分别是:内容(content)、位置(location)、描述(description)是单元格的值文本,location就是此单元格的坐标,Description置为空;如果SE来自于passage,那么content就是passage的标题,location是这个passage所链接的单元格对应的位置,Description是此pas本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于层次图神经网络的表格文本问答方法,其特征在于,包括如下步骤:(1)关键信息检索:使用一个稀疏检索检索器和一个最长子串匹配器在表格和短文中寻找与答案最可能相关的支持证据标记为SE(Support Evidence),检索器会计算单元格以及短文句子与问题之间的相似度,同时会选择相似度小于0.8的相关证据信息进行标记;(2)表格行选择:使用TaPas作为表格编码模型,将包含SE信息的表格行用TaPas进行预编码,然后将所有检索到的SE信息填充到table中来得到整张表的向量表示,通过一个表格行选择器;(3)长文本编码:使用一个长编码模型来对表格行以及该表格行的外链文本进行编码,以此来获取输入的特征向量表示;(4)层次图推理:本发明设计并构建一种名为row

HGN的层次图神经网络模型,用row

HGN对三种类型的节点(问题,单元格,短文)进行建模,然后在三种节点之间做图推理,以捕捉半结构化信息;(5)多任务答案抽取:一种混合的损失作为模型反向传播的函数,通过单元格选择,答案定位选择以及答案位置定位三个子任务来最终定位答案。2.根据权利要求1所述的基于层次图神经网络的表格文本问答方法,其特征在于,所述TF

IDF检索器会选择相似度小于0.8的相关证据信息标记为SE,并且填充到表格中。3.根据权利要求1所述的基于层次图神经网络的表格文本问答方法,其特征在于,步骤(2)中表格行选择模型只会选取包含SE信息的表格行进行排序,过程如下:Row
i
=MLP(Pooling(TR[start
i
∶end
i
]))start
i
和end
i
表示每行的开始位置和结束位置,然后将Row
i
的向量矩阵送到两层MLP构成的classifier中,根据每一行的logits大小选择答案最可能存在的那一行,其中MLP是多层感知器,Pooling表示池化层,选取概率最大的表格行作为答案行,计算如下:其中,softmax是逻辑回归函数,max是最大值函数。4.根据权利要求1所述的基于层次图神经网络的表格文本问答方法,其特征在于,步骤(3)所述长文本编码会将表格行数据转换成自然语言形式的句子,按问题、单元格、短文的顺序拼接起来,然后将不同的节点以边的形式连接起来,以捕捉结构信息;E=LongFormer(Q,C,P)其中,Q,C,P分别表示问题、单元格和短文输入,LongFormer()表示使用Longformer模型进行长文本编码。5.根据权利要求1所述的基于层次图神经网络的表格文本问答方法...

【专利技术属性】
技术研发人员:杨鹏李文军汤亚玲陈维威
申请(专利权)人:东南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1