当前位置: 首页 > 专利查询>山西大学专利>正文

一种基于知识图和BART语义的多文档摘要方法技术

技术编号:39060516 阅读:17 留言:0更新日期:2023-10-12 19:53
本发明专利技术属于自然语言处理技术领域,具体涉及一种基于知识图和BART语义的多文档摘要方法。该方法包括以下步骤:构建多文档摘要训练数据集;构建面向多文档摘要的知识图;构建融合知识和图注意力的多文档摘要模型;训练多文档摘要模型并生成摘要。本发明专利技术融合外部知识的语义知识图加强远距离实体的联系,采用知识图和BART语义信息融合的方法,使模型能够更好地结合知识图和文本序列的注意力,弥补深度学习模型的缺点,降低模型对大规模标注样本的依赖,生成质量更高的摘要内容。生成质量更高的摘要内容。生成质量更高的摘要内容。

【技术实现步骤摘要】
一种基于知识图和BART语义的多文档摘要方法


[0001]本专利技术属于自然语言处理
,具体涉及一种基于知识图和BART语义的多文档摘要方法。

技术介绍

[0002]近年来,计算机根据一篇文章或新闻生成摘要成为人工智能领域的一项重大挑战。多文档摘要是指从多篇文档中提取出最重要的信息,并将其以简洁的方式呈现给用户。它是信息检索和文本挖掘领域的一个重要问题,具有广泛的应用,如新闻摘要、科技文献综述、商业报告等。
[0003]在多文档摘要中,多文档通常篇幅较长,生成式摘要与一般抽取式摘要任务相比更加复杂,并且句子间的语义关联对句子的表征学习起着至关重要的作用。本专利技术采用基于知识图与BART语义相结合的摘要方法。首先,引入一种可以对长距离文本进行语义建模的方法,该方法能够编码更长的输入文档,解决由于输入长文档导致的句子截断、信息丢失等问题。其次,融合外部知识的语义知识图,添加知识图编码可以帮助模型加强远距离实体的联系,最后,采用知识图和BART语义信息融合的方法,使模型能够更好地结合知识图和文本序列的注意力,弥补深度学习模型的缺点,降低模型对大规模标注样本的依赖,生成质量更高的摘要内容。

技术实现思路

[0004]针对上述问题本专利技术提供了一种基于知识图和BART语义的多文档摘要方法。
[0005]为了达到上述目的,本专利技术采用了下列技术方案:
[0006]一种基于知识图和BART语义的多文档摘要方法,包括以下步骤:
[0007]S1,构建多文档摘要训练数据集;<br/>[0008]S2,构建面向多文档摘要的知识图;
[0009]S3,构建融合知识和图注意力的多文档摘要模型;
[0010]S4,训练多文档摘要模型并生成摘要。
[0011]进一步,所述S1中构建多文档摘要训练数据集,具体步骤为:
[0012]S101,下载开源多文档摘要数据;
[0013]S102,对开源多文档摘要数据进行预处理和清洗,得到文档D={X1,X2,...,X
M
},其中M为多文档的数目,将所需的多文档根据指定最大文档开头限制进行切割,将X
i
切分为起始文档x
i
和内容文档L
i
两部分,其中代表文档起始部分,是文档的概要内容;代表文档的详细内容,为后续摘取重要主干信息所用,x
i
和L
i
作为后续文本编码和图编码的输入。
[0014]进一步,所述S2中构建面向多文档摘要的知识图,具体步骤为:
[0015]S201,对内容文档构建实体关系图:首先利用OPENIE对内容文档L
i
进行共指引用,其次从内容文档L
i
中提取句子级别开放信息三元组,每个OPENIE提取的三元组由主语部分
[ARG0]、谓语部分[V]和宾语部分[ARG1]组成,将提取的三元组实体根据相似度进行连接,构建一个以主语和宾语作为节点,谓语作为节点关系的实体关系图G=(V
g
,E
g
),其中,V
g
为图的节点集合E
G
为图中节点间的边集合m为三元组数量;
[0016]S202,构建面向多文档摘要的知识图:知识库Concept Net中的三元组数据形式为T
i
={t
i
=(v
i
,r
i
,c
i
,s
i
)},其中v
i
表示头概念、r
i
表示关系、c
i
表示尾部概念、s
i
表示置信度得分,根据实体关系图G中节点查找知识库中实体v
i
,将知识库实体v
i
所属候选元组T
i
添加到图中,构建新的知识图其中为知识图节点集合为知识图节点集合为节点边的集合n为添加匹配的知识库实体数量。
[0017]进一步,所述S3中构建融合知识和图注意力的多文档摘要模型,具体步骤为:
[0018]S301,对融合知识图网络进行知识表示:首先对知识图KG进行初始化编码获得节点特征向量其次利用图注意力网络对图节点表示学习;最后对知识图节点中的主语节点、宾语节点和谓语表示进行更新,根据输入节点的特征,使用自注意力机制得到节点i对节点j的影响力系数,知识图的表示如式(2)、(3)所示:
[0019][0020][0021]其中,a
n
代表第n个多头自注意力的计算得分,为可训练权重,为节点i,j之间的注意力权重,q
i
表示知识图中待更新的节点,k
j
、k
z
表示与q
i
相关联的邻居节点,A
i
表示与节点i有关联的邻居节点集合;
[0022]为了避免多次迭代后梯度消失,还添加一个残差连接v
i
,得到最终输出如式(4)所示:
[0023][0024]其中,A
i
表示与节点i有关联的邻居节点,表示随机初始化权重,||表示H个多头注意力的连接,节点为结合多头注意力机制的最终输出特征;
[0025]S302,获取知识图与文本的BART语义信息:根据S202的知识图KG,以及S102的起始文档x
i
,首先将知识图转换为线性文本的形式,先将知识图KG分解成多个连通子图KG
i
,按照子图的大小遍历子图,在每个子图中,连通子图KG
i
按照包含节点p为节点的数量,对其进行降序排列,从包含节点数最多的节点开始,以宽度优先搜索的方法向下移动子图,将遍历的结果线性化为字符串列表,返回线性化的图文本
[0026]其次对起始文档x
i
、线性图文本g
i
分别编码输入BART语义编码器。其中BART Encoder处理文档x
i
,Linear Graph Encoder处理线性图文本g
i
,起始文档的编码和线性图的编码如式(5)(6)所示:
[0027][0028][0029]其中,为x
i
和g
i
初始向量嵌入,为x
i
和g
i
位置嵌入;
[0030]对和分别进行基于Transform的多头自注意力计算,并更新起始文档x
i
和线型文本g
i
的表示,如式(7)所示:
[0031][0032]其中,和为起始文档和线型文本经过注意力交互后得到的语义表示;
[0033]S303,通过将知识图与文档文本的上下文化得到具有注意力机制的向量进行连接融合:通过S301得到知识图的节点注意力以及S302得到的对于线性图的编码层再与起始文档表示x
i
拼接,获取多文档的最终语义表示,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于知识图和BART语义的多文档摘要方法,其特征在于,包括以下步骤:S1,构建多文档摘要训练数据集;S2,构建面向多文档摘要的知识图;S3,构建融合知识和图注意力的多文档摘要模型;S4,训练多文档摘要模型并生成摘要。2.根据权利要求1所述的一种基于知识图和BART语义的多文档摘要方法,其特征在于,所述S1中构建多文档摘要训练数据集,具体步骤为:S101,下载开源多文档摘要数据;S102,对开源多文档摘要数据进行预处理和清洗,得到文档D={X1,X2,...,X
M
},其中M为多文档的数目,将所需的多文档根据指定最大文档开头限制进行切割,将X
i
切分为起始文档x
i
和内容文档L
i
两部分,其中代表文档起始部分,是文档的概要内容;代表文档的详细内容,为后续摘取重要主干信息所用,x
i
和L
i
作为后续文本编码和图编码的输入。3.根据权利要求2所述的一种基于知识图和BART语义的多文档摘要方法,其特征在于,所述S2中构建面向多文档摘要的知识图,具体步骤为:S201,对内容文档构建实体关系图:首先利用OPENIE对内容文档L
i
进行共指引用,其次从内容文档L
i
中提取句子级别开放信息三元组,每个OPENIE提取的三元组由主语部分[ARGO]、谓语部分[V]和宾语部分[ARG1]组成,将提取的三元组实体根据相似度进行连接,构建一个以主语和宾语作为节点,谓语作为节点关系的实体关系图G=(V
g
,E
g
),其中,V
g
为图的节点集合E
G
为图中节点间的边集合m为三元组数量;S202,构建面向多文档摘要的知识图:知识库Concept Net中的三元组数据形式为T
i
={t
i
=(v
i
,r
i
,c
i
,s
i
)},其中v
i
表示头概念、r
i
表示关系、c
i
表示尾部概念、s
i
表示置信度得分,根据实体关系图G中节点查找知识库中实体v
i
,将知识库实体v
i
所属候选元组T
i
添加到图中,构建新的知识图其中为知识图节点集合为知识图节点集合为节点边的集合n为添加匹配的知识库实体数量。4.根据权利要求3所述的一种基于知识图和BART语义的多文档摘要方法,其特征在于,所述S3中构建融合知识和图注意力的多文档摘要模型,具体步骤为:S301,对融合知识图网络进行知识表示:首先对知识图KG进行初始化编码获得节点特征向量其次利用图注意力网络对图节点表示学习;最后对知识图节点中的主语节点、宾语节点和谓语表示进行更新,根据输入节点的特征,使用自注意力机制得到节点i对节点j的影响力系数,知识图的表示如式(2)、(3)所示:如式(2)、(3)所示:其中,a
n
代表第n个多头自注意力的计算得分,为可训练权重,为节点i,j之间的注意力权重,q
i
表示知识图中待更新的节点,k
j
、k
z
表示与q
i
相关联的邻居节点,A
i

【专利技术属性】
技术研发人员:杨陟卓褚强
申请(专利权)人:山西大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1