一种基于知识图和BART语义的多文档摘要方法技术

技术编号：39060516 阅读：17 留言：0更新日期：2023-10-12 19:53

本发明专利技术属于自然语言处理技术领域，具体涉及一种基于知识图和BART语义的多文档摘要方法。该方法包括以下步骤：构建多文档摘要训练数据集；构建面向多文档摘要的知识图；构建融合知识和图注意力的多文档摘要模型；训练多文档摘要模型并生成摘要。本发明专利技术融合外部知识的语义知识图加强远距离实体的联系，采用知识图和BART语义信息融合的方法，使模型能够更好地结合知识图和文本序列的注意力，弥补深度学习模型的缺点，降低模型对大规模标注样本的依赖，生成质量更高的摘要内容。生成质量更高的摘要内容。生成质量更高的摘要内容。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于知识图和BART语义的多文档摘要方法

[0001]本专利技术属于自然语言处理
，具体涉及一种基于知识图和BART语义的多文档摘要方法。

技术介绍

[0002]近年来，计算机根据一篇文章或新闻生成摘要成为人工智能领域的一项重大挑战。多文档摘要是指从多篇文档中提取出最重要的信息，并将其以简洁的方式呈现给用户。它是信息检索和文本挖掘领域的一个重要问题，具有广泛的应用，如新闻摘要、科技文献综述、商业报告等。
[0003]在多文档摘要中，多文档通常篇幅较长，生成式摘要与一般抽取式摘要任务相比更加复杂，并且句子间的语义关联对句子的表征学习起着至关重要的作用。本专利技术采用基于知识图与BART语义相结合的摘要方法。首先，引入一种可以对长距离文本进行语义建模的方法，该方法能够编码更长的输入文档，解决由于输入长文档导致的句子截断、信息丢失等问题。其次，融合外部知识的语义知识图，添加知识图编码可以帮助模型加强远距离实体的联系，最后，采用知识图和BART语义信息融合的方法，使模型能够更好地结合知识图和文本序列的注意力，弥补深度学习模型的缺点，降低模型对大规模标注样本的依赖，生成质量更高的摘要内容。

技术实现思路

[0004]针对上述问题本专利技术提供了一种基于知识图和BART语义的多文档摘要方法。
[0005]为了达到上述目的，本专利技术采用了下列技术方案：
[0006]一种基于知识图和BART语义的多文档摘要方法，包括以下步骤：
[0007]S1，构建多文档摘要训练数据集；<...

【技术保护点】

【技术特征摘要】
1.一种基于知识图和BART语义的多文档摘要方法，其特征在于，包括以下步骤：S1，构建多文档摘要训练数据集；S2，构建面向多文档摘要的知识图；S3，构建融合知识和图注意力的多文档摘要模型；S4，训练多文档摘要模型并生成摘要。2.根据权利要求1所述的一种基于知识图和BART语义的多文档摘要方法，其特征在于，所述S1中构建多文档摘要训练数据集，具体步骤为：S101，下载开源多文档摘要数据；S102，对开源多文档摘要数据进行预处理和清洗，得到文档D＝{X1，X2，...，X
M
}，其中M为多文档的数目，将所需的多文档根据指定最大文档开头限制进行切割，将X
i
切分为起始文档x
i
和内容文档L
i
两部分，其中代表文档起始部分，是文档的概要内容；代表文档的详细内容，为后续摘取重要主干信息所用，x
i
和L
i
作为后续文本编码和图编码的输入。3.根据权利要求2所述的一种基于知识图和BART语义的多文档摘要方法，其特征在于，所述S2中构建面向多文档摘要的知识图，具体步骤为：S201，对内容文档构建实体关系图：首先利用OPENIE对内容文档L
i
进行共指引用，其次从内容文档L
i
中提取句子级别开放信息三元组，每个OPENIE提取的三元组由主语部分[ARGO]、谓语部分[V]和宾语部分[ARG1]组成，将提取的三元组实体根据相似度进行连接，构建一个以主语和宾语作为节点，谓语作为节点关系的实体关系图G＝(V
g
，E
g
)，其中，V
g
为图的节点集合E
G
为图中节点间的边集合m为三元组数量；S202，构建面向多文档摘要的知识图：知识库Concept Net中的三元组数据形式为T
i
＝{t
i
＝(v
i
，r
i
，c
i
，s
i
)}，其中v
i
表示头概念、r
i
表示关系、c
i
表示尾部概念、s
i
表示置信度得分，根据实体关系图G中节点查找知识库中实体v
i
，将知识库实体v
i
所属候选元组T
i
添加到图中，构建新的知识图其中为知识图节点集合为知识图节点集合为节点边的集合n为添加匹配的知识库实体数量。4.根据权利要求3所述的一种基于知识图和BART语义的多文档摘要方法，其特征在于，所述S3中构建融合知识和图注意力的多文档摘要模型，具体步骤为：S301，对融合知识图网络进行知识表示：首先对知识图KG进行初始化编码获得节点特征向量其次利用图注意力网络对图节点表示学习；最后对知识图节点中的主语节点、宾语节点和谓语表示进行更新，根据输入节点的特征，使用自注意力机制得到节点i对节点j的影响力系数，知识图的表示如式(2)、(3)所示：如式(2)、(3)所示：其中，a
n
代表第n个多头自注意力的计算得分，为可训练权重，为节点i，j之间的注意力权重，q
i
表示知识图中待更新的节点，k
j
、k
z
表示与q
i
相关联的邻居节点，A
i

【专利技术属性】
技术研发人员：杨陟卓，褚强，
申请(专利权)人：山西大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人