当前位置: 首页 > 专利查询>中山大学专利>正文

一种基于计划机制和知识图谱引导的摘要生成方法技术

技术编号:27935646 阅读:20 留言:0更新日期:2021-04-02 14:15
本发明专利技术提供一种基于计划机制和知识图谱引导的摘要生成方法,该方法直接将知识图谱作为模型的输入,并且在摘要解码的过程中无间断的知识图谱的全局语义特征上抽取注意力特征,维持摘要上下文的语义一致性;相对于采用图神经网络作为编码器的文本生成模型,本发明专利技术通过有监督的标注摘要中各个句段所涵盖的实体信息,以训练模型的计划机制模块能够在生成句段前捕获已生成文本的语义特征,由此进一步显式的抽取知识图谱的子图作为细粒度的引导,从而指引模型生成语义更加流畅,逻辑更加自洽的摘要文本。

【技术实现步骤摘要】
一种基于计划机制和知识图谱引导的摘要生成方法
本专利技术涉及人工智能算法领域,更具体地,涉及一种基于计划机制和知识图谱引导的摘要生成方法。
技术介绍
互联网的资讯呈指数级增长,为数亿互联网用户提供各种内容和信息。用户的期望是能够快速,便利的获取资讯的主要信息和阅读摘要,然而,目前互联网上各类长文的摘要文本生成和提炼主要通过专业编辑人工撰写完成,不仅耗时耗力,还无法满足市场的需求。近年来,随着人工智能和大数据的发展,机器写稿和文本类信息摘要技术取得了显著的进展。摘要自动生成技术逐渐商用,并且在各个应用场景中逐渐取代人工进行生产和服务。摘要生成是自然语言处理的一个重要领域,其可以分为抽取式摘要和生成式摘要。抽取式摘要主要是计算机程序从较长的源文本中筛选出重要的,具有代表性的短句,作为该文的摘要,而生成式摘要的任务是计算机程序在理解源文本蕴含的语义后,重新自主的生成摘要内容。生成式摘要的适用场景较为灵活,困难和问题也更有挑战。生成式摘要主要有2大局限和挑战:首先,计算机程序在进行源文本的输入和处理时,往往无法捕捉关键信息和理解复杂的语本文档来自技高网...

【技术保护点】
1.一种基于计划机制和知识图谱引导的摘要生成方法,该方法应用在一种基于计划机制和知识图谱引导的摘要生成系统上,该系统包括语义编码器、计划机制模块、摘要解码器和内容理解器,其特征在于,包括以下步骤:/nS1:语义编码器提取知识图谱特征,得到命名实体在多关系描述下的全局语义特征;/nS2:内容理解器将已经生成的句段进行内容理解,得到已经表达的三元组子序列的特征;计划机制模块利用双向注意力流,计算三元组的在当前语境下的注意力权重,进而得出当前语境下需要蕴含的局部语义特征;/nS3:摘要解码器将S1和S2得到的全局和局部语义特征进行融合,以句段为单位生成文本摘要。/n

【技术特征摘要】
1.一种基于计划机制和知识图谱引导的摘要生成方法,该方法应用在一种基于计划机制和知识图谱引导的摘要生成系统上,该系统包括语义编码器、计划机制模块、摘要解码器和内容理解器,其特征在于,包括以下步骤:
S1:语义编码器提取知识图谱特征,得到命名实体在多关系描述下的全局语义特征;
S2:内容理解器将已经生成的句段进行内容理解,得到已经表达的三元组子序列的特征;计划机制模块利用双向注意力流,计算三元组的在当前语境下的注意力权重,进而得出当前语境下需要蕴含的局部语义特征;
S3:摘要解码器将S1和S2得到的全局和局部语义特征进行融合,以句段为单位生成文本摘要。


2.根据权利要求1所述的基于计划机制和知识图谱引导的摘要生成方法,其特征在于,所述步骤S1的具体过是:
首先对其本发明通过信息抽取工具在大规模语料上进行命名实体识别和关系抽取,得到专业领域的知识经验,从而显式的描述和用户期望生成摘要的语义;
特征向量初始化模块,将异构的知识图谱转换为特征向量初始化表示:
s=node_encode(xs)(1)
r=relation_encode(xt)(2)
其中,实体经过node_encode函数实现特征向量化得到s,多关系属性边经过relation_encode实现特征向量化得到r;relation_encode函数的具体实现是,首先将输入源x映射到onehot层,然后通过onehot层的索引到embedding层查找相对应的特征向量,如公式(3);node_encode函数实现和relation_encode函数类似,不同在于,由于实体多数情况下由若干个词组成,所以node_encode函数在得到各个词的特征向量表示后,还需要序列神经网络串联,取最后一个时刻的隐层状态特征作为实体的特征向量表示:
relation_encode()=embedding(one_hot())(3)
node_encode()=lstm(embedding(one_hot()))(4)
使用异构图神经网络将信息在实体与实体之间进行传播,从而更新实体的特征向量表示,实现整体语义信息的融合;给定已经初始化的实体特征s,经过图神经网络层,得到知识图谱的最终特征向量kg,如公式(5):
sgraph=graph_encode(s)(5)
其中,图神经网络的具体实现为,每个实体的信息都通过三元组所定义的属性边进行广播,即每个实体都会聚合来自邻居节点的信息;广播的信息经过不同的图注意力权重和边信息加工,最终与实体节点信息融合,实现实体信息的更新,如公式(6):



其中,N代表节点s的一阶邻居集合,a(n,s)代表s相对于n的经过softmax的注意力权重,r是连接节点s和节点n的属性边的特征向量,W是可训练的融合信息矩阵,RELU是激活函数;通过该异构图神经网络,模块S1最终得到名实体在多关系描述下的全局语义特征,该特征为实体最终的特征向量的无序集合,如公式(7):
KG={sgraph}(7)。


3.根据权利要求2所述的基于计划机制和知识图谱引导的摘要生成方法,其特征在于,所述步骤S2中,所述内容理解模块理解已经生成的句段所涵盖的信息:
若当前已经生成m-1句话,首先通过正则表达式,抽取当前语境下,模型已经覆盖和表达的三元组子集xpast,然后复用语义编码器,得到当前已经涵盖的知识图谱子图的语义特征KGpast。


4.根据权利要求3所述的基于计划机制和知识图谱引导的摘要生成方法,其特征在于,所述步骤S2中,所述计划机制模块通过计算输入...

【专利技术属性】
技术研发人员:林镇坤苏勤亮
申请(专利权)人:中山大学
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1