当前位置: 首页 > 专利查询>天津大学专利>正文

基于主题-述题理论的分层规划论文摘要生成方法技术

技术编号:36184420 阅读:27 留言:0更新日期:2022-12-31 20:45
本发明专利技术公开一种基于主题

【技术实现步骤摘要】
基于主题

述题理论的分层规划论文摘要生成方法


[0001]本专利技术涉及自然语言生成、内容规划及知识图谱应用,具体为基于主题

述题理论的分层规划论文摘要生成方法。

技术介绍

[0002]论文摘要生成是科学论文协作的第一步,也是十分关键的一步。论文摘要生成旨在在给定论文标题的条件下生成与论文标题一致、内容连贯丰富的摘要。随着自然语言生成相关技术的快速发展,自动论文摘要生成同样取得了令人瞩目的进步。然而,之前的工作中基于顺序神经网络进行研究,并且仅依赖有限的文章标题作为输入。由于论文标题和摘要之间的长度差距以及模型性能的限制,因此模型偏向于生成安全但无聊的文本。
[0003]尽管注入外部知识可以减缓有限输入带来的局限性。但论文摘要中涉及多个句子的生成,摘要写作不是简单地生成和组合这些句子,论文摘要中的每个句子都应该有自己的功能意义所在,例如描述论文的改进、方法、内容等。我们认为论文摘要中的每个句子功能可以由主题

述题结构确定。主题

述题结构认为一个句子可以分为“本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于主题

述题理论的分层规划论文摘要生成方法,其特征在于,包括以下步骤:(1)对论文标题及知识图谱分别使用Transformer编码器和Graph Transformer编码器进行编码,获得论文标题及知识图谱的表示;所述知识图谱为论文摘要对应的知识图谱;(2)主题词规划:将论文标题及知识图谱中节点的表示拼接起来并学习其中的潜在语义信息,记得到的隐变量为z
topic
,z
topic
中包含论文标题和知识图谱的潜在语义信息;z
topic
用于初始化主题词解码器;主题词解码器被训练用于生成主题词序列T,主题词序列T中包含若干个主题词:T={topic
k
|1≤k≤|Y|},|Y|表示论文摘要中共包含|Y|个句子;主题词序列中的第一个主题词topic1是论文摘要中第一个句子的主题词,topic2是论文摘要中第二个句子的主题词,以此类推,topic
k
是论文摘要中第k个句子的主题词,k=1,2,

|Y|;主题词解码器在生成的每一步都将从知识图谱中选择一个节点作为主题词;(3)述题子图规划:对于主题词序列T中的每个主题词都有对应的述题子图,定义述题子图的集合为g={g
k
|1≤k≤|Y|};以构造第k个主题词对应的述题子图为例:以主题词topic
k
为基础,对知识图谱中的每个节点进行打分,打分结果在[0,1]之间,并认为得分大于0.4的节点是相关的节点,分数小于0.4的节点是不相关的节点;最终仅保留得分大于0.4的节点,舍弃不相关的节点;以此得到知识图谱的子图即为述题子图,记为g
k
;(4)依据主题词topic
k
和述题子图g
k
进行第k个句子的生成:由于论文摘要中各个句子间存在互相影响,因此设置隐变量表示当前句子的语义状态,结合k

1个句子状态以及主题词和述题子图来学习第k个句子应有的语义状态;用于初始化句子解码器的初始状态;使用一个有监督的信号量来监督句子解码器在生成每个单词时拷贝述题子图的节点的概率,以此避免反复从述题子图拷贝节点。(5)重复(3

4)流程,直至全部的主题词遍历结束,将所有语句拼接在一起得到对应的论文摘要。2.根据权利要求1所述一种基于主题

述题理论的分层规划论文摘要生成方法,其特征在于,步骤(1)具体包括:(101)对论文标题进行编码表示:记输入的论文标题的表示向量为title={x1,x2,

,x
m
},x
i
表示论文标题中的第i个单词的嵌入向量,i=1,2

m,利用Transformer编码器对输入的论文标题向量进行编码表示;最终得到的表示向量为其中是论文标题中第i个单词的表示,i=1,2

m;定义h
title
是所有单词表示的平均,即论文标题的整体表示;(102)对知识图谱进行编码表示:记输入的知识图谱为G={V,E},其中V={v
i
|1≤i≤n}为知识图谱的节点集合,n是知识图谱中节点的总数量,v
i
是知识图谱中的第i个节点的嵌入向量;E={e
ij
|1≤i≤n,1≤j≤n}是知识图谱中的边集合,其中e
ij
是连接v
i
和v
j
的边的嵌入向量;知识图谱G由Graph Transformer编码器进行编码;最终得到表示Transformer编码器进行编码;最终得到表示是第i个节点表示;定义为所有节点表示的平均。3.根据权利要求1所述一种基于主题

述题理论的分层规划论文摘要生成方法,其特征在于,步骤(2)具体包括:
(201)隐变量的采样:依据VAE(Variational Autoencoder)的思想结构,首先将论文标题表示和知识图谱表示拼接在一起后送入到全连接层中,分别获得高斯分布的均值μ
topic
和方差σ
topic
,根据均值和方差构建隐变量z
topic
;其中z
topic
的采样符合公式的采样符合公式表示z
topic
的采样过程与h
title
,相关,z
topic
采样过程等价于μ
topic

topic
在高斯函数N(
·
)下的重采样过程;其中h
title
是论文标题的整体表示;为所有节点表示的平均;(202)主题词序列的生成:主题词序列由主题词解码器进行生成,主题词解码器完成一次解码可生成一个主题词,因此主题词解码器能够解码|Y|次;主题词解码器的初始状态由z
topic
初始化:初始化:是主题词解码器的初始状态,不同的解码器状态解码会得到不同的主题词;以生成topic
k
为例,生成topic
k
时的解码器状态为遵照公式(1)获得:Bi

GRU
topic
(
·
,
·
)为应用于主题词生成的双向GRU解码器;topic
k
‑1为k

1个主题词;为生成k

1个主题词时的解码器状态;则topic
k
由公式(2)确定:其中Tanh(
·
)为激活函数,softmax(
·
)为概率分布函数,W
topic
,b
topic
为可训练参数;公式(2)能够计算出知识图谱中每个节点被选为topic
k
的概率,最终将选择概率最大节点作为topic
k
;主题词解码器反复执行公式(1)和公式(2),最终得到主题词序列T={topic
k
|1≤k≤|Y|},|Y|表示论文摘要中共包含|Y|个句子,每个主题词对应于一句话的主要主题内容;(203)主题词规划的损失函数L1为q(z
topic
)是z
topic
的后验分布,p(z
topic
)是z
topic
的先验分布;是基于后验分布的重构损失函数;D
kl
(q...

【专利技术属性】
技术研发人员:贺瑞芳韩明悦
申请(专利权)人:天津大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1