一种基于异构图的单语言主题摘要生成方法技术

技术编号:34445909 阅读:44 留言:0更新日期:2022-08-06 16:41
一种基于异构图的单语言主题摘要生成方法,从网络爬取源语言的摘要数据集,并进行分词、分句和打标签操作;使用对抗训练学习一个从源语言到目标语言的空间线性映射,得到源语言与目标语言在同一个共享向量空间的词向量,对分词、分句和打标签操作得到的数据进行预处理,得到包含单词节点、句子节点和边特征的向量,其中源语言即为需要生成摘要的数据集的语种,目标语言为一个大型语种;使用图注意力网络,将包含单词节点、句子节点和边特征的向量进行信息聚合,不断更新单词节点与句子节点,得到信息聚合之后的句子节点;将信息聚合之后的句子节点进行节点分类,并以交叉熵损失作为训练目标,根据句子的分数排序,筛选适合作为摘要的句子节点。摘要的句子节点。摘要的句子节点。

【技术实现步骤摘要】
一种基于异构图的单语言主题摘要生成方法


[0001]本专利技术属于人工智能
,特别涉及一种基于异构图的单语言主题摘 要生成方法。

技术介绍

[0002]互联网快速发展,各种包含新闻的文本数据涌现,导致人们很难快速获取 本文中的主题信息;另外,同一新闻在不同记者报道下,会有不同角度的观点, 从而有助于帮助用户了解某一件事件的全貌,怎样把所有的报道归纳成的主要 的观点;在闲暇之余想看到长篇新闻的时候想快速了解新闻的主要内容。怎样 快速地从文本信息中去获取核心的内容,在当今格局下显得尤为必要与迫切。
[0003]现有用GCN或者GAT模型,用异构图的方法做到单语言摘要。但是缺点 是未考虑单词之间的多种关系,并且现有技术多针对于英语,对于其他语言, 缺少其对应的词嵌入。

技术实现思路

[0004]为了克服上述现有技术的缺点,本专利技术的目的在于提供一种基于异构图的 单语言主题摘要生成方法,利用multi

GCN,可以考虑单词之间的关系,如句 法关系与语义关系;利用GAN网络,可以生成其他语言的词嵌入,从本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于异构图的单语言主题摘要生成方法,其特征在于,包括如下步骤:步骤1,从网络爬取源语言的摘要数据集,并进行分词、分句和打标签操作,所述源语言即为需要生成摘要的数据集的语种;步骤2,使用对抗训练学习一个从源语言到目标语言的空间线性映射,得到源语言与目标语言在同一个共享向量空间的词向量,对分词、分句和打标签操作得到的数据进行预处理,得到包含单词节点、句子节点和边特征的向量,其中所述目标语言为一个大型语种;步骤3,使用图注意力网络,将包含单词节点、句子节点和边特征的向量进行信息聚合,不断更新单词节点与句子节点,得到信息聚合之后的句子节点;步骤4,将信息聚合之后的句子节点进行节点分类,并以交叉熵损失作为训练目标,根据句子的分数排序,筛选适合作为摘要的句子节点。2.根据权利要求1所述基于异构图的单语言主题摘要生成方法,其特征在于,所述步骤2,对分词、分句和打标签操作得到的数据,利用所述源语言的词向量进行词嵌入操作,并将词嵌入整合获得句子嵌入,将词嵌入作为单词节点,句子嵌入作为句子节点,词嵌入与句子嵌入之间的关系作为边特征,构造异构图。3.根据权利要求2所述基于异构图的单语言主题摘要生成方法,其特征在于,所述对抗训练采用GAN网络,其中用来对抗的数据集是一一对应的,所述空间线性映射的映射函数如下所示:其中,X表示源语言的词嵌入,Y表示与X对应的目标语言的词嵌入,生成器生成X到Y的映射W,为一个d
×
d维空间的实数矩阵,|| ||
F
为F范数符号,W
*
表示WX

Y的F范数最小时映射函数的值;判别器辨别WX和对应Y之间的不同,通过判别器和生成器的不断对抗,直到WX与Y相似程度使得判别器判别不出;所述判别器的参数为θ
D
,判别器的损失函数如下所示:n为源语言的单词数量,m为目标语言的单词数量,x
i
表示源语言中第i个单词的词嵌入,y
i
表示目标语言中第i个单词的词嵌入;表示判别器认为Wx
i
是源语言嵌入的概率,表示判别器认为y
i
是目标语言嵌入的概率;训练W使得判别器无法辨别出WX与Y,则其损失函数为:则其损失函数为:表示判别器认为Wx
i
是目标语言嵌入的概率,表示判别器认为y
i
是源语言嵌入的概率;给定输入的样本,判别器和映射函数W依次用随机梯度下降法进行更新,使得L
D

D
|W)与L
W
(W|θ
D
)之和最小;
最终得到源语言与目标语言在同一个共享向量空间的词向量,任意一个源语言单词的邻居节点均为目标语言的对应单词。4.根据权利要求3所述基于异构图的单语言主题摘要生成方法,其特征在于,基于所述源语言的词向量,先采用卷积神经网络捕捉每个句子局部的n

garm特征,然后采用双向长短期记忆网络捕捉句子级特征,将所述局部的n

garm特征与所述句子级特征进行连接得到上下文单词嵌入,再用multi

GCN捕捉单词间的多个关系,对于句法关系,两个单词之间存在依赖关系时,A
r
[w
i
,w
j
]=1,不存在依赖关系时,A
r
[w
i
,w
j
...

【专利技术属性】
技术研发人员:云静郑博飞焦磊袁静姝刘利民
申请(专利权)人:内蒙古工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1