一种基于扩张卷积的主题感知抽取式文本摘要生成方法及系统技术方案

技术编号:39062753 阅读:10 留言:0更新日期:2023-10-12 19:55
本发明专利技术涉及自然语言处理技术领域,提出一种基于扩张卷积的主题感知抽取式文本摘要生成方法,包括以下步骤:S1:获取文档D中的文本数据进行预处理,得到文本编码x;S2:把所述文本编码x输入扩张卷积主题抽取模型中,获得主题分布θ

【技术实现步骤摘要】
一种基于扩张卷积的主题感知抽取式文本摘要生成方法及系统


[0001]本专利技术涉及自然语言处理
,更具体地,涉及一种基于扩张卷积的主题感知抽取式文本摘要生成方法及系统。

技术介绍

[0002]近年来,由于互联网上的文本信息出现爆发式增长。当用户浏览海量的互联网文本数据时,很难快速准确地获取其中的关键信息。这导致用户需要花费很多的时间和精力去自行概括文本中的重要内容。因此,如何能够从这些海量的长文本中提取出用户最关注的内容,提升对于信息处理的效率,成为了当下自然语言处理领域迫在眉睫的研究工作。
[0003]在长文本摘要中,文本中词容量比较大且文本中存在大量冗余数据,如果全部作为文本的特征输入,不但耗时较长,并且摘要提取效果也比较差。且长文本自动摘要任务的研究的发展受到数据集缺乏、文本篇幅过长、关键信息分散等因素的限制,现有的模型方法还不能够有效的针对长文本进行文本摘要生成,因此提出一种针对长文本摘要生成的方法尤为重要。
[0004]目前针对长文本的自动摘要生成的方法,主要有如下三种:
[0005](1)基于图的方法:使用基于句子的图来表示文档或文档簇,例如LexRank和TextRanK方法。将文本单元构成图的顶点,相似的点用边连接起来,即将文本构建成拓扑结构图,通过构建出图模型来凸显文本特征。首先将输入文本按照特定规则划分为若干文本单元,然后以文本单元为图顶点,利用各顶点之间的关系即文本单元的相似度为边构建成图,采取类似投票的方法对图中的各个顶点计算并排序,最后实现摘要的抽取。
[0006]该类型方法在抽取文本摘要时,只考虑了句子之间的关联程度,没有考虑句子的位置、关键词等特征,并且在相似度计算时仅是利用句子之间的共现关系作为句子之间的相似度结果,忽略了句子本身的语义特征。
[0007](2)基于主题的方法:通过依赖于识别文档的主题来实现摘要抽取。一些常见的主题表示方法是术语频率、术语频率逆文档频率(TF

IDF)、LDA方法等。通过将文本看作是由多个主题组成的混合体,依据统计建模的方式,将文本中的每个句子或段落解释为来自于一个或多个主题,并从中挖掘出潜在的主题结构。从文本集合中提取出潜在的主题以及每个主题与单词之间的关系,利用主题分布和单词分布等概率矩阵对文本进行主题分类并提取文本摘要。
[0008]使用这种方法一般需要人工指定主题的数量,如果选择不当可能会影响模型的表现,无法自适应地发现新主题,难以满足对于自适应性要求较高的长文本摘要场景。并且该算法需要进行大量的数学运算和迭代优化,计算复杂度比较高,无法很好地考虑句子间的关系和语义信息。
[0009](3)基于深度学习的方法:即一种基于嵌入(即单词的分布式表示)的文档级相似性判别的摘要系统,一般使用编码器

解码器(Encoder

Decoder)的网络架构。其工作机制
是先用编码器将输入文本编码到语义空间,编码成一个固定长度的向量语义表示。解码器根据编码器的输出以及之前生成的部分摘要,使用注意力机制决定当前时间步来生成哪个词或复制哪个位置的标记,以捕捉输入中重要的实体、短语或句子,生成准确和完整的摘要。
[0010]这种方法能够捕获文本生成的规律,但解码过程存在不可控性,会导致生成的摘要不够专注于原文的主要信息。在面对长文本的情况下,解码器很难识别原文的关键字,无法解析长距离语义信息,在生成文本摘要时存在重复和主题模糊等问题。
[0011]由此可见,现有的针对长文本的自动摘要生成的方法,存在无法自适应捕获文本主题,以及对长文本语义信息解析效果不好的问题,导致长文本摘要生成中存在冗余信息过多和主题模糊的缺陷。

技术实现思路

[0012]本专利技术为克服上述现有技术所述的无法自适应捕获文本主题,以及对长文本语义信息解析效果不好,导致长文本摘要生成中存在冗余信息过多和主题模糊的缺陷,提供一种能够自适应捕获文本主题且对长文本语义信息解析效果较好的基于扩张卷积的主题感知抽取式文本摘要生成方法及系统。
[0013]为解决上述技术问题,本专利技术的技术方案如下:
[0014]一种基于扩张卷积的主题感知抽取式文本摘要生成方法,包括以下步骤:
[0015]S1:获取文档D中的文本数据进行预处理,得到文本编码x;
[0016]S2:把所述文本编码x输入扩张卷积主题抽取模型中,获得主题分布θ
t
以及
[0017]候选句集C;
[0018]S3:将所述候选句集C输入BERT模型,对所述候选句集C中的句子进行
[0019]编码,获得包含语义特征的句子级向量;
[0020]S4:将所述句子级向量输入到融合有所述主题分布θ
t
的文档级解码器,获得
[0021]包含隐藏状态的候选句子s
i

[0022]S5:对所述候选句子s
i
进行评分,根据分值对句子进行降序排序,选择前S个句子用于生成摘要。
[0023]优选地,本专利技术还提出了一种基于扩张卷积的主题感知抽取式文本摘要生成系统,应用于上述的一种基于扩张卷积的主题感知抽取式文本摘要生成方法。其中,基于扩张卷积的主题感知抽取式文本摘要生成系统,包括依次连接的预处理模块,主题提取模块,特征融合模块和摘要生成模块。
[0024]本技术方案中,预处理模块,用于获取文本数据并进行预处理,得到文本编码;
[0025]主题提取模块,用于从输入的文本编码中获得文本的主题信息以及候选句集;
[0026]特征融合模块,用于对输入的候选句集进行编码和解码,获得融合主题信息的候选句子;
[0027]摘要生成模块,用于对融合主题信息的候选句子进行评分,排序和提取摘要句子,生成摘要。
[0028]与现有技术相比,本专利技术技术方案的有益效果是:
[0029]本专利技术通过使用扩张卷积架构,有效控制传统解码器的上下文容量,更好地捕捉
到长文本的主题信息,将长文本中的大量冗余数据去除,无需人工指定主题的数量,能够自动输出主题相关度高的候选语句,即,能够自适应地捕获文本主题。本专利技术还使用具备长距离上下文语义信息捕获能力的BERT模型,使用BERT词嵌入捕捉候选语句的特征,对长文本语义信息解析效果较好,同时结合了主题信息和句子评分,使得模型学习到如何平衡候选句子的显著性和冗余性,生成主题相关度高且冗余度低的文本摘要,有效改善了长文本摘要生成中存在大量冗余信息和主题模糊的问题。
附图说明
[0030]图1为实施例1的一种基于扩张卷积的主题感知抽取式文本摘要生成方法的流程图;
[0031]图2为实施例1的融合BERT生成文本摘要的流程图;
[0032]图3为实施例2的一种基于扩张卷积的主题感知抽取式文本摘要生成系统的整体框架图。
具体实施方式
[0033]附图仅用于示例性说明,不能理解为对本专利的限制;
[0本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于扩张卷积的主题感知抽取式文本摘要生成方法,其特征在于,包括以下步骤:S1:获取文档D中的文本数据进行预处理,得到文本编码x;S2:把所述文本编码x输入扩张卷积主题抽取模型中,获得主题分布θ
t
以及候选句集C;S3:将所述候选句集C输入BERT模型,对所述候选句集C中的句子进行编码,获得包含语义特征的句子级向量;S4:将所述句子级向量输入到融合有所述主题分布θ
t
的文档级解码器,获得包含隐藏状态的候选句子s
i
;S5:对所述候选句子s
i
进行评分,根据分值对句子进行降序排序,选择前S个句子用于生成摘要。2.根据权利要求1所述的一种基于扩张卷积的主题感知抽取式文本摘要生成方法,其特征在于,所述S1步骤中,对文本数据进行预处理的操作包括去除停用词和分词处理。3.根据权利要求1所述的一种基于扩张卷积的主题感知抽取式文本摘要生成方法,其特征在于,所述扩张卷积主题抽取模型包括基于扩张卷积的半监督变分自动编码器结构;所述半监督变分自动编码器结构中的编码器包括长短期记忆人工神经网络编码器,所述半监督变分自动编码器结构中的解码器包括扩张的卷积神经网络解码器。4.根据权利要求3所述的一种基于扩张卷积的主题感知抽取式文本摘要生成方法,其特征在于,所述扩张的卷积神经网络解码器中包括残差连接的三个卷积层,在残差连接时,使用ReLU作为激活函数,所述卷积层中的滤波器大小分别为1
×
1、1
×
n、1
×
1。5.根据权利要求3所述的一种基于扩张卷积的主题感知抽取式文本摘要生成方法,所述S2步骤包括:S2.1:将所述文本编码x输入所述扩张卷积主题抽取模型中的编码器,从标准多元高斯先验分布p()中采样,获得后验分布q(z|x)的均值μ和方差σ2,以及潜在变量z:z=μ+εσ2其中,ε是从标准正态分布N(0,1)中采样得到的参数;S2.2:将所述潜在向量z输入所述扩张卷积主题抽取模型中的解码器,从条件概率分布p(x|z)中采样,获得重构文本编码S2.3:利用文本编码x和重构文本编码确定训练损失Loss,并通过优化所述训练损失Loss对所述扩张卷积主题抽取模型中的编码器和解码器的参数进行更新,获得更新后的潜在向量z

;其中,所述训练损失Loss的表达式包括:式中,L(
·
,
·
)表示重建误差,D
KL
(
·
||
·
)表示KL散度;S2.4:对所述潜在向量z

进行MLP转换,获得主题分布θ
T
:式中,表示MLP转换矩阵;θ1,θ2,θ3,


t
分别表示1~t个主题;S2.5:对主题分布θ
t
进行归一化处理,获得每个主题对应的主题权重w:w=softmax(θ
T
);S2.6:对文档D中的句子的主题权重w进行加权计算,根据加权后的权重值对所述文档D
中的句子进行降序排序,选择前n个句子作为候选句集C;其中n为正整数。6.根据权利要求1所述的一种基于扩张卷积的主题感知抽取式文本摘要生成方法,其特征在于,所述扩张卷积主题抽取模型通过利用包含原始文档及其对应的人工摘要的数据进行有监督训练得到;其中,使用贪心策略,依据文本摘要的Rouge评价标准,根据Rouge分值对原始文档中的句子进行降序排序,选择前a个句子组...

【专利技术属性】
技术研发人员:肖红李泽霖姜文超黄子豪
申请(专利权)人:广州凡沙智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1