【技术实现步骤摘要】
一种基于扩张卷积的主题感知抽取式文本摘要生成方法及系统
[0001]本专利技术涉及自然语言处理
,更具体地,涉及一种基于扩张卷积的主题感知抽取式文本摘要生成方法及系统。
技术介绍
[0002]近年来,由于互联网上的文本信息出现爆发式增长。当用户浏览海量的互联网文本数据时,很难快速准确地获取其中的关键信息。这导致用户需要花费很多的时间和精力去自行概括文本中的重要内容。因此,如何能够从这些海量的长文本中提取出用户最关注的内容,提升对于信息处理的效率,成为了当下自然语言处理领域迫在眉睫的研究工作。
[0003]在长文本摘要中,文本中词容量比较大且文本中存在大量冗余数据,如果全部作为文本的特征输入,不但耗时较长,并且摘要提取效果也比较差。且长文本自动摘要任务的研究的发展受到数据集缺乏、文本篇幅过长、关键信息分散等因素的限制,现有的模型方法还不能够有效的针对长文本进行文本摘要生成,因此提出一种针对长文本摘要生成的方法尤为重要。
[0004]目前针对长文本的自动摘要生成的方法,主要有如下三种:
[0005](1)基于图的方法:使用基于句子的图来表示文档或文档簇,例如LexRank和TextRanK方法。将文本单元构成图的顶点,相似的点用边连接起来,即将文本构建成拓扑结构图,通过构建出图模型来凸显文本特征。首先将输入文本按照特定规则划分为若干文本单元,然后以文本单元为图顶点,利用各顶点之间的关系即文本单元的相似度为边构建成图,采取类似投票的方法对图中的各个顶点计算并排序,最后实现摘要的抽取。
...
【技术保护点】
【技术特征摘要】
1.一种基于扩张卷积的主题感知抽取式文本摘要生成方法,其特征在于,包括以下步骤:S1:获取文档D中的文本数据进行预处理,得到文本编码x;S2:把所述文本编码x输入扩张卷积主题抽取模型中,获得主题分布θ
t
以及候选句集C;S3:将所述候选句集C输入BERT模型,对所述候选句集C中的句子进行编码,获得包含语义特征的句子级向量;S4:将所述句子级向量输入到融合有所述主题分布θ
t
的文档级解码器,获得包含隐藏状态的候选句子s
i
;S5:对所述候选句子s
i
进行评分,根据分值对句子进行降序排序,选择前S个句子用于生成摘要。2.根据权利要求1所述的一种基于扩张卷积的主题感知抽取式文本摘要生成方法,其特征在于,所述S1步骤中,对文本数据进行预处理的操作包括去除停用词和分词处理。3.根据权利要求1所述的一种基于扩张卷积的主题感知抽取式文本摘要生成方法,其特征在于,所述扩张卷积主题抽取模型包括基于扩张卷积的半监督变分自动编码器结构;所述半监督变分自动编码器结构中的编码器包括长短期记忆人工神经网络编码器,所述半监督变分自动编码器结构中的解码器包括扩张的卷积神经网络解码器。4.根据权利要求3所述的一种基于扩张卷积的主题感知抽取式文本摘要生成方法,其特征在于,所述扩张的卷积神经网络解码器中包括残差连接的三个卷积层,在残差连接时,使用ReLU作为激活函数,所述卷积层中的滤波器大小分别为1
×
1、1
×
n、1
×
1。5.根据权利要求3所述的一种基于扩张卷积的主题感知抽取式文本摘要生成方法,所述S2步骤包括:S2.1:将所述文本编码x输入所述扩张卷积主题抽取模型中的编码器,从标准多元高斯先验分布p()中采样,获得后验分布q(z|x)的均值μ和方差σ2,以及潜在变量z:z=μ+εσ2其中,ε是从标准正态分布N(0,1)中采样得到的参数;S2.2:将所述潜在向量z输入所述扩张卷积主题抽取模型中的解码器,从条件概率分布p(x|z)中采样,获得重构文本编码S2.3:利用文本编码x和重构文本编码确定训练损失Loss,并通过优化所述训练损失Loss对所述扩张卷积主题抽取模型中的编码器和解码器的参数进行更新,获得更新后的潜在向量z
′
;其中,所述训练损失Loss的表达式包括:式中,L(
·
,
·
)表示重建误差,D
KL
(
·
||
·
)表示KL散度;S2.4:对所述潜在向量z
′
进行MLP转换,获得主题分布θ
T
:式中,表示MLP转换矩阵;θ1,θ2,θ3,
…
,θ
t
分别表示1~t个主题;S2.5:对主题分布θ
t
进行归一化处理,获得每个主题对应的主题权重w:w=softmax(θ
T
);S2.6:对文档D中的句子的主题权重w进行加权计算,根据加权后的权重值对所述文档D
中的句子进行降序排序,选择前n个句子作为候选句集C;其中n为正整数。6.根据权利要求1所述的一种基于扩张卷积的主题感知抽取式文本摘要生成方法,其特征在于,所述扩张卷积主题抽取模型通过利用包含原始文档及其对应的人工摘要的数据进行有监督训练得到;其中,使用贪心策略,依据文本摘要的Rouge评价标准,根据Rouge分值对原始文档中的句子进行降序排序,选择前a个句子组...
【专利技术属性】
技术研发人员:肖红,李泽霖,姜文超,黄子豪,
申请(专利权)人:广州凡沙智能科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。