【技术实现步骤摘要】
一种基于BART融合指针生成网络的文本摘要方法
[0001]本专利技术涉及自然语言处理、深度学习、自动文本摘要领域,具体涉及一种基于BART融合指针生成网络的文本摘要方法。
技术介绍
[0002]21世纪互联网的快速发展,大量的文本数据涌现导致用户很难快速获取文本中的主题信息,如何快速高效地从海量文本中提炼出所需的有用信息,已经成为一个亟待解决的问题。早期的文本摘要是通过人工来完成的,文本数据量的激增使得这项工作日渐繁重且效率低下,不能满足用户的需求,对非结构化文本数据的研究使自动文本摘要任务受到广泛关注和研究。同时,随着深度学习算法及技术的发展逐渐成熟,利用人工智能技术和自然语言处理领域的相关技术来进行自动文本摘要的生成,能为用户提供简洁而不丢失原意的信息,有效降低用户的信息负担、提高用户的信息获取速度,在信息检索、舆情分析、内容审查等领域具有较高的研究价值。
[0003]对于自动文本摘要,其挑战之一在于难以生成低频词和OOV(集外词)等且易产生重复冗余信息。文本摘要研究的技术框架为:内容表示、权重计算、内容选择和 ...
【技术保护点】
【技术特征摘要】
1.一种基于BART融合指针生成网络的文本摘要方法,其特征在于,包括以下步骤:S1:结合位置编码,对输入文本进行预处理,得到输入向量;S2:利用TF
‑
IDF权重机制,获取文本关键词权重向量;S3:利用基于注意力机制的QRNN模型得到注意力分布,结合关键词分布,获取上下文向量;S4:利用BART模型对上下文向量进行处理得到词表分布;S5:利用指针生成网络,结合复制机制和覆盖机制,获取最终分布,得到基于BART融合指针生成网络的文本摘要模型;S6:对基于BART融合指针生成网络的文本摘要模型进行优化训练,将文档输入到训练好的模型中,获取文档的摘要内容。2.根据权利要求1所述的一种基于BART融合指针生成网络的文本摘要方法,其特征在于,结合位置编码,对输入文本进行预处理,得到输入向量包括以下步骤:S11:通过词嵌入方法将原文语料转换成词嵌入向量;S12:根据词嵌入向量,采用函数型位置编码方式,获取位置编码向量,其公式为:S12:根据词嵌入向量,采用函数型位置编码方式,获取位置编码向量,其公式为:其中,t表示词在序列中的位置,表示t位置对应的向量,d为向量维度;i表示奇偶维数;k是从0到d/2
‑
1之间的整数值;S13:将词嵌入向量矩阵与位置编码向量矩阵相加,得到输入向量序列X={x1,x2,...,x
n
},x
n
表示n个输入信息。3.根据权利要求1所述的一种基于BART融合指针生成网络的文本摘要方法,其特征在于,获取文本关键词权重向量的过程包括:S21:输入序列输入权重机制中,利用TF
‑
IDF算法计算词频和逆向文档频率获取关键词权重值,表示为:w
tf
‑
idf
=tf*idf;=tf*idf;其中,w
tf
‑
idf
为关键词权重值;n
i,j
是词i在文件d
j
中出现的次数,|D|是语料库中的文件总数,|{j:t
i
∈d
j
}|表示包含词语t
i
的文件数目;S22:通过softmax获取关键词分布,表示为:β
ij
=softmax(w
tf
‑
idf
)。4.根据权利要求1所述的一种基于BART融合指针生成网络的文本摘要方法,其特征在于,利用基于注意力机制的QRNN模型得到注意力分布,并结合关键词分布获取上下文向量的过程包括以下步骤:
S31、将输入向量序列输入QRNN模型中,对输入向量在时间维度上进行卷积操作,生成候选维度序列Z={z1,z2,...,z
T
};S32、将输入向量分为多个长度为k的短序列,一个短序列经过QRNN模型获取该短序列隐藏状态,QRNN模型的编码器利用最后一层隐藏状态初始化解码器,将最后一个隐藏状态进行线性投影,并在解码器的激活函数之前将线性投影后的编码器最后一个隐藏状态添加到解码器各层每个时间步长的卷积中;S33、QRNN模型的遗忘门和输出门采用动态平均池化进行处理得到池化结果;S34、结合注意力、关键词分布以及解码器最后的隐藏状态,获取注意力分布以及上下文向量。5.根据权利要求4所述的一种基于BART融合指针生成网络的文本摘要方法,其特征在于,注意力分布表示为:上下文向量表示为:上下文向量表示为:其中,α
st
为注意力分布;表示最后一层输出门和遗忘门池化结果;表示编码器...
【专利技术属性】
技术研发人员:唐宏,甘陈敏,刘杰,刘小洁,陈榕,
申请(专利权)人:重庆邮电大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。