【技术实现步骤摘要】
融合多层次主题特征的文本摘要自动生成方法及装置
[0001]本专利技术属于文本数据处理
,特别涉及一种融合多层次主题特征的文本摘要自动生成方法及装置,是指给定一个长文本,通过模型从原文中抽取句子组成一个短文本,并且能概括源文本主要内容。
技术介绍
[0002]文本自动摘要不仅可以有效的降低阅读成本,而且可以缓解当前人们面临的信息过载问题。按照自动摘要的方法进行区分,主要的方法有两种:抽取式摘要和生成式摘要。文本自动摘要最开始以统计理论为基础,基于文本中的词频、句子位置等生成摘要。之后伴随着机器学习和深度学习的发展,主演演化成生成式摘要和抽取式摘要两种主流方法。
[0003]生成式摘要主要借助于深度学习,起初序列到序列模型在机器翻译领域取得了明显成效,后被应用于文本摘要,并取得突破性的进展。生成式摘要的编码器最初使用递归神经网络RNN,但由于RNN在处理长期依赖问题方面有欠缺,后期都将RNN变体LSTM、GRU用于编码器中。随后又出现将注意力机制用于序列到序列模型,大幅度提高了生成式摘要的模型效果。之后一段时间主 ...
【技术保护点】
【技术特征摘要】
1.一种融合多层次主题特征的文本摘要自动生成方法,其特征在于,包含以下步骤:步骤1,基于平均词嵌入方法,将源文本对应的词向量映射成固定长度的句向量;步骤2,将源文本对应的句向量输入到编码器中的双向GRU网络中,并得到每个句向量所对应的隐藏层状态;步骤3,基于生成的隐藏层状态,对源文本进行局部主题特征和全局信息特征提取;步骤4,将提取到的局部主题特征和全局信息特征融入到源文本中进行解码,依次从源文本中选取句子组成摘要。2.根据权利要求1所述的融合多层次主题特征的文本摘要自动生成方法,其特征在于,所述句向量的计算公式如下:其中,set代表句向量,代表句子中的第i个单词w
i
对应的词编码,i∈[1,n],n表示该句中包含的单词向量个数。3.根据权利要求2所述的融合多层次主题特征的文本摘要自动生成方法,其特征在于,所述隐藏层状态表示为:其中,h
i
由前向隐藏层状态和后向隐藏层状态拼接成,和的生成公式如下:的生成公式如下:其中,x
i
表示输入到双向GRU网络中的第i个句向量,i∈[1,m],m表示源文本中包含的句向量的个数。4.根据权利要求3所述的融合多层次主题特征的文本摘要自动生成方法,其特征在于,所述步骤3具体包含以下步骤:步骤3.1,基于隐藏层状态提取源文本的局部主题特征sec
t
;步骤3.2,基于边缘隐藏层状态提取源文本的全局信息特征doc。5.根据权利要求4所述的融合多层次主题特征的文本摘要自动生成方法,其特征在于,所述步骤3.1的局部主题特征sec
t
由和拼接成,具体的计算过程如下:拼接成,具体的计算过程如下:其中,start
t
和end
t
分别代表每个分段开始和结束的句向量索引,代表前向局部主题特征,由分段前向隐藏层结束状态与分段前向隐藏层开始前状态相减得到,代表后向局部主题特征,由分段后向隐藏层结束状态与分段后向隐藏层开
始前状态相减得到;再将前向局部主题特征和后向局部主题特征进行融合,得到局部主题特征sec
t
,表达式如下:α代表融合因子,α∈(0,0.5)。6.根据权利要求5所述的融合多层次主题特征的文本摘要自动生成方法,其特征在于,所述步骤3.2的全局信息特征doc表示为:其中,代表前向隐藏层状态的最后一层状态,代表后向隐藏层状态的最后一层状态,doc由和拼接成。7.根据权利要求6所述的融合多层次主题特征的文本摘要自动生成方法,其特征在于,所述步骤4具体包含以下步骤:步骤4.1,将局部主题特征sec
t
和全局信息特征doc融入源文本,得到包含多层次主题特征的输入编码input
i
;步骤4.2,将包含多层次主题特征的输入编码input
i
输入到解码器进行解码,并依次从源文本中选取句子组成摘要。8.根据权利要求7所述的融合多层次主题特征的文本摘要自动...
【专利技术属性】
技术研发人员:何欣,陈永超,刘红阳,于俊洋,王光辉,
申请(专利权)人:河南大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。