当前位置: 首页 > 专利查询>河南大学专利>正文

融合多层次主题特征的文本摘要自动生成方法及装置制造方法及图纸

技术编号:32885847 阅读:38 留言:0更新日期:2022-04-02 12:20
本发明专利技术属于文本数据处理技术领域,特别涉及一种融合多层次主题特征的文本摘要自动生成方法及装置,该方法包括首先基于平均词嵌入方法,将源文本对应的词向量映射成固定长度的句向量;然后将源文本对应的句向量输入到编码器中的双向GRU网络中,并得到每个句向量所对应的隐藏层状态;其次,基于生成的隐藏层状态,对源文本进行局部主题特征和全局信息特征提取;最后将提取到的局部主题特征和全局信息特征融入到源文本中进行解码,依次从源文本中选取句子组成摘要。本发明专利技术在解码时融入局部主题特征和全局信息特征,使得生成摘要贴合上下文信息,提高生成摘要的质量。提高生成摘要的质量。提高生成摘要的质量。

【技术实现步骤摘要】
融合多层次主题特征的文本摘要自动生成方法及装置


[0001]本专利技术属于文本数据处理
,特别涉及一种融合多层次主题特征的文本摘要自动生成方法及装置,是指给定一个长文本,通过模型从原文中抽取句子组成一个短文本,并且能概括源文本主要内容。

技术介绍

[0002]文本自动摘要不仅可以有效的降低阅读成本,而且可以缓解当前人们面临的信息过载问题。按照自动摘要的方法进行区分,主要的方法有两种:抽取式摘要和生成式摘要。文本自动摘要最开始以统计理论为基础,基于文本中的词频、句子位置等生成摘要。之后伴随着机器学习和深度学习的发展,主演演化成生成式摘要和抽取式摘要两种主流方法。
[0003]生成式摘要主要借助于深度学习,起初序列到序列模型在机器翻译领域取得了明显成效,后被应用于文本摘要,并取得突破性的进展。生成式摘要的编码器最初使用递归神经网络RNN,但由于RNN在处理长期依赖问题方面有欠缺,后期都将RNN变体LSTM、GRU用于编码器中。随后又出现将注意力机制用于序列到序列模型,大幅度提高了生成式摘要的模型效果。之后一段时间主要在注意力机制方面进本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种融合多层次主题特征的文本摘要自动生成方法,其特征在于,包含以下步骤:步骤1,基于平均词嵌入方法,将源文本对应的词向量映射成固定长度的句向量;步骤2,将源文本对应的句向量输入到编码器中的双向GRU网络中,并得到每个句向量所对应的隐藏层状态;步骤3,基于生成的隐藏层状态,对源文本进行局部主题特征和全局信息特征提取;步骤4,将提取到的局部主题特征和全局信息特征融入到源文本中进行解码,依次从源文本中选取句子组成摘要。2.根据权利要求1所述的融合多层次主题特征的文本摘要自动生成方法,其特征在于,所述句向量的计算公式如下:其中,set代表句向量,代表句子中的第i个单词w
i
对应的词编码,i∈[1,n],n表示该句中包含的单词向量个数。3.根据权利要求2所述的融合多层次主题特征的文本摘要自动生成方法,其特征在于,所述隐藏层状态表示为:其中,h
i
由前向隐藏层状态和后向隐藏层状态拼接成,和的生成公式如下:的生成公式如下:其中,x
i
表示输入到双向GRU网络中的第i个句向量,i∈[1,m],m表示源文本中包含的句向量的个数。4.根据权利要求3所述的融合多层次主题特征的文本摘要自动生成方法,其特征在于,所述步骤3具体包含以下步骤:步骤3.1,基于隐藏层状态提取源文本的局部主题特征sec
t
;步骤3.2,基于边缘隐藏层状态提取源文本的全局信息特征doc。5.根据权利要求4所述的融合多层次主题特征的文本摘要自动生成方法,其特征在于,所述步骤3.1的局部主题特征sec
t
由和拼接成,具体的计算过程如下:拼接成,具体的计算过程如下:其中,start
t
和end
t
分别代表每个分段开始和结束的句向量索引,代表前向局部主题特征,由分段前向隐藏层结束状态与分段前向隐藏层开始前状态相减得到,代表后向局部主题特征,由分段后向隐藏层结束状态与分段后向隐藏层开
始前状态相减得到;再将前向局部主题特征和后向局部主题特征进行融合,得到局部主题特征sec
t
,表达式如下:α代表融合因子,α∈(0,0.5)。6.根据权利要求5所述的融合多层次主题特征的文本摘要自动生成方法,其特征在于,所述步骤3.2的全局信息特征doc表示为:其中,代表前向隐藏层状态的最后一层状态,代表后向隐藏层状态的最后一层状态,doc由和拼接成。7.根据权利要求6所述的融合多层次主题特征的文本摘要自动生成方法,其特征在于,所述步骤4具体包含以下步骤:步骤4.1,将局部主题特征sec
t
和全局信息特征doc融入源文本,得到包含多层次主题特征的输入编码input
i
;步骤4.2,将包含多层次主题特征的输入编码input
i
输入到解码器进行解码,并依次从源文本中选取句子组成摘要。8.根据权利要求7所述的融合多层次主题特征的文本摘要自动...

【专利技术属性】
技术研发人员:何欣陈永超刘红阳于俊洋王光辉
申请(专利权)人:河南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1