一种融合全局和局部语义特征的文本摘要生成方法及系统技术方案

技术编号:37478827 阅读:27 留言:0更新日期:2023-05-07 09:19
本发明专利技术公开了一种融合全局和局部语义特征的文本摘要生成方法及系统,属于自然语言处理技术领域。该方法包括:接收待生成摘要的文本,并进行预处理;将所述预处理后的文本分别输入全局语义特征提取模块和局部语义特征提取模块,得到全局语义特征向量和局部语义特征向量;将其输入注意力机制中进行融合,得到上下文向量;根据得到的所述上下文向量,输入基于指针机制的解码层,得到最终生成的文本摘要。本发明专利技术融合局部语义特征与全局语义特征,加强了生成摘要的准确性和模型对语义信息提取的能力;使用基于指针机制的解码器,同时从原文和词表中抽取词汇组成最终生成的摘要,解决文本摘要领域常见的词表外单词OOV问题。决文本摘要领域常见的词表外单词OOV问题。决文本摘要领域常见的词表外单词OOV问题。

【技术实现步骤摘要】
一种融合全局和局部语义特征的文本摘要生成方法及系统


[0001]本专利技术涉及自然语言处理
,特别涉及一种融合全局和局部语义特征的文本摘要生成方法及系统。

技术介绍

[0002]随着互联网时代的发展,大量的信息包括图片、视频、文本等不断涌现在网络上,影响着人们的生活。然而,在人们享受着信息给我们带来便利的同时,信息超载的问题越来越常见,如何从大量的信息当中准确的提取出最主要的内容显得尤为重要。文本信息作为互联网上最为常见的信息形式之一,如何准确的帮助用户从海量文本信息中获取最主要的信息成为目前亟待解决的问题。
[0003]自动文本摘要技术是自然语言处理技术中的一个分支,在输入一长串的文本后,通过机器快速提取出文本的主要内容并总结成摘要,可以帮助用户节省时间并提高阅读效率。目前自动文本摘要技术已经在许多领域诸如新闻标题生成、关键信息检索和舆情检测等领域得到了广泛的应用。
[0004]根据自动文本摘要的生成方式,可将其分为抽取式文本摘要和抽象式文本摘要。抽取式文本摘要通过直接从原文本中抽取词语和句子组成最终生成的摘要,此方法在本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种融合全局和局部语义特征的文本摘要生成方法,其特征在于,包括如下步骤:(1)接收待生成摘要的文本,并进行预处理;(2)构建文本摘要生成模型,所述模型包括:全局语义特征提取模块和局部语义特征提取模块、注意力机制以及基于指针机制的解码层;将所述预处理后的文本分别输入全局语义特征提取模块和局部语义特征提取模块,得到全局语义特征向量和局部语义特征向量;将所述全局语义特征向量和局部语义特征向量输入注意力机制中进行融合,得到融合全局和局部语义特征的上下文向量;根据得到的所述上下文向量,输入基于指针机制的解码层,得到最终生成的文本摘要;(3)基于损失函数对模型进行训练,得到训练好的所述文本摘要生成模型;(4)将经过步骤(1)处理后的待生成摘要的文本,输入训练好的所述文本摘要生成模型,生成文本摘要。2.根据权利要求1所述的融合全局和局部语义特征的文本摘要生成方法,其特征在于,所述预处理具体包括:使用jieba分词器对文本进行分词处理;去除无用的标签、特殊符号和停用词;对于过长的所述文本进行截断处理。3.根据权利要求1所述的融合全局和局部语义特征的文本摘要生成方法,其特征在于:所述全局语义特征提取模块由卷积神经网络和单层双向的长短期序列网络组成,将卷积神经网络CNN和双向长短期记忆网络Bi

LSTM的输出进行融合,得到全局语义特征向量;所述局部语义特征提取模块由keybert关键词提取器和基于transformer的多头自注意力机制组成。4.根据权利要求3所述的融合全局和局部语义特征的文本摘要生成方法,其特征在于,将卷积神经网络CNN和双向长短期记忆网络Bi

LSTM的输出进行融合具体为:(2.1)所述预处理后的文本输入所述卷积神经网络CNN,计算公式如下:m
i
=f(W
c
x
i:h+h
‑1+b
c
)其中,h指的是卷积核的长度,x
i:i+h
‑1表示所述预处理后的文本中从第i个词向量开始到h个词向量组成的矩阵,f表示非线性激活函数,b
c
为偏置项,W
c
表示卷积核;(2.2)所述预处理后的文本输入所述双向长短期记忆网络Bi

LSTM,计算公式如下:LSTM,计算公式如下:LSTM,计算公式如下:其中,和分别表示该单词在Bi

LSTM隐藏层的正向状态和反向状态表示,h
i
表示Bi

LSTM编码器隐藏层状态;(2.3)融合得到全局语义特征向量:p
i
=h
i
+m
i
其中:p
i
为全局语义特征向量。5.根据权利要求3所述的融合全局和局部语义特征的文本摘要生成方法,其特征在于,
所述keybert关键词提取器具体过程如下:首先使用BERT获取所述预处理后的文本的向量级表示,随后针对n元词组或短语与所述预处理后的文本向量进行相似度计算,根据结果查找出相似度最高的词组或短语,并将其作为关键词提取出来。6.根据权利要求5所述的融合全局和局部语义特征的文本摘要生成方法,其特征在于,所述transformer的多头自注意力机制具体过程如...

【专利技术属性】
技术研发人员:袁非牛戴维汪春梅
申请(专利权)人:上海师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1