基于TextRank和深度神经网络的情感摘要抽取方法技术

技术编号:31166254 阅读:23 留言:0更新日期:2021-12-04 11:00
本发明专利技术公开了基于TextRank和深度神经网络的情感摘要抽取方法,包括如下步骤:数据采集、监督式模型训练、无监督式摘要提取、文本情感摘要生成。本发明专利技术基于TextRank和深度神经网络的情感摘要抽取方法,采用LSTM+ATT+CNN的监督式方法训练情感句子向量,用来更新TextRank文本网络中的权重得分,进而提取具有情感色彩的摘要。针对较长文本,利用基于情感的文本向量来计算文本(句子或段落)之间的相似距离,相比基于BM25相似性的TextRank摘要提取方法更能准确地提取情感主题句,更能显示文章作者的情感核心内容,更具可读性。更具可读性。更具可读性。

【技术实现步骤摘要】
基于TextRank和深度神经网络的情感摘要抽取方法


[0001]本专利技术涉及文本理解和机器学习分析领域,尤其涉及基于TextRank和深度神经网络的情感摘要抽取方法。

技术介绍

[0002]随着互联网信息技术的突飞猛进,网路平台中存在海量信息,而针对这些海量信息进行有效筛选和读取是一个重要研究方向。特别地,对于长文本信息,提取出带有情感色彩的简短摘要,可以大大提高阅读效率。
[0003]摘要提取一般分为生成式方法和抽取式方法。生成式方法是根据文档表达的重要内容来自行组织语言,从而对源文档进行概括。抽取式方法是通过抽取源文档中的关键句子来组合生成摘要的。目前文本生成算法存在一定的技术瓶颈,虽然最新的GPT算法在文本生成方面取得了较好的成绩,但是产业化中的可读性与准确性还存在一定的差异。因此本专利技术中主要考虑抽取式摘要生成方法,即将长文本拆分成若干短句,然后根据权重重要性对短句进行排序,进而提取出若干短句组成摘要。
[0004]普通TextRank摘要抽取方法,句子间的权重衡量一般是基于BM25算法的相关性度量方法,即将文档定义为含有规范化BM25 TF值的元素,其中每个词的权重一般采取IDF(Inverse Document Frequency)方法。本专利技术基于TextRank方法,结合深度学习神经网络方法,针对长文本进行摘要提取,并且摘要中尽可能包含文档情感观点信息,使得可读性更强。为此,我们提出基于TextRank和深度神经网络的情感摘要抽取方法。

技术实现思路

[0005]基于
技术介绍
存在的技术问题,本专利技术提出了基于TextRank和深度神经网络的情感摘要抽取方法,采用TextRank的无监督方法和LSTM+注意力机制(ATT)+卷积神经网络(CNN)的情感监督式方法相结合的方法提取情感摘要,解决了现有文本生成算法,产业化中的可读性与准确性还存在一定的差异的问题。
[0006]本专利技术提供如下技术方案:基于TextRank和深度神经网络的情感摘要抽取方法,包括如下步骤:
[0007]S1、数据采集:采集源数据经过数据清洗之后,进行相应的数据标注和知识整理得到数据集;
[0008]S2、监督式模型训练:针对LSTM+ATT+CNN网络模型进行训练,训练得到文档短句子向量;
[0009]S3、无监督式摘要提取:根据pearson系数计算句子向量相似度矩阵,利用监督式的句子向量更新文本网络权重;
[0010]S4、文本情感摘要生成:根据最新的网络权重得分进行排序,按照TopK原则选取关键句,并根据关键词在文中出现的顺序,组合成情感摘要。
[0011]优选的,所述步骤S2中对LSTM+ATT+CNN网络模型的结构依次包括四个层次:输入
层、LSTM层、注意力机制层以及卷积全连接层,处理过程是:以sentence2vec得到的句子向量作为初始向量;通过LSTM网络学习序列间的初始序列特征;构建sentence level的注意力机制模型进一步得到局部区域的文本向量表达形式;最后结合卷积神经网络全连接方式进行监督式训练网络参数。
[0012]优选的,所述步骤S3中根据得到的句子向量计算句子权重W2,从而更新上述的句子权重,得到W3=λ*W1+(1

λ)*W2,其中λ是调节系数;针对W3构成的TextRank文本网络图,进行句子重要性排序。
[0013]优选的,所述步骤S3中通过对文本进行分拆,以每一个句子或短语为节点,构建TextRank文本网络图;
[0014][0015]上式中,WS(Vi)表示句子i的权重,右侧的求和表示每个相邻句子对本句子的贡献程度,d是阻尼系数,设置为0.85;
[0016]文本图结构中,节点之间的边代表权重,也就是句子之间的相似度,利用BM25模型计算得到句子Q在文档d中的权重W;
[0017][0018]IDF指逆文档频率,n指文档数量,k1,b是经验调节参数,k1=2,b=0.75;fi表示词qi在文档d中出现的频率,dl为文档d的长度,avgdl为文档D集合中所有文档的平均长度。
[0019]优选的,所述步骤S4中根据句子重要性,截取TopK的关键句,根据在文中出现的顺序组合成最终情感摘要,其中K为关键句数量,设置为文档总数量的20%至40%之间。
[0020]本专利技术提供了基于TextRank和深度神经网络的情感摘要抽取方法,采用LSTM+ATT+CNN的监督式方法训练情感句子向量,用来更新TextRank文本网络中的权重得分,进而提取具有情感色彩的摘要。针对较长文本,利用基于情感的文本向量来计算文本(句子或段落)之间的相似距离,相比基于BM25相似性的TextRank摘要提取方法更能准确地提取情感主题句,更能显示文章作者的情感核心内容,更具可读性。
附图说明
[0021]图1为本专利技术整体框架图;
[0022]图2为本专利技术LSTM+ATT+CNN监督式网络结构图。
具体实施方式
[0023]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0024]如图1所示,本专利技术提供一种技术方案:基于TextRank和深度神经网络的情感摘要
抽取方法,包括如下步骤:
[0025]S1、数据采集:采集源数据经过数据清洗之后,进行相应的数据标注和知识整理得到数据集;
[0026]S2、监督式模型训练:针对LSTM+ATT+CNN网络模型进行训练,训练得到文档短句子向量;
[0027]如图2所示,对LSTM+ATT+CNN网络模型的结构依次包括四个层次:输入层、LSTM层、注意力机制层以及卷积全连接层,处理过程是:以sentence2vec得到的句子向量作为初始向量;通过LSTM网络学习序列间的初始序列特征;构建sentence level的注意力机制模型进一步得到局部区域的文本向量表达形式;最后结合卷积神经网络全连接方式进行监督式训练网络参数。
[0028]S3、无监督式摘要提取:根据pearson系数计算句子向量相似度矩阵,利用监督式的句子向量更新文本网络权重;
[0029]通过对文本进行分拆,以每一个句子或短语为节点,构建TextRank文本网络图;
[0030][0031]上式中,WS(Vi)表示句子i的权重,右侧的求和表示每个相邻句子对本句子的贡献程度,d是阻尼系数,设置为0.85;
[0032]文本图结构中,节点之间的边代表权重,也就是句子之间的相似度,利用BM25模型计算得到句子Q在文档d中的权重W;
[0033][0034]IDF指逆文档频率,n指文档数量,k1,b是经验调节参数,k1=2,b=0.75;fi表示词qi在文档d中出现的频率,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于TextRank和深度神经网络的情感摘要抽取方法,其特征在于:包括如下步骤:S1、数据采集:采集源数据经过数据清洗之后,进行相应的数据标注和知识整理得到数据集;S2、监督式模型训练:针对LSTM+ATT+CNN网络模型进行训练,训练得到文档短句子向量;S3、无监督式摘要提取:根据pearson系数计算句子向量相似度矩阵,利用监督式的句子向量更新文本网络权重;S4、文本情感摘要生成:根据最新的网络权重得分进行排序,按照TopK原则选取关键句,并根据关键词在文中出现的顺序,组合成情感摘要。2.根据权利要求1所述的基于TextRank和深度神经网络的情感摘要抽取方法,其特征在于:所述步骤S2中对LSTM+ATT+CNN网络模型的结构依次包括四个层次:输入层、LSTM层、注意力机制层以及卷积全连接层,处理过程是:以sentence2vec得到的句子向量作为初始向量;通过LSTM网络学习序列间的初始序列特征;构建sentence level的注意力机制模型进一步得到局部区域的文本向量表达形式;最后结合卷积神经网络全连接方式进行监督式训练网络参数。3.根据权利要求1所述的基于TextRank和深度神经网络的情感摘要抽取方法,其特征在于:所述步骤S...

【专利技术属性】
技术研发人员:金勇胡林利陈宏明
申请(专利权)人:武汉长江通信产业集团股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1