基于TextRank和深度神经网络的情感摘要抽取方法技术

技术编号：31166254 阅读：23 留言：0更新日期：2021-12-04 11:00

本发明专利技术公开了基于TextRank和深度神经网络的情感摘要抽取方法，包括如下步骤：数据采集、监督式模型训练、无监督式摘要提取、文本情感摘要生成。本发明专利技术基于TextRank和深度神经网络的情感摘要抽取方法，采用LSTM+ATT+CNN的监督式方法训练情感句子向量，用来更新TextRank文本网络中的权重得分，进而提取具有情感色彩的摘要。针对较长文本，利用基于情感的文本向量来计算文本(句子或段落)之间的相似距离，相比基于BM25相似性的TextRank摘要提取方法更能准确地提取情感主题句，更能显示文章作者的情感核心内容，更具可读性。更具可读性。更具可读性。

全部详细技术资料下载

【技术实现步骤摘要】
基于TextRank和深度神经网络的情感摘要抽取方法

[0001]本专利技术涉及文本理解和机器学习分析领域，尤其涉及基于TextRank和深度神经网络的情感摘要抽取方法。

技术介绍

[0002]随着互联网信息技术的突飞猛进，网路平台中存在海量信息，而针对这些海量信息进行有效筛选和读取是一个重要研究方向。特别地，对于长文本信息，提取出带有情感色彩的简短摘要，可以大大提高阅读效率。
[0003]摘要提取一般分为生成式方法和抽取式方法。生成式方法是根据文档表达的重要内容来自行组织语言，从而对源文档进行概括。抽取式方法是通过抽取源文档中的关键句子来组合生成摘要的。目前文本生成算法存在一定的技术瓶颈，虽然最新的GPT算法在文本生成方面取得了较好的成绩，但是产业化中的可读性与准确性还存在一定的差异。因此本专利技术中主要考虑抽取式摘要生成方法，即将长文本拆分成若干短句，然后根据权重重要性对短句进行排序，进而提取出若干短句组成摘要。
[0004]普通TextRank摘要抽取方法，句子间的权重衡量一般是基于BM25算法的相关性度量方法，即将文档定义为含有规范化BM25 TF值的元素，其中每个词的权重一般采取IDF(Inverse Document Frequency)方法。本专利技术基于TextRank方法，结合深度学习神经网络方法，针对长文本进行摘要提取，并且摘要中尽可能包含文档情感观点信息，使得可读性更强。为此，我们提出基于TextRank和深度神经网络的情感摘要抽取方法。

技术实现思路

[0005...

【技术保护点】

【技术特征摘要】
1.基于TextRank和深度神经网络的情感摘要抽取方法，其特征在于：包括如下步骤：S1、数据采集：采集源数据经过数据清洗之后，进行相应的数据标注和知识整理得到数据集；S2、监督式模型训练：针对LSTM+ATT+CNN网络模型进行训练，训练得到文档短句子向量；S3、无监督式摘要提取：根据pearson系数计算句子向量相似度矩阵，利用监督式的句子向量更新文本网络权重；S4、文本情感摘要生成：根据最新的网络权重得分进行排序，按照TopK原则选取关键句，并根据关键词在文中出现的顺序，组合成情感摘要。2.根据权利要求1所述的基于TextRank和深度神经网络的情感摘要抽取方法，其特征在于：所述步骤S2中对LSTM+ATT+CNN网络模型的结构依次包括四个层次：输入层、LSTM层、注意力机制层以及卷积全连接层，处理过程是：以sentence2vec得到的句子向量作为初始向量；通过LSTM网络学习序列间的初始序列特征；构建sentence level的注意力机制模型进一步得到局部区域的文本向量表达形式；最后结合卷积神经网络全连接方式进行监督式训练网络参数。3.根据权利要求1所述的基于TextRank和深度神经网络的情感摘要抽取方法，其特征在于：所述步骤S...

【专利技术属性】
技术研发人员：金勇，胡林利，陈宏明，
申请(专利权)人：武汉长江通信产业集团股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人