一种基于关键词的摘要生成系统及方法技术方案

技术编号:33863976 阅读:20 留言:0更新日期:2022-06-18 10:54
本发明专利技术公开了一种基于关键词的摘要生成系统及方法,包括数据采集模块、数据处理模块、计算处理模块、排序优化模块、总结聚合模块,数据采集模块用于通过数据采集的方法获得大量需要分析的语料文本,数据处理模块用于利用适合句向量表达的无监督词向量模型将分词后的文本向量化,得到由句向量组成的文本,计算处理模块用于利用预训练词向量以及计算句子有效得分,排序优化模块用于将带关键词句子得分进行排序,并根据需要取出前几句。本发明专利技术由于没有用到大型神经网络模型,因此在空间和时间效率上的优势比较明显,通过对比发现,效果好于文本平均词向量的相似度结果方便不同单位及个体通过对海量文本分析进行舆情监控管理。及个体通过对海量文本分析进行舆情监控管理。及个体通过对海量文本分析进行舆情监控管理。

【技术实现步骤摘要】
一种基于关键词的摘要生成系统及方法


[0001]本专利技术属于自然语言处理领域,尤其涉及一种基于关键词的摘要生成系统及方法。

技术介绍

[0002]当前人工智能生成摘要的方法普遍基于句法和语义计算得出,而无法根据人们想要关注点而获得理想结果,例如,某公司在一篇长文本种被提及,希望生成关于该公司的摘要,而传统方法无法解决该问题。因此我们对此做出改进,提出一种基于关键词的摘要生成系统及方法。

技术实现思路

[0003]本专利技术的目的在于克服现有技术存在的以上问题,提供一种基于关键词的摘要生成系统及方法,由于没有用到大型神经网络模型,因此在空间和时间效率上的优势比较明显,通过对比发现,效果好于文本平均词向量的相似度结果方便不同单位及个体通过对海量文本分析进行舆情监控管理。
[0004]为实现上述技术目的,达到上述技术效果,本专利技术通过以下技术方案实现:一种基于关键词的摘要生成系统,包括数据采集模块、数据处理模块、计算处理模块、排序优化模块、总结聚合模块;所述数据采集模块用于通过数据采集的方法获得大量需要分析的语料文本;所述数据处理模块用于利用适合句向量表达的无监督词向量模型将分词后的文本向量化,得到由句向量组成的文本;所述计算处理模块用于利用预训练词向量以及计算句子有效得分;所述排序优化模块用于将带关键词句子得分进行排序,并根据需要取出前几句,针对连续提到多个单位的列表类文本,按固定格式生成相应摘要;所述总结聚合模块用于对于摘要提到的事件相同的文本进行聚合与去重,进而提高结果信息质量。
[0005]进一步地,所述文本向量生成模型为GloVe(Global vectors for word representation)的深度学习模型,计算句子有效得分为通过迭代计算的方法计算出每个句子其他所有句子总体相关度得分,将关键词经过特征编码、特征融合后,输入所述基于GloVe深度学习模型中和TextRank技术计算句子有效得分后生成文摘要。
[0006]一种基于关键词的摘要生成方法:A、数据采集模块通过数据采集的方法获得在一段时间的大量需要分析的语料文本,根据文本内容、语句类型进行文章类型分类,再将分类后的文章发送至数据处理模块;B、数据处理模块利用适合居向量表达的无监督词向量模型将分词后的文本向量滑,得到有句向量组成的文本,再将文本发送至计算处理模块;C、计算处理模块计算处理模块用于利用预训练词向量以及计算句子有效得分,排
序优化模块将带关键词句子得分进行排序,并根据需要取出前几句,针对连续提到多个单位的列表类文本,按固定格式生成相应摘要;D、总结聚合模块将摘要提到的事件相同的文本进行聚合与去重,进而提高结果信息质量,根据提前准备好的同义词表,对分好词的文本进行同义词替换,将相近含义的词语都转化为同一词语,对两篇文章的词语集合求交集,计算共有的词语在两篇文章的占比,通过求得两个占比的加权平均作为两篇文章的相似度,若相似度高于阈值,则被分为同一类。
[0007]本专利技术的有益效果是:该种基于关键词的摘要生成系统及方法,由于没有用到大型神经网络模型,因此在空间和时间效率上的优势比较明显,通过对比发现,效果好于文本平均词向量的相似度结果方便不同单位及个体通过对海量文本分析进行舆情监控管理。
附图说明
[0008]此处所说明的附图用来提供对本专利技术的进一步理解,构成本申请的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:图1是本专利技术的流程图;图2是本专利技术的排序优化模块示意图。
具体实施方式
[0009]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本专利技术保护的范围。
[0010]如图1所示的一种基于关键词的摘要生成系统及方法,一种基于关键词的摘要生成系统,包括数据采集模块、数据处理模块、计算处理模块、排序优化模块、总结聚合模块;数据采集模块用于通过数据采集的方法获得大量需要分析的语料文本;数据处理模块用于利用适合句向量表达的无监督词向量模型将分词后的文本向量化,得到由句向量组成的文本;计算处理模块用于利用预训练词向量以及计算句子有效得分利用预训练词向量以及TextRank技术计算句子有效得分。该技术借鉴于搜索引擎应用的网页排序PageRank思想,通过迭代计算的方法计算出每个句子其他所有句子总体相关度得分。每个句子的TextRank得分为:其中,为阻尼系数,为句子相似度矩阵;排序优化模块用于将带关键词句子得分进行排序,并根据需要取出前几句,针对连续提到多个单位的列表类文本,按固定格式生成相应摘要;总结聚合模块用于对于摘要提到的事件相同的文本进行聚合与去重,进而提高结果信息质量,对于摘要提到的事件相同的文本进行聚合与去重,进而提高结果信息质量。对于聚类模块,通过尝试当前用于计算文本相似度的模型,发现在准确性和时间效率上的效
果不是特别理想,因此采用基于同义词替换的词频统计方法。主要计算过程为:1、同义词替换,根据提前准备好的同义词表,对分好词的文本进行同义词替换,即相近含义的词语都转化为同一词语;2、相似度计算,对两篇文章的词语集合求交集,计算共有的词语在两篇文章的占比。
[0011]通过求得两个占比的加权平均作为两篇文章的相似度,若相似度高于阈值,则被分为同一类。相似度计算公式如下:分为同一类。相似度计算公式如下:分为同一类。相似度计算公式如下:分为同一类。相似度计算公式如下:由于每两篇文本都计算一次,时间复杂度是 ,为了节省计算时间,为每一类文本构造一个共用的特征词表,词表中记录该类文本中出现频率最高的100个词及词频,用这些特征词集合作为该类别的文本,参与后续的相似度计算。当有新的文本被分到这一类时,更新特征词表。
[0012]该种方法由于没有用到大型神经网络模型,因此在空间和时间效率上的优势比较明显,通过对比发现,效果好于文本平均词向量的相似度结果。
[0013]文本向量生成模型为GloVe(Global vectors for word representation)的深度学习模型,GloVe是一个全局对数双线性回归模型,该模型利用单词的共现频次矩阵,构造对数线性的目标函数,并用回归的形式进行求解。其目标函数为:对数线性的目标函数,并用回归的形式进行求解。其目标函数为:其中 , 是单词和单词的词向量, , 是自定义偏差项, 是共现矩阵,表示在整个语料库中,单词和单词共同出现在一个窗口中的次数。 是权重函数,是词汇表的大小(共现矩阵维度为 )。利用训练好的模型得出文本词向量,并求平均值得到文本句向量。计算句子有效得分为通过迭代计算的方法计算出每个句子其
他所有句子总体相关度得分,将关键词经过特征编码、特征融合后,输入基于GloVe深度学习模型中和TextRank技术计算句子有效得分后生成文摘要。
[0本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于关键词的摘要生成系统,其特征在于,包括数据采集模块、数据处理模块、计算处理模块、排序优化模块、总结聚合模块;所述数据采集模块用于通过数据采集的方法获得大量需要分析的语料文本;所述数据处理模块用于利用适合句向量表达的无监督词向量模型将分词后的文本向量化,得到由句向量组成的文本;所述计算处理模块用于利用预训练词向量以及计算句子有效得分;所述排序优化模块用于将带关键词句子得分进行排序,并根据需要取出前几句,针对连续提到多个单位的列表类文本,按固定格式生成相应摘要;所述总结聚合模块用于对于摘要提到的事件相同的文本进行聚合与去重,进而提高结果信息质量。2.根据权利要求1所述的一种基于关键词的摘要生成方法,其特征在于,所述方法包括以下步骤:A、数据采集模块通过数据采集的方法获得在一段时间的大量需要分析的语料文本,根据文本内容、语句类型进行文章类型分类,再将分类后的文章发送至数据处理模块;B、数据处理模块利用适合居向量表达的无监督词向量模型将分词后的文本向量滑,得到有句向量组成的文本,再将文本发送至计算处...

【专利技术属性】
技术研发人员:马云腾夏茂晋朱旭琪王欢
申请(专利权)人:北京清博智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1