一种基于关键词的摘要生成系统及方法技术方案

技术编号：33863976 阅读：20 留言：0更新日期：2022-06-18 10:54

本发明专利技术公开了一种基于关键词的摘要生成系统及方法，包括数据采集模块、数据处理模块、计算处理模块、排序优化模块、总结聚合模块，数据采集模块用于通过数据采集的方法获得大量需要分析的语料文本，数据处理模块用于利用适合句向量表达的无监督词向量模型将分词后的文本向量化，得到由句向量组成的文本，计算处理模块用于利用预训练词向量以及计算句子有效得分，排序优化模块用于将带关键词句子得分进行排序，并根据需要取出前几句。本发明专利技术由于没有用到大型神经网络模型，因此在空间和时间效率上的优势比较明显，通过对比发现，效果好于文本平均词向量的相似度结果方便不同单位及个体通过对海量文本分析进行舆情监控管理。及个体通过对海量文本分析进行舆情监控管理。及个体通过对海量文本分析进行舆情监控管理。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于关键词的摘要生成系统及方法

[0001]本专利技术属于自然语言处理领域，尤其涉及一种基于关键词的摘要生成系统及方法。

技术介绍

[0002]当前人工智能生成摘要的方法普遍基于句法和语义计算得出，而无法根据人们想要关注点而获得理想结果，例如，某公司在一篇长文本种被提及，希望生成关于该公司的摘要，而传统方法无法解决该问题。因此我们对此做出改进，提出一种基于关键词的摘要生成系统及方法。

技术实现思路

[0003]本专利技术的目的在于克服现有技术存在的以上问题，提供一种基于关键词的摘要生成系统及方法，由于没有用到大型神经网络模型，因此在空间和时间效率上的优势比较明显，通过对比发现，效果好于文本平均词向量的相似度结果方便不同单位及个体通过对海量文本分析进行舆情监控管理。
[0004]为实现上述技术目的，达到上述技术效果，本专利技术通过以下技术方案实现：一种基于关键词的摘要生成系统，包括数据采集模块、数据处理模块、计算处理模块、排序优化模块、总结聚合模块；所述数据采集模块用于通过数据采集的方法获得大量需要分析的语料文本；所述数据处理模块用于利用适合句向量表达的无监督词向量模型将分词后的文本向量化，得到由句向量组成的文本；所述计算处理模块用于利用预训练词向量以及计算句子有效得分；所述排序优化模块用于将带关键词句子得分进行排序，并根据需要取出前几句，针对连续提到多个单位的列表类文本，按固定格式生成相应摘要；所述总结聚合模块用于对于摘要提到的事件相同的文本进行聚合与去重，进而提高结果信息质量。
...

【技术保护点】

【技术特征摘要】
1.一种基于关键词的摘要生成系统，其特征在于，包括数据采集模块、数据处理模块、计算处理模块、排序优化模块、总结聚合模块；所述数据采集模块用于通过数据采集的方法获得大量需要分析的语料文本；所述数据处理模块用于利用适合句向量表达的无监督词向量模型将分词后的文本向量化，得到由句向量组成的文本；所述计算处理模块用于利用预训练词向量以及计算句子有效得分；所述排序优化模块用于将带关键词句子得分进行排序，并根据需要取出前几句，针对连续提到多个单位的列表类文本，按固定格式生成相应摘要；所述总结聚合模块用于对于摘要提到的事件相同的文本进行聚合与去重，进而提高结果信息质量。2.根据权利要求1所述的一种基于关键词的摘要生成方法，其特征在于，所述方法包括以下步骤：A、数据采集模块通过数据采集的方法获得在一段时间的大量需要分析的语料文本，根据文本内容、语句类型进行文章类型分类，再将分类后的文章发送至数据处理模块；B、数据处理模块利用适合居向量表达的无监督词向量模型将分词后的文本向量滑，得到有句向量组成的文本，再将文本发送至计算处...

【专利技术属性】
技术研发人员：马云腾，夏茂晋，朱旭琪，王欢，
申请(专利权)人：北京清博智能科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人