一种基于小样本学习的情报信息压缩系统技术方案

技术编号：36128676 阅读：10 留言：0更新日期：2022-12-28 14:37

本发明专利技术涉及一种基于小样本学习的情报信息压缩系统，属于自然语言处理技术领域，该系统包括用于获取自动文本摘要模型的离线训练模块、用于生成主题摘要的异步处理模块以及用于为用户提供交互服务的在线服务模块。本申请提供的系统构建基于小样本学习的自动文本摘要模型对文本内容进行概括，加快了对情报报文的阅读速度；同时，从主题、事件、文档、词语四个层级进行语义关联分析，在保留了各主题信息的层次性的同时，避免深度学习技术大规模数据集的限制，通过分级聚类的方法对报文进行归纳与总结，从篇数上大幅减少了情报工作者的阅读量，可在实现信息压缩的同时，尽可能的减少军事数据领域数据集标注成本及难度高的问题。事数据领域数据集标注成本及难度高的问题。事数据领域数据集标注成本及难度高的问题。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于小样本学习的情报信息压缩系统

[0001]本专利技术涉及自然语言处理
，尤其涉及一种基于小样本学习的情报信息压缩系统。

技术介绍

[0002]随着互联网的普及，网络用户的增加，网络中的信息量呈现指数型的增长。由此带来的信息过载问题也愈发的严重。在如今这个大数据时代，互联网带给我们便利的同时，其数据过载问题也给情报分析等工作带来了挑战。
[0003]近年来自然语言处理相关技术的蓬勃发展，越来越多的机器学习算法开始应用到了文本摘要的生成之中，传统的用于文本摘要生成的主题事件提取模型大都通过数据挖掘或机器学习领域中的方法对文本的信息内容进行压缩，没有考虑到文章中的层次化信息，容易产生信息缺失；并且由于同一主题中事件词语分布较近，容易造成事件抽取结果难以区分，造成各主题事件对应的文本相重合。
[0004]文本摘要技术一般分为抽取式文本摘要和生成式文本摘要，由于抽取式摘要的生成方式是直接套用原文语句，因此摘要一般都保持了语言的流畅性，但是由于其大多都是对语句的罗列，语句之间会出现重复、冗余等问题；而生成式文本摘要是现在自然语言处理领域的难点任务，尤其在情报领域，数据集的缺乏导致生成摘要的关键词重复、语义不清楚、摘要不够流畅可读性差等问题尤为凸显。

技术实现思路

[0005]本专利技术意在提供一种基于小样本学习的情报信息压缩系统，以解决现有技术中存在的不足，本专利技术要解决的技术问题通过以下技术方案来实现。
[0006]本专利技术提供的基于小样本学习的情报信息压缩系统，包括：...

【技术保护点】

【技术特征摘要】
1.一种基于小样本学习的情报信息压缩系统，其特征在于，所述系统包括：离线训练模块，用于获取部分本地数据库中的情报数据并对其标注，将标注结果分为训练集和测试集，对训练集进行预处理，通过引入了Bert预训练模型的Word Embedding层对预处理的结果进行向量化处理，并将向量化处理结果作为输入，对Bi
‑
LSTM神经网络训练得到自动文本摘要模型，通过自动文本摘要模型对经过预处理的测试集进行处理生成摘要，并通过ROUGE对生成的摘要进行评估，重复以上步骤直到得到符合条件的自动文本摘要模型；异步处理模块，用于通过对自动文本摘要模型本地数据库中的情报数据对应的原始报文进行相关处理提取原始报文对应的主题信息，根据提取的主题信息提取原始报文对应的事件信息，根据提取的事件信息获取原始报文对应的标题信息，并通过相似度计算将新的主题信息与已有的主题信息进行整合，通过相似度计算将新的事件信息与已有的事件信息进行整合，以及通过自动文本摘要模型根据经过整合的事件信息生成事件摘要，根据经过整合的主题信息以及生成的事件摘要生成主题摘要，将生成的主题摘要存储至本地数据库；在线服务模块，用于通过UI界面为用户提供主题摘要信息，并接受用户发送的反馈信息。2.根据权利要求1所述的基于小样本学习的情报信息压缩系统，其特征在于，所述对训练集进行预处理包括去除训练集文本中的停用词、表情，并去除文本中质量评分低于预设评分的语句，得到文本集合，并对文本集合进行分字处理。3.根据权利要求1所述的基于小样本学习的情报信息压缩系统，其特征在于，所述将向量化处理结果作为输入，对Bi
‑
LSTM神经网络训练得到自动文本摘要模型包括：构建Bi
‑
LSTM神经网络，通过向量化处理结果分别对Bi
‑
LSTM编码器和Bi
‑
LSTM解码器进行训练，得到自动文本摘要模型。4.根据权利要求1所述的基于小样本学习的情报信息压缩系统，其特征在于，所述通过对本地数据库中的情报数据对应的原始报文进行相关处理提取原始报文对应的主题信息包括：对本地数据库中的情报数据对应的原始报文进行数据预处理，以篇为单位对每篇报文进行词频的筛选与统计；提取每篇报文的所属主题，将所属主题对应的报文作为主题事件，并获取每篇报文的词语向量；通过CGS算法获取LDA主题模型的相应参数，并得到主题
‑
报文之间的关联矩阵和每篇报文中词语的分布矩阵；对各个主题事件采用K
‑
means聚类算法进行主题事件的聚类获取主题聚类，统计各主题对应的词语的词频，根据统计结果获得各主题的关键词。5.根据权利要求4所述的基于小样本学习的情报信息压缩系统，其特征在于，所述根据提取的主题信息提取原始报文对应的事件信息包括：对主题事件进行分词处理，对分词处理结果进行词性标注，筛选出主题事件中的动词、名词、事件词以及量词作为主题事件的词典；通过计算词典中各词的TF
‑
IDF值抽取各主题事件的关键词；
对主题事件向量化处理，对每个主题事件下的各事件集进行聚类处理，并通过主题事件的关键词对聚类结果进行描述。6.根据权利要求5所述的基于小样本学习的情报信息压缩系统，其特征在于，所述根据提取的事件信息获取原始报文对应的标题信息包括：对各主题事件进行划分获取多个子分组，将各子分组中的关键词按照词频进行排序，根据排序结果获取各子分组中的关键高频词；根据关键高频词对各子分组的主旨...

【专利技术属性】
技术研发人员：岳一峰，张昊，任祥辉，
申请(专利权)人：中国电子科技集团公司第十五研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人