一种基于小样本学习的情报信息压缩系统技术方案

技术编号:36128676 阅读:10 留言:0更新日期:2022-12-28 14:37
本发明专利技术涉及一种基于小样本学习的情报信息压缩系统,属于自然语言处理技术领域,该系统包括用于获取自动文本摘要模型的离线训练模块、用于生成主题摘要的异步处理模块以及用于为用户提供交互服务的在线服务模块。本申请提供的系统构建基于小样本学习的自动文本摘要模型对文本内容进行概括,加快了对情报报文的阅读速度;同时,从主题、事件、文档、词语四个层级进行语义关联分析,在保留了各主题信息的层次性的同时,避免深度学习技术大规模数据集的限制,通过分级聚类的方法对报文进行归纳与总结,从篇数上大幅减少了情报工作者的阅读量,可在实现信息压缩的同时,尽可能的减少军事数据领域数据集标注成本及难度高的问题。事数据领域数据集标注成本及难度高的问题。事数据领域数据集标注成本及难度高的问题。

【技术实现步骤摘要】
一种基于小样本学习的情报信息压缩系统


[0001]本专利技术涉及自然语言处理
,尤其涉及一种基于小样本学习的情报信息压缩系统。

技术介绍

[0002]随着互联网的普及,网络用户的增加,网络中的信息量呈现指数型的增长。由此带来的信息过载问题也愈发的严重。在如今这个大数据时代,互联网带给我们便利的同时,其数据过载问题也给情报分析等工作带来了挑战。
[0003]近年来自然语言处理相关技术的蓬勃发展,越来越多的机器学习算法开始应用到了文本摘要的生成之中,传统的用于文本摘要生成的主题事件提取模型大都通过数据挖掘或机器学习领域中的方法对文本的信息内容进行压缩,没有考虑到文章中的层次化信息,容易产生信息缺失;并且由于同一主题中事件词语分布较近,容易造成事件抽取结果难以区分,造成各主题事件对应的文本相重合。
[0004]文本摘要技术一般分为抽取式文本摘要和生成式文本摘要,由于抽取式摘要的生成方式是直接套用原文语句,因此摘要一般都保持了语言的流畅性,但是由于其大多都是对语句的罗列,语句之间会出现重复、冗余等问题;而生成式文本摘要是现在自然语言处理领域的难点任务,尤其在情报领域,数据集的缺乏导致生成摘要的关键词重复、语义不清楚、摘要不够流畅可读性差等问题尤为凸显。

技术实现思路

[0005]本专利技术意在提供一种基于小样本学习的情报信息压缩系统,以解决现有技术中存在的不足,本专利技术要解决的技术问题通过以下技术方案来实现。
[0006]本专利技术提供的基于小样本学习的情报信息压缩系统,包括:离线训练模块,用于获取部分本地数据库中的情报数据并对其标注,将标注结果分为训练集和测试集,对训练集进行预处理,通过引入了Bert预训练模型的Word Embedding层对预处理的结果进行向量化处理,并将向量化处理结果作为输入,对Bi

LSTM神经网络训练得到自动文本摘要模型,通过自动文本摘要模型对经过预处理的测试集进行处理生成摘要,并通过ROUGE对生成的摘要进行评估,重复以上步骤直到得到符合条件的自动文本摘要模型;异步处理模块,用于通过对自动文本摘要模型本地数据库中的情报数据对应的原始报文进行相关处理提取原始报文对应的主题信息,根据提取的主题信息提取原始报文对应的事件信息,根据提取的事件信息获取原始报文对应的标题信息,并通过相似度计算将新的主题信息与已有的主题信息进行整合,通过相似度计算将新的事件信息与已有的事件信息进行整合,以及通过自动文本摘要模型根据经过整合的事件信息生成事件摘要,根据经过整合的主题信息以及生成的事件摘要生成主题摘要,将生成的主题摘要存储至本地数据库;
在线服务模块,用于通过UI界面为用户提供主题摘要信息,并接受用户发送的反馈信息。
[0007]在上述的方案中,所述对训练集进行预处理包括去除训练集文本中的停用词、表情,并去除文本中质量评分低于预设评分的语句,得到文本集合,并对文本集合进行分字处理。
[0008]在上述的方案中,所述将向量化处理结果作为输入,对Bi

LSTM神经网络训练得到自动文本摘要模型包括:构建Bi

LSTM神经网络,通过向量化处理结果分别对Bi

LSTM编码器和Bi

LSTM解码器进行训练,得到自动文本摘要模型。
[0009]在上述的方案中,所述通过对本地数据库中的情报数据对应的原始报文进行相关处理提取原始报文对应的主题信息包括:对本地数据库中的情报数据对应的原始报文进行数据预处理,以篇为单位对每篇报文进行词频的筛选与统计;提取每篇报文的所属主题,将所属主题对应的报文作为主题事件,并获取每篇报文的词语向量;通过CGS算法获取LDA主题模型的相应参数,并得到主题

报文之间的关联矩阵和每篇报文中词语的分布矩阵;对各个主题事件采用K

means聚类算法进行主题事件的聚类获取获取主题聚类,统计各主题对应的词语的词频,根据统计结果获得各主题的关键词。
[0010]在上述的方案中,所述根据提取的主题信息提取原始报文对应的事件信息包括:对主题事件进行分词处理,对分词处理结果进行词性标注,筛选出主题事件中的动词、名词、事件词以及量词作为主题事件的词典;通过计算词典中各词的TF

IDF值抽取各主题事件的关键词;对主题事件向量化处理,对每个主题事件下的各事件集进行聚类处理,并通过主题事件的关键词对聚类结果进行描述。
[0011]在上述的方案中,所述根据提取的事件信息获取原始报文对应的标题信息包括:对各主题事件进行划分获取多个子分组,将各子分组中的关键词按照词频进行排序,根据排序结果获取各子分组中的关键高频词;根据关键高频词对各子分组的主旨句进行预选,获取句子候选集合;通过TextRank算法对句子候选集合中的句子进行打分,将打分结果作为句子候选集合中各句子的权重,根据得到权重获取各子分组对应的标题信息。
[0012]在上述的方案中,所述通过相似度计算将新的主题信息与已有的主题信息进行整合包括:对新入库的报文进行聚类,获取包括主题、类中心向量与主题关键词的新的主题信息,通过第一Jaccard相似度计算公式计算新的主题信息中的主题关键词与提取的主题信息中的主题关键词的重合度;将重合度与重合度阈值进行比较,在重合度小于等于重合度阈值时,过滤掉对应的提取的主题信息;在重合度大于重合度阈值时,通过第一余弦相似度计算公式计算新的主题信息中的类中心向量与提取的主题信息中主题聚类的类中心向量之间的余弦相似度;
将余弦相似度与余弦相似度阈值进行比较,在余弦相似度小于等于余弦相似度阈值时,过滤掉对应的提取的主题信息;在余弦相似度大于余弦相似度阈值时,将对应的提取的主题信息记录在候选集中;选择候选集中余弦相似度与重合度最高的主题作为最匹配的主题与新的主题信息进行主题信息整合,并重新计算整合的主题信息的类中心向量,并进行事件信息整合;在候选集为空时,将新的主题信息作为新的主题存入至对应的主题集合。
[0013]在上述的方案中,通过相似度计算将新的事件信息与已有的事件信息进行整合包括:通过新入库的报文获取包括事件关键词、事件的类中心向量的新的事件信息,通过第二Jaccard相似度计算公式计算新的事件信息中的关键词与提取的事件信息中的关键词的重合度;将重合度与重合度阈值进行比较,在重合度小于等于重合度阈值时,过滤掉对应的提取的事件信息;在Jaccard相似度大于Jaccard相似度阈值时,通过第二余弦相似度计算公式计算新的事件信息中的类中心向量与提取的事件信息中的类中心向量之间的余弦相似度;将余弦相似度与余弦相似度阈值进行比较,在余弦相似度小于等于余弦相似度阈值时,过滤掉对应的提取的事件信息;在余弦相似度大于余弦相似度阈值时,将对应的提取的事件信息记录在候选集中;选择候选集中余弦相似度与Jaccard相似度最高的事件作为最匹配的事件与新的事件信息进行事件信息整合,并重新生成事件的标题与类中心向量,更新事件的关键词与主题层的关联关本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于小样本学习的情报信息压缩系统,其特征在于,所述系统包括:离线训练模块,用于获取部分本地数据库中的情报数据并对其标注,将标注结果分为训练集和测试集,对训练集进行预处理,通过引入了Bert预训练模型的Word Embedding层对预处理的结果进行向量化处理,并将向量化处理结果作为输入,对Bi

LSTM神经网络训练得到自动文本摘要模型,通过自动文本摘要模型对经过预处理的测试集进行处理生成摘要,并通过ROUGE对生成的摘要进行评估,重复以上步骤直到得到符合条件的自动文本摘要模型;异步处理模块,用于通过对自动文本摘要模型本地数据库中的情报数据对应的原始报文进行相关处理提取原始报文对应的主题信息,根据提取的主题信息提取原始报文对应的事件信息,根据提取的事件信息获取原始报文对应的标题信息,并通过相似度计算将新的主题信息与已有的主题信息进行整合,通过相似度计算将新的事件信息与已有的事件信息进行整合,以及通过自动文本摘要模型根据经过整合的事件信息生成事件摘要,根据经过整合的主题信息以及生成的事件摘要生成主题摘要,将生成的主题摘要存储至本地数据库;在线服务模块,用于通过UI界面为用户提供主题摘要信息,并接受用户发送的反馈信息。2.根据权利要求1所述的基于小样本学习的情报信息压缩系统,其特征在于,所述对训练集进行预处理包括去除训练集文本中的停用词、表情,并去除文本中质量评分低于预设评分的语句,得到文本集合,并对文本集合进行分字处理。3.根据权利要求1所述的基于小样本学习的情报信息压缩系统,其特征在于,所述将向量化处理结果作为输入,对Bi

LSTM神经网络训练得到自动文本摘要模型包括:构建Bi

LSTM神经网络,通过向量化处理结果分别对Bi

LSTM编码器和Bi

LSTM解码器进行训练,得到自动文本摘要模型。4.根据权利要求1所述的基于小样本学习的情报信息压缩系统,其特征在于,所述通过对本地数据库中的情报数据对应的原始报文进行相关处理提取原始报文对应的主题信息包括:对本地数据库中的情报数据对应的原始报文进行数据预处理,以篇为单位对每篇报文进行词频的筛选与统计;提取每篇报文的所属主题,将所属主题对应的报文作为主题事件,并获取每篇报文的词语向量;通过CGS算法获取LDA主题模型的相应参数,并得到主题

报文之间的关联矩阵和每篇报文中词语的分布矩阵;对各个主题事件采用K

means聚类算法进行主题事件的聚类获取主题聚类,统计各主题对应的词语的词频,根据统计结果获得各主题的关键词。5.根据权利要求4所述的基于小样本学习的情报信息压缩系统,其特征在于,所述根据提取的主题信息提取原始报文对应的事件信息包括:对主题事件进行分词处理,对分词处理结果进行词性标注,筛选出主题事件中的动词、名词、事件词以及量词作为主题事件的词典;通过计算词典中各词的TF

IDF值抽取各主题事件的关键词;
对主题事件向量化处理,对每个主题事件下的各事件集进行聚类处理,并通过主题事件的关键词对聚类结果进行描述。6.根据权利要求5所述的基于小样本学习的情报信息压缩系统,其特征在于,所述根据提取的事件信息获取原始报文对应的标题信息包括:对各主题事件进行划分获取多个子分组,将各子分组中的关键词按照词频进行排序,根据排序结果获取各子分组中的关键高频词;根据关键高频词对各子分组的主旨...

【专利技术属性】
技术研发人员:岳一峰张昊任祥辉
申请(专利权)人:中国电子科技集团公司第十五研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1