一种网络技术新词发现及应用领域预测方法和系统技术方案

技术编号:41207364 阅读:34 留言:0更新日期:2024-05-07 22:34
本发明专利技术公开了一种网络技术新词发现及应用领域预测方法和系统,涉及自然语言处理领域,用于提高网络技术新词发现和领域预测的准确度。本发明专利技术包括三个部分,第一部分是利用人工收集和Glove词向量模型获取相似词的方式,初步确定种子新词及其应用领域;第二部分是采集外部知识库中最新更新的科学文本数据入库;第三部分是融合使用多种NLP模型确定网络技术新词并且对相应应用领域进行预测。本发明专利技术深度挖掘了网络技术新词的自身特征,充分考虑其在语句中所表达的含义,在保证正确率的条件下,提高新词召回率;利用最大公共子串对新词进行应用领域合并,进一步提高了应用领域预测准确率。

【技术实现步骤摘要】

本专利技术涉及自然语言处理领域,尤其是一种基于多模型的网络技术新词发现及应用领域预测系统。


技术介绍

1、随着互联网的飞速发展,网络安全形势日益复杂。因此,及时发现这些网络新技术的名词(称之为网络技术新词)并且做好相应的应用预测,可以及时预警网络攻击、非法交易等,维护网络环境安全。

2、网络技术新词的产生是频繁的,特别是如今的大数据和大模型时代,如果要通过人工发现会非常耗时耗力,并且漏报率较高,通常在这类词汇被人们广泛使用时才被大多数人所了解。目前机器学习、自然语言处理等技术已经广泛应用于网络技术新词发现当中。现比较流行的新词发现方案都会结合词频进行判断,例如公开号为cn113033183a的中国专利文献所设计的一种基于统计量与相似性的网络新词发现方法及系统。然而在词汇刚出现、词频较低时却无法进行检测,导致信息的延迟为网络攻击、非法交易、危害信息的预警产生了一定的困难。另外,也有结合语义相似度进行词汇聚类的网络新词发现方案,例如公开号为cn117574886a的中国专利文献所设计的一种新的基于语句语义相似度的网络新词发现方法。然而通过语义相似度本文档来自技高网...

【技术保护点】

1.一种网络技术新词发现及应用领域预测方法,其特征在于,包括:

2.如权利要求1所述的网络技术新词发现及应用领域预测方法,其特征在于,所述将最终网络技术新词的应用领域与已存储的网络技术新词的应用领域进行关联,包括:

3.如权利要求2所述的网络技术新词发现及应用领域预测方法,其特征在于,利用最大子串算法计算所述最终网络技术新词与已存储的网络技术新词之间最大公共子串长度,在所述最大公共子串长度大于零时,将所述最终网络技术新词与已存储的网络技术新词关联到同一应用领域。

4.如权利要求1所述的网络技术新词发现及应用领域预测方法,其特征在于,所述从外部知识库中采...

【技术特征摘要】

1.一种网络技术新词发现及应用领域预测方法,其特征在于,包括:

2.如权利要求1所述的网络技术新词发现及应用领域预测方法,其特征在于,所述将最终网络技术新词的应用领域与已存储的网络技术新词的应用领域进行关联,包括:

3.如权利要求2所述的网络技术新词发现及应用领域预测方法,其特征在于,利用最大子串算法计算所述最终网络技术新词与已存储的网络技术新词之间最大公共子串长度,在所述最大公共子串长度大于零时,将所述最终网络技术新词与已存储的网络技术新词关联到同一应用领域。

4.如权利要求1所述的网络技术新词发现及应用领域预测方法,其特征在于,所述从外部知识库中采集最新更新的科学文本数据,包括:

5.如权利要求1所述的网络技术新词发现及应用领域预测方法,其特征在于,所述利用每一条所述科学文本数据对keybert模型的第一关键词权重字典和lac模型的第二关键词权重字典进行更新,包括:

6.如权利要求5所述的网络技术新词发现及应用领域预测方法,其特征在...

【专利技术属性】
技术研发人员:丁建伟李斌李航李欣泽陈周国王泽珺王鑫
申请(专利权)人:中国电子科技集团公司第三十研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1