【技术实现步骤摘要】
本专利技术涉及自然语言处理领域,尤其是一种基于多模型的网络技术新词发现及应用领域预测系统。
技术介绍
1、随着互联网的飞速发展,网络安全形势日益复杂。因此,及时发现这些网络新技术的名词(称之为网络技术新词)并且做好相应的应用预测,可以及时预警网络攻击、非法交易等,维护网络环境安全。
2、网络技术新词的产生是频繁的,特别是如今的大数据和大模型时代,如果要通过人工发现会非常耗时耗力,并且漏报率较高,通常在这类词汇被人们广泛使用时才被大多数人所了解。目前机器学习、自然语言处理等技术已经广泛应用于网络技术新词发现当中。现比较流行的新词发现方案都会结合词频进行判断,例如公开号为cn113033183a的中国专利文献所设计的一种基于统计量与相似性的网络新词发现方法及系统。然而在词汇刚出现、词频较低时却无法进行检测,导致信息的延迟为网络攻击、非法交易、危害信息的预警产生了一定的困难。另外,也有结合语义相似度进行词汇聚类的网络新词发现方案,例如公开号为cn117574886a的中国专利文献所设计的一种新的基于语句语义相似度的网络新词发现方法
...【技术保护点】
1.一种网络技术新词发现及应用领域预测方法,其特征在于,包括:
2.如权利要求1所述的网络技术新词发现及应用领域预测方法,其特征在于,所述将最终网络技术新词的应用领域与已存储的网络技术新词的应用领域进行关联,包括:
3.如权利要求2所述的网络技术新词发现及应用领域预测方法,其特征在于,利用最大子串算法计算所述最终网络技术新词与已存储的网络技术新词之间最大公共子串长度,在所述最大公共子串长度大于零时,将所述最终网络技术新词与已存储的网络技术新词关联到同一应用领域。
4.如权利要求1所述的网络技术新词发现及应用领域预测方法,其特征在于,
...【技术特征摘要】
1.一种网络技术新词发现及应用领域预测方法,其特征在于,包括:
2.如权利要求1所述的网络技术新词发现及应用领域预测方法,其特征在于,所述将最终网络技术新词的应用领域与已存储的网络技术新词的应用领域进行关联,包括:
3.如权利要求2所述的网络技术新词发现及应用领域预测方法,其特征在于,利用最大子串算法计算所述最终网络技术新词与已存储的网络技术新词之间最大公共子串长度,在所述最大公共子串长度大于零时,将所述最终网络技术新词与已存储的网络技术新词关联到同一应用领域。
4.如权利要求1所述的网络技术新词发现及应用领域预测方法,其特征在于,所述从外部知识库中采集最新更新的科学文本数据,包括:
5.如权利要求1所述的网络技术新词发现及应用领域预测方法,其特征在于,所述利用每一条所述科学文本数据对keybert模型的第一关键词权重字典和lac模型的第二关键词权重字典进行更新,包括:
6.如权利要求5所述的网络技术新词发现及应用领域预测方法,其特征在...
【专利技术属性】
技术研发人员:丁建伟,李斌,李航,李欣泽,陈周国,王泽珺,王鑫,
申请(专利权)人:中国电子科技集团公司第三十研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。