一种威胁数据的分类分级识别方法及系统技术方案

技术编号:43310998 阅读:29 留言:0更新日期:2024-11-15 20:13
本发明专利技术公开了一种威胁数据的分类分级识别方法及系统,属于自然语言处理领域。本发明专利技术构建精细化的网络安全数据字典,对获取的网络流量数据进行词典的词语匹配确定命中文本,再通过Bert模型和相似度计算获取相似度最高的命中文本,然后将拼接特征经过信息融合和特征值指数运算确定类别,再然后经过特征提取并与观测属性匹配确定重要程度级别,最后经过敏感度分数计算确定具体的等级。本发明专利技术实现了对网络流量的威胁数据的特征精准刻画和精准分类分级。

【技术实现步骤摘要】

本专利技术涉及自然语言处理领域,尤其涉及一种威胁数据的分类分级识别方法及系统


技术介绍

1、在早期,数据分类分级技术主要依赖人工和基于规则的方法。数据管理员或专家根据数据的性质、来源和用途,手动对数据进行分类分级。这种方法虽然直观,但效率较低,且对于大规模数据集的处理显得力不从心。随着信息技术的快速发展和广泛应用,大量敏感数据被产生和存储,如个人隐私数据、商业机密数据等。数据分类分级作为一种重要的数据管理技术,旨在根据其敏感程度对数据进行分类和标记,以实现对数据的保护和访问控制。随着自动化和机器学习技术的逐步发展,数据分类分级开始实现自动化,通过训练模型和算法,计算机能够智能地对数据进行分类和分级,数据分级是进行数据分类和标记的基础。这种自动化方法大大提高了分类分级的效率和准确性,减少了人工干预的需要。

2、基于大数据的数据分类技术旨在实现数据的自动化分类,包括基于规则的数据分类方法和基于统计的数据分类方法。

3、基于规则的数据分类方法主要包括foil算法、决策树算法、关联分类方法等。foil算法有效地减少了冗余的规则,然而每条训本文档来自技高网...

【技术保护点】

1.一种威胁数据的分类分级识别方法,其特征在于,包括以下步骤:

2.如权利要求1所述的方法,其特征在于,网络安全数据字典包含三个类别:来源和类型、组织机构和机构名称、重点领域的重点词汇。

3.如权利要求1所述的方法,其特征在于,根据输入文本中的词语与网络安全数据字典中的词语的匹配程度,找出字典中的被匹配命中的词语,是指如果输入文本中的词语与网络安全数据字典中的词语完全相同或二者的余弦相似度等于或超过一相似度阈值,则认为该网络安全数据字典中的词语为被匹配命中的词语。

4.如权利要求1所述的方法,其特征在于,将拼接后的向量输入到全链接层进行信息融合,是指将...

【技术特征摘要】

1.一种威胁数据的分类分级识别方法,其特征在于,包括以下步骤:

2.如权利要求1所述的方法,其特征在于,网络安全数据字典包含三个类别:来源和类型、组织机构和机构名称、重点领域的重点词汇。

3.如权利要求1所述的方法,其特征在于,根据输入文本中的词语与网络安全数据字典中的词语的匹配程度,找出字典中的被匹配命中的词语,是指如果输入文本中的词语与网络安全数据字典中的词语完全相同或二者的余弦相似度等于或超过一相似度阈值,则认为该网络安全数据字典中的词语为被匹配命中的词语。

4.如权利要求1所述的方法,其特征在于,将拼接后的向量输入到全链接层进行信息融合,是指将拼接后的向量输入到全链接层进行线性组合和转换,对拼接后的向量中的特征进行加权求和,实现各特征的信息融合。

5.如权利要求1所述的方法,其特征在于,数据的重要程度级别包括核心数据、重要数据和一般数据,每个级别中包含多个等级。

6.如权利要求5所述的方法,其特征在于,根据提取的特征与所属类别的观测属性之间的包含关系或相似度大小确定输入文本的重要程度级别的步骤包括:判断提取的特征是否包含所属类别的任一观测属性,如果包含,则确定输入文本为核心数据;如果不包含,则计算提取的特征与所属类别的所有...

【专利技术属性】
技术研发人员:杨姗姗张海霞倪彦波连一峰周劭文彭媛媛姚天宇
申请(专利权)人:中国科学院软件研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1