数据泄露识别方法、装置及设备制造方法及图纸

技术编号:23161874 阅读:60 留言:0更新日期:2020-01-21 22:00
本说明书实施例提供一种数据泄露识别方法、装置及设备,该方案获取样本监控对象在使用电子设备过程中产生的样本设备使用数据,获得原始数据集;通过特征工程提取所述原始数据集中数据的特征,获得训练数据集;其中,在进行特征工程中,所述原始数据集中数据的标签通过将该数据与敏感数据进行相似度匹配而确定,所述标签指示所述数据是否属于敏感数据,所述敏感数据为表征发生数据泄露的数据;利用所述训练数据集对机器学习模型进行训练,获得数据泄露识别模型,所述数据泄露识别模型用于对被监控对象进行数据泄露识别。

Data leakage identification method, device and equipment

【技术实现步骤摘要】
数据泄露识别方法、装置及设备
本说明书实施例涉及数据安全
,尤其涉及数据泄露识别方法、装置及设备。
技术介绍
目前,数据安全防护成为各行各业关注的重点,特别是一些大型企业对企业内部文件具有较大安全防护需求,重要数据的泄露可能给企业的生存和发展带来严重危害。基于此,需要提供数据泄露识别方案。
技术实现思路
为克服相关技术中存在的问题,本说明书实施例提供了数据泄露识别方法、装置及设备。根据本说明书实施例的第一方面,提供一种数据泄露识别方法,包括:获取样本监控对象在使用电子设备过程中产生的样本设备使用数据,获得原始数据集;通过特征工程提取所述原始数据集中数据的特征,获得训练数据集;其中,在进行特征工程中,所述原始数据集中数据的标签通过将该数据与敏感数据进行相似度匹配而确定,所述标签指示所述数据是否属于敏感数据,所述敏感数据为表征发生数据泄露的数据;利用所述训练数据集对机器学习模型进行训练,获得数据泄露识别模型,所述数据泄露识别模型用于对被监控对象进行数据泄露识别。根据本说明书实施例的第本文档来自技高网...

【技术保护点】
1.一种数据泄露识别方法,包括:/n获取样本监控对象在使用电子设备过程中产生的样本设备使用数据,获得原始数据集;/n通过特征工程提取所述原始数据集中数据的特征,获得训练数据集;其中,在进行特征工程中,所述原始数据集中数据的标签通过将该数据与敏感数据进行相似度匹配而确定,所述标签指示所述数据是否属于敏感数据,所述敏感数据为表征发生数据泄露的数据;/n利用所述训练数据集对机器学习模型进行训练,获得数据泄露识别模型,所述数据泄露识别模型用于对被监控对象进行数据泄露识别。/n

【技术特征摘要】
1.一种数据泄露识别方法,包括:
获取样本监控对象在使用电子设备过程中产生的样本设备使用数据,获得原始数据集;
通过特征工程提取所述原始数据集中数据的特征,获得训练数据集;其中,在进行特征工程中,所述原始数据集中数据的标签通过将该数据与敏感数据进行相似度匹配而确定,所述标签指示所述数据是否属于敏感数据,所述敏感数据为表征发生数据泄露的数据;
利用所述训练数据集对机器学习模型进行训练,获得数据泄露识别模型,所述数据泄露识别模型用于对被监控对象进行数据泄露识别。


2.根据权利要求1所述的方法,所述样本设备使用数据包括如下一种或多种:指示样本监控对象将电子设备本地文件传输至其他存储位置的数据、指示样本监控对象使用指定软件的数据。


3.根据权利要求1所述的方法,所述敏感数据是根据数据泄露事件的特征预先构建的。


4.根据权利要求1所述的方法,所述相似度匹配的方式包括如下一种或多种:
分别对所述原始数据集中数据和所述敏感数据提取词向量,利用提取的词向量对所述原始数据集中数据和所述敏感数据进行相似度匹配;
分别对所述原始数据集中数据和所述敏感数据进行独热编码,根据所述所述原始数据集中数据的编码以及所述敏感数据的编码进行相似度匹配。


5.根据权利要求1所述的方法,所述数据泄露识别模型有多个,所述数据泄露识别模型与业务场景相对应,所述数据泄露识别模型是利用属于所述业务场景的训练数据集训练得到。


6.根据权利要求1或5所述的方法,所述数据泄露识别模型包括有一通用数据泄露识别模型,训练所述通用数据泄露识别模型的训练数据集的特征是利用自动特征工具提取的。


7.一种数据泄露识别方法,包括:
获取被监控对象在使用电子设备过程中产生的设备使用数据;
获取所述设备使用数据的目标特征;
将所述设备使用数据的目标特征输入至数据泄露识别模型,利用所述数据泄露识别模型对被监控对象进行数据泄露识别;其中,所述数据泄露识别模型利用训练数据集训练得到,所述训练数据集通过特征工程提取预先获取的原始数据集中数据的特征而获得,所述原始数据集中数据的标签通过将该数据与敏感数据进行相似度匹配而确定,所述标签指示所述数据是否属于敏感数据,所述敏感数据为表征发生数据泄露的数据。


8.根据权利要求7所述的方法,所述敏感数据是根据数据泄露事件的特征预先构建的。


9.根据权利要求7所述的方法,所述数据泄露识别模型有多个,所述数...

【专利技术属性】
技术研发人员:袁锦程许辽萨
申请(专利权)人:支付宝杭州信息技术有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1