确定企业员工信息泄露源的方法及装置制造方法及图纸

技术编号:23471265 阅读:42 留言:0更新日期:2020-03-06 13:06
本说明书实施例提供了确定企业员工信息泄露源的方法和装置。根据一个实施方式,首先从流量服务器的办公日志数据中获取针对办公系统的访问数据,作为候选数据,然后,对候选数据进行预定处理,以从中获取员工信息访问记录,接着基于当前泄露员工信息的信息类型,通过员工信息访问记录确定至少一个可疑泄露源;进一步地,利用对各个可疑泄露源的风险分析,从至少一个可疑泄露源确定出当前泄露员工信息的目标泄露源。该实施方式用于个人数据保护,在对被泄露的隐私信息溯源时,对于繁杂的流量数据进行多重筛选过滤,从而大大减少数据处理量,同时结合机器学习方法,可以提高信息泄露溯源的有效性。

Methods and devices for determining the source of information leakage of employees

【技术实现步骤摘要】
确定企业员工信息泄露源的方法及装置
本说明书一个或多个实施例涉及计算机
,尤其涉及确定企业员工信息泄露源的方法及装置。
技术介绍
随着互联网的发展,各种办公平台为企业提供了越来越多的便利。例如,方便对员工统一管理、员工信息透明等等。然而,伴随着便利,也可能产生新的问题,例如员工信息泄露的风险大大增加。员工为了私利,采用技术手段或非技术手段获取其他员工信息,或者办公系统受到攻击,都可能造成员工信息的泄露。由于办公平台涉及大量员工隐私信息,企业员工信息泄露属于典型的个人隐私信息泄露案件。企业员工信息泄露,对于被泄露者正常生活等,可能造成较大不良影响,如:频繁被第三方骚扰(中介、猎头、恶意骚扰等);不法黑产利用已泄露信息挖掘深层个人信息,用于非法交易,导致资金类损失;被第三方数据公司利用,支撑个性化推荐营销,俗称大数据杀熟;企业骨干员工、高层员工信息泄露,严重时也会对企业组织稳定性造成不利影响;等等。因此,企业员工信息泄露后,如何快速定位泄露渠道,及时止损,对于企业信息的数据安全控制至关重要。然而,企业平台的数据流量巨大,而且往往包含非结构化数据,对信息梳理和泄露源定位造成困扰。
技术实现思路
本说明书一个或多个实施例描述的确定企业员工信息泄露源的方法及装置,可以用于解决
技术介绍
部分提到的一个或多个问题。根据第一方面,提供了一种确定企业员工信息泄露源的方法,所述方法包括:从流量服务器的办公日志数据中获取针对办公系统的访问数据,作为候选数据;对所述候选数据进行预定处理,以从中获取员工信息访问记录,其中,所述预定处理包括以下至少一项:命名体识别、正则过滤;基于当前泄露员工信息的信息类型,通过所述员工信息访问记录确定至少一个可疑泄露源;利用对各个可疑泄露源的风险分析,从所述至少一个可疑泄露源确定出当前泄露员工信息的目标泄露源。在一个实施例中,所述从流量服务器的办公日志数据中获取针对办公系统的访问数据,作为候选数据包括:将预定目标信息作为关键字段,对流量服务器的办公日志数据进行检索,其中,所述预定目标信息包括,目标办公系统域名、目标服务器名称、目标办公系统IP中的至少一项;将所检索出的数据作为候选数据。在一个实施例中,所述候选数据包括第一访问数据,在所述预定处理包括命名体识别的情况下,所述对所述候选数据进行预定处理,以从中获取员工信息访问记录包括:将所述第一访问数据经过分词处理后的词汇序列输入预先训练的命名体识别模型;根据所述命名体识别模型输出的词汇序列,确定所述第一访问数据是否为员工信息访问记录。在一个实施例中,在所述预定处理包括正则过滤的情况下,所述对所述候选数据进行预定处理,以从中获取员工信息访问记录包括:依次将各种信息类型的员工信息分别对应的描述信息作为检索条件,对所述候选数据中的各条访问记录分别进行检索;将满足检索条件的访问记录确定为员工信息访问记录。在一个实施例中,所述利用对各个可疑泄露源的风险分析,从至少一个可疑泄露源确定出当前泄露员工信息的目标泄露源包括:利用预先训练的风险模型对各个可疑泄露源分别预测各个风险分数;基于各个风险分数的排序确定目标泄露源。在一个实施例中,所述基于各个风险分数的排序确定目标泄露源包括以下中的一项:将风险分数最大的可疑泄露源确定为目标泄露源;按照各个分析按分数由大到小的排列顺序,逐个检测相应的可疑泄露源,直至检测到目标泄露源。在一个实施例中,所述可疑泄露源包括可疑员工;所述风险模型通过以下方式训练:将多条员工数据作为各个训练样本,各个训练样本分别对应从相应员工的历史行为数据和/或人际关系数据中提取的样本特征,以及预先标注的样本风险标签;利用各个训练样本训练所述风险模型。在一个实施例中,所述可疑泄露源包括可疑系统;所述风险模型通过以下方式训练:将多条系统数据作为各个训练样本,各个训练样本分别对应从相应系统的风险评估项中提取的样本特征,以及预先标注的样本风险标签;利用各个训练样本训练所述风险模型。根据第二方面,提供了一种确定企业员工信息泄露源的装置,所述装置包括:第一筛选单元,配置为从流量服务器的办公日志数据中获取针对办公系统的访问数据,作为候选数据;第二筛选单元,配置为对所述候选数据进行预定处理,以从中获取员工信息访问记录,其中,所述预定处理包括以下至少一项:命名体识别、正则过滤;第三筛选单元,配置为基于当前泄露员工信息的信息类型,通过所述员工信息访问记录确定至少一个可疑泄露源;确定单元,配置为利用对各个可疑泄露源的风险分析,从所述至少一个可疑泄露源确定出当前泄露员工信息的目标泄露源。根据第三方面,提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行上述第一方面的方法。根据第四方面,提供了一种计算设备,包括存储器和处理器,其特征在于,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现上述第一方面的方法。本说明书实施例提供了确定企业员工信息泄露源的方法和装置,可以首先从流量服务器经过初步筛选,得到候选数据,在对候选数据逐步筛选,确定可疑泄露源,大大减少对流量数据的数据处理量,从繁杂的流量数据中过滤出少量有效数据,从而有助于快速对被泄露员工信息的泄露主体进行溯源。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。图1示出本说明书实施例的一个实施场景示意图;图2示出根据一个实施例的确定企业员工信息泄露源的流程示意图;图3示出根据一个实施例的确定企业员工信息泄露源的装置的示意性框图。具体实施方式下面结合附图,对本说明书提供的方案进行描述。首先,结合图1示出一个具体实施场景进行说明。如图1所示,在该实施场景中,企业办公系统可以是企业内部局域网系统,例如Spanner办公网、钉钉办公系统等等,企业员工可以通过自己的计算机访问使用。流量服务器可以用于记录企业局域网的流量数据,例如局域网内不同地址之间或企业局域网与外网之间的请求(requestbody)数据包、响应(responsebody)数据包,等等。也就是说,企业局域网内,或者企业局域网与外网的数据流通,都可以经由流量服务器进行。可选地,流量服务器可以通过企业网关实现。办公系统可以记录有员工的个人信息、工作信息等。例如企业内员工姓名、手机号码、邮箱、岗位、职级、地址、年龄等。有相应权限的员工可以通过办公系统访问不同类型的员工信息并进行相应操作。例如,人事部员工ID可以浏览和/或下载全体员工的员工信息,实习生ID只能浏览同级别员工的电话号码,等等。流量服务器可以记录企业内部的各种访问操作的流量数据,例如,员工A请求访问了办公系统的公司通讯录、员工B请求访问了外网的微博页面,等等。<本文档来自技高网...

【技术保护点】
1.一种确定企业员工信息泄露源的方法,所述方法包括:/n从流量服务器的办公日志数据中获取针对办公系统的访问数据,作为候选数据;/n对所述候选数据进行预定处理,以从中获取员工信息访问记录,其中,所述预定处理包括以下至少一项:命名体识别、正则过滤;/n基于当前泄露员工信息的信息类型,通过所述员工信息访问记录确定至少一个可疑泄露源;/n利用对各个可疑泄露源的风险分析,从所述至少一个可疑泄露源确定出当前泄露员工信息的目标泄露源。/n

【技术特征摘要】
1.一种确定企业员工信息泄露源的方法,所述方法包括:
从流量服务器的办公日志数据中获取针对办公系统的访问数据,作为候选数据;
对所述候选数据进行预定处理,以从中获取员工信息访问记录,其中,所述预定处理包括以下至少一项:命名体识别、正则过滤;
基于当前泄露员工信息的信息类型,通过所述员工信息访问记录确定至少一个可疑泄露源;
利用对各个可疑泄露源的风险分析,从所述至少一个可疑泄露源确定出当前泄露员工信息的目标泄露源。


2.根据权利要求1所述的方法,其中,所述从流量服务器的办公日志数据中获取针对办公系统的访问数据,作为候选数据包括:
将预定目标信息作为关键字段,对流量服务器的办公日志数据进行检索,其中,所述预定目标信息包括,目标办公系统域名、目标办公系统IP、目标服务器名称中的至少一项;
将所检索出的数据作为候选数据。


3.根据权利要求1所述的方法,其中,所述候选数据包括第一访问数据,在所述预定处理包括命名体识别的情况下,所述对所述候选数据进行预定处理,以从中获取员工信息访问记录包括:
将所述第一访问数据经过分词处理后的词汇序列输入预先训练的命名体识别模型;
根据所述命名体识别模型输出的词汇序列,确定所述第一访问数据是否为员工信息访问记录。


4.根据权利要求1所述的方法,其中,在所述预定处理包括正则过滤的情况下,所述对所述候选数据进行预定处理,以从中获取员工信息访问记录包括:
依次将各种信息类型的员工信息分别对应的描述信息作为检索条件,对所述候选数据中的各条访问记录分别进行检索;
将满足所述检索条件的访问记录确定为员工信息访问记录。


5.根据权利要求1所述的方法,其中,所述利用对各个可疑泄露源的风险分析,从至少一个可疑泄露源确定出当前泄露员工信息的目标泄露源包括:
利用预先训练的风险模型对各个可疑泄露源分别预测各个风险分数;
基于各个风险分数的排序确定目标泄露源。


6.根据权利要求5所述的方法,其中,所述基于各个风险分数的排序确定目标泄露源包括以下中的一项:
将风险分数最大的可疑泄露源确定为目标泄露源;
按照各个风险分数由大到小的排列顺序,逐个检测相应的可疑泄露源,直至检测到目标泄露源。


7.根据权利要求5所述的方法,其中,所述可疑泄露源包括可疑员工;所述风险模型通过以下方式训练:
将多条员工数据作为各个训练样本,各个训练样本分别对应从相应员工的历史行为数据和/或人际关系数据中提取的样本特征,以及预先标注的样本风险标签;
利用各个训练样本训练所述风险模型。


8.根据权利要求5所述的方法,其中,所述可疑泄露源包括可疑系统;所述风险模型通过以下方式训练:

【专利技术属性】
技术研发人员:金波
申请(专利权)人:支付宝杭州信息技术有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1