行为标记模型训练系统及方法技术方案

技术编号:24207388 阅读:35 留言:0更新日期:2020-05-20 15:15
本揭示提供一种行为标记模型训练系统及方法。特别是,处理单元输入训练数据组的每一笔至多个学习模块,以建立多个标记模型。处理单元还依据标记模型分别获取相应验证数据组数据的每一笔的多个第二标记信息,并产生相应验证数据组的每一笔的行为标记结果。处理单元由验证数据组的每一笔相应的行为标记结果以及第一标记信息获取标记变动幅度值,并判断当标记变动幅度值大于变动门槛值,依据行为标记结果更新验证数据组的每一笔对应的第一标记信息,交换训练数据组及验证数据组,并依据交换后的训练数据组重新建立标记模型。

Training system and method of behavior marker model

【技术实现步骤摘要】
行为标记模型训练系统及方法
本专利技术涉及一种信息处理技术,且尤其涉及一种行为标记模型训练方法及系统。
技术介绍
在现今数字化、网络发达的时代,信息安全变成相当重要的议题。特别是,对于企业而言,由于公司内部文件涉及重要的营业秘密,数据的外流会导致公司无法恢复的损害,因此各公司无不积极采用严格的数据控管与防护措施。举例来说,设置存取人员的权限、在公司的内部网络与外部网络间设置防火墙等,以避免数据外流。虽然如此,在员工执行各项业务的时候,必然需要存取机密数据。纵使采取了严谨的安全措施,设定了严格的存取标准,还是难保具有合法存取权限的有心员工窃取数据。因此,如何监控内部员工的异常登入行为为本领域技术人员所致力的课题。
技术实现思路
本专利技术提供一种行为标记模型训练系统及方法,通过训练可靠的标记模型,进而通过标记模型监控内部员工的异常登入。在本专利技术一实施例中,行为标记模型训练系统具有输入单元、储存单元以及处理单元。输入单元接收已标记数据组。已标记数据组具有训练数据组以及验证数据组,且训练数据组的每一笔以及验证数据组的每一笔具有第一标记信息。储存单元储存多个学习模块。处理单元连接于输入单元与储存单元,分别输入训练数据组的每一笔至多个学习模块,以建立多个标记模型。处理单元还依据标记模型分别获取相应验证数据组数据的每一笔的多个第二标记信息,依据相应验证数据组的每一笔对应的第二标记信息,分别产生相应验证数据组的每一笔的行为标记结果。处理单元还由该验证数据组的每一笔相应的行为标记结果以及第一标记信息获取标记变动幅度值,并判断标记变动幅度值是否大于变动门槛值,且当标记变动幅度值大于该变动门槛值,依据行为标记结果更新验证数据组的每一笔对应的第一标记信息,交换训练数据组及验证数据组,并依据交换后的训练数据组重新建立标记模型。在本专利技术一实施例中,行为标记模型训练方法具有下列步骤:接收已标记数据组,其中已标记数据组包括训练数据组以及验证数据组,且训练数据组的每一笔以及验证数据组的每一笔分别具有第一标记信息;分别输入训练数据组的每一笔至多个学习模块,以建立多个标记模型;依据标记模型分别获取相应验证数据组数据的每一笔的多个第二标记信息;依据相应验证数据组的每一笔对应的第二标记信息,分别产生相应验证数据组的每一笔的行为标记结果;由验证数据组的每一笔相应的行为标记结果以及第一标记信息获取标记变动幅度值,并判断标记变动幅度值是否大于变动门槛值;以及当标记变动幅度值大于变动门槛值,依据行为标记结果更新验证数据组的每一笔对应的第一标记信息,交换训练数据组及验证数据组,并依据交换后的训练数据组重新建立该些标记模型。基于上述,本专利技术的行为标记模型训练方法及其系统通过建立标记模型,以自动地对使用者的登入记录进行标记。不仅如此,考量到标记模型的可靠度,本专利技术的行为标记模型训练方法及其系统会同时训练多个不同的标记模型,并在标记内容冲突时,通过多数决的方式进而标记使用者的登入记录,以重新调整训练标记模型。藉此,行为标记模型训练方法及其系统能够提升标记模型的可靠度。而通过标记模型,使用者的登入记录可以被自动地观察分析,并进一步找出可能的异常登入行为。为让本专利技术的上述特征和优点能更明显易懂,下文特举实施例,并配合所附附图作详细说明如下。附图说明图1示出本专利技术一实施例的行为标记模型训练系统的示意图。图2示出本专利技术一实施例行为模型训练方法的流程图。图3示出本专利技术一实施例行为模型训练方法的细部流程图。图4示出本专利技术一实施例行为模型训练方法的流程图。图5示出本专利技术一实施例行为模型训练方法的流程图。【符号说明】100:行为标记模型训练系统110:输入单元120:储存单元122:初始学习模块124:初始标记模型126:学习模块128:标记模型130:处理单元S210~S280、S310~S380、S410~S430、S510~S540:步骤具体实施方式为了监控内部员工恶意存取数据的行为,在管理系统中多半会记录使用者的登入记录,例如但不限于,记录使用者的身份、登入时间以及其对应的网际网络地址。然而,管理系统记载着每个使用者的每一笔登入记录,数据量相当庞大。倘若采用人工判断使用者的异常行为,不仅难以判读正常与异常的情形,且也耗费相当多的人力。基于此,本专利技术提供了一种行为标记模型训练系统及其方法,以采用机械学习的方式,并依据使用者在一段期间内的登入记录进行学习与训练。藉此,以自动地标记使用者的异常行为。图1示出本专利技术一实施例的行为标记模型训练系统的示意图。在本实施例中,适用的情境例如为,信息管理人员会在微软公司所开发的Windows环境中建立多个子帐号,并将每一个子帐号的登入行为都记录在系统日志中,以作为使用者的登入记录。行为标记模型训练系统100会先依据使用者在一段时间的登入记录进行标记、建立行为模型并据此行为模型对使用者的登入行为进行长期的分析与观察。在其他实施例中,也可以采用Linux、macOS或其他不同作业系统的系统日志中的使用者登入记录,或者通过信息管理人员自行建立的程序记录使用者的登入记录,本专利技术不限于此。请参照图1,在本实施例中,行为标记模型训练系统100具有输入单元110、储存单元120以及处理单元130。输入单元110用以接收各种信息,特别是,输入单元110会接收多笔使用者的登入记录。在本专利技术的实施例中,输入单元110可以采用实体的输入元件,例如键盘、鼠标、触控荧幕等。或者是,输入单元110可以采用通用串行总线(UniversalSerialBus,USB)、串行端口(SerialPort)等直接接收其他系统所汇入的数据。又或者是,在联网环境中,输入单元110为各类型的通讯芯片,例如蓝牙芯片、WiFi芯片或有线的网络连接端口。本专利技术并不限制输入单元110的形式与其接收信息的方式。储存单元120用以储存运行行为标记模型训练系统100的必要程序码与信息。在本实施例中,储存单元120储存初始学习模块122、初始标记模型124、学习模块126以及标记模型128。初始学习模块122和学习模块126是采用机械学习的方式,进而依据登入记录进行训练分别产生对应使用者行为的初始标记模型124以及标记模型128。如何产生初始标记模型124与标记模型128的细节将于后方再进行说明。然须说明的是,图1所示出的学习模块126和标记模型128的数量各为2个,但在其他实施例中,学习模块126和标记模型128的数量可以更多,图1仅为示例。在本实施例中,储存单元120可以是任何型态的固定或可移动随机存取存储器(RandomAccessMemory,RAM)、只读存储器(Read-OnlyMemory,ROM)、快闪存储器(flashmemory)、硬盘(HardDiskDrive,HDD)、固态硬盘(SolidStateDrive,SSD)或类似元件或上述元件的组合,且本专利技术不限本文档来自技高网...

【技术保护点】
1.一种行为标记模型训练系统,包括:/n输入单元,接收已标记数据组,其中所述已标记数据组包括训练数据组以及验证数据组,且所述训练数据组的每一笔以及所述验证数据组的每一笔分别包括第一标记信息;/n储存单元,储存多个学习模块;/n处理单元,连接于所述输入单元与所述储存单元,分别输入所述训练数据组的每一笔至多个学习模块,以建立多个标记模型,/n其中所述处理单元还依据所述多个标记模型分别获取相应所述验证数据组数据的每一笔的多个第二标记信息,依据相应所述验证数据组的每一笔对应的所述多个第二标记信息,分别产生相应所述验证数据组的每一笔的行为标记结果,/n其中所述处理单元还由所述验证数据组的每一笔相应的所述行为标记结果以及所述第一标记信息获取标记变动幅度值,并判断所述标记变动幅度值是否大于变动门槛值,且当所述标记变动幅度值大于所述变动门槛值,依据所述多个行为标记结果更新所述验证数据组的每一笔对应的所述第一标记信息,交换所述训练数据组及所述验证数据组,并依据交换后的所述训练数据组重新建立所述多个标记模型。/n

【技术特征摘要】
1.一种行为标记模型训练系统,包括:
输入单元,接收已标记数据组,其中所述已标记数据组包括训练数据组以及验证数据组,且所述训练数据组的每一笔以及所述验证数据组的每一笔分别包括第一标记信息;
储存单元,储存多个学习模块;
处理单元,连接于所述输入单元与所述储存单元,分别输入所述训练数据组的每一笔至多个学习模块,以建立多个标记模型,
其中所述处理单元还依据所述多个标记模型分别获取相应所述验证数据组数据的每一笔的多个第二标记信息,依据相应所述验证数据组的每一笔对应的所述多个第二标记信息,分别产生相应所述验证数据组的每一笔的行为标记结果,
其中所述处理单元还由所述验证数据组的每一笔相应的所述行为标记结果以及所述第一标记信息获取标记变动幅度值,并判断所述标记变动幅度值是否大于变动门槛值,且当所述标记变动幅度值大于所述变动门槛值,依据所述多个行为标记结果更新所述验证数据组的每一笔对应的所述第一标记信息,交换所述训练数据组及所述验证数据组,并依据交换后的所述训练数据组重新建立所述多个标记模型。


2.根据权利要求1所述的行为标记模型训练系统,所述处理单元还于所述标记变动幅度值不大于所述变动门槛值时,储存所述多个标记模型于所述储存单元中。


3.根据权利要求1所述的行为标记模型训练系统,其中所述第二标记信息相应于正常标记与异常标记,且所述处理单元还用以判断所述验证数据组的每一笔对应的所述多个第二标记信息中,属于所述正常标记的数量与所述异常标记的数量,并依据所述正常标记的数量与所述异常标记的数量中较多的产生所述行为标记结果。


4.根据权利要求1所述的行为标记模型训练系统,其中所述处理单元还执行:
获取所述行为标记结果为正常,且所述第一标记信息为正常的第一数量,
获取所述行为标记结果为异常,且所述第一标记信息为异常的第二数量,
依据所述第一数量与所述第二数量的总和与所述验证数据组的数据数量的比值,以获取准确率衡量值,
依据所述第一数量与所述第一标记信息为正常的数量的比值,以获取特异性衡量值,
依据所述第二数量与所述第一标记信息为异常的数量的比值,以获取敏感度衡量值,以及
分别判断所述准确率衡量值、所述特异性衡量值以及所述敏感度衡量值与历史准确率衡量值、历史特异性衡量值以及历史敏感度衡量值的差异值,以获取所述标记变动幅度值。


5.根据权利要求1所述的行为标记模型训练系统,其中所述输入单元还接收历史数据组,其中所述历史数据组包括第一数据组及第二数据组,且所述第一数据组中的每一笔分别包括第三标记信息,
其中所述处理单元还输入所述第一数据组至初始学习模块,以获取初始标记模型,并依据所述初始标记模型标记所述第二数据组,以产生包括所述第一标记信息的所述已标记数据组。


6.根据权利要求5所述的行为标记模型训练系统,其中所述初始标记模型以及所述多个标记模型的每一个分别包括相应多个时间区间的行为特征,
其中所述处理单元还分别依据所述第二数据组的每一笔相应的登入时间以及所述初始标记模型中的所述多个时间区间找出相应的所述行为特征,并依据所述相应的所述行为特征标记所述第二数据组的每一笔,以产生所述已标记数据组,
其中所述处理单元还分别依据所述验证数据组的每一笔相应的登入时间以及标记模型中的所述多个时间区间找出相应的所述行为特征,并依据所述行为特征标记所述验证数据组的每一笔,以获取相应所述验证数据组数据的每一笔的所述多个第二标记信息。


7.根据权利要求1所述的行为标记模型训练系统,其中所述输入单元还接收历史数据组,其中所述历史数据组包括相应于多个使用者的每一个的使用者数据组,
其中所述处理单元还执行:
分别依据所述多个使用者数据组的每一个,判断所述多个使用者的每一个在多个时间区间中分别的使用量异常程度,并依据所述多个第一历史数据组的每一个及所述多个标记模型判断所述多个使用者在所述多个时间区间中分别的异常比率,
依据所述多个使用者的每一个的所述使用量异常程度及所述异常比率,分别判断所述多个使用者在时间区段中的使用量异常程度及异常比率,并获取所述多个使用者的每一个相应的综合异常指标,
依据所述多个使用者的每一个相应的综合异常指...

【专利技术属性】
技术研发人员:李俊贤许银雄利建宏蔡宗宪黄琼莹孙明功张宗铨
申请(专利权)人:安碁资讯股份有限公司
类型:发明
国别省市:中国台湾;71

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1