基于业务安全的分类模型训练方法、装置和存储介质制造方法及图纸

技术编号:24458840 阅读:28 留言:0更新日期:2020-06-10 16:22
本申请涉及一种基于业务安全的分类模型训练方法、装置和存储介质,所述方法包括:获取目标业务的全量样本;通过至少一种的异常检测方式对所述全量样本进行异常检测,从所述全量样本中确定出异常样本;从所述异常样本中筛选样本内容满足恶意条件的恶意样本;根据所述全量样本中除去所述恶意样本后的样本,确定正常样本;基于所述恶意样本和所述正常样本对初始的分类模型进行训练,得到用于对所述目标业务进行安全管控的分类模型。本申请提供的方案可以减少安全管控的成本。

Classification model training method, device and storage medium based on business security

【技术实现步骤摘要】
基于业务安全的分类模型训练方法、装置和存储介质
本申请涉及计算机
,特别是涉及一种基于业务安全的分类模型训练方法、装置、计算机可读存储介质和计算机设备。
技术介绍
随着互联网技术的广泛使用,给人们的生活和工作带来便利的同时,也存在一些安全隐患。比如,在一些业务场景中,用户可通过社交网络发布用户自己创建内容,比如UGC(UserGeneratedContent,用户生成内容)内容等,而有些恶意用户则利用这些方式来散播恶意内容,比如,垃圾消息、黄色暴力信息、或违反法律法规的信息等,这给大家的生活和工作都带来了非常不好的影响。因而如何去筛选甄别这些恶意内容就变得非常重要。传统的筛选甄别网络中的恶意内容的方式,通常是基于关键词匹配的方式。比如,可根据不同的业务场景,维护一份关于黑词的表格,根据发布内容中出现黑词的次数来筛选恶意内容。但对于传统的筛选方式,随着时间的迁移,需要人工维护的关键词也就越来越多,词语之间的组合也越来越复杂,使得人工运维成本巨大。
技术实现思路
基于此,有必要针对传统的恶意内容筛选的方式成本高的技术问题,提供一种基于业务安全的分类模型训练方法、装置、计算机可读存储介质和计算机设备。一种基于业务安全的分类模型训练方法,包括:获取目标业务的全量样本;通过至少一种的异常检测方式对所述全量样本进行异常检测,从所述全量样本中确定出异常样本;从所述异常样本中筛选样本内容满足恶意条件的恶意样本;根据所述全量样本中除去所述恶意样本后的样本,确定正常样本;基于所述恶意样本和所述正常样本对初始的分类模型进行训练,得到用于对所述目标业务进行安全管控的分类模型。一种基于业务安全的分类模型训练装置,所述装置包括:获取模块,用于获取目标业务的全量样本;确定模块,用于通过至少一种的异常检测方式对所述全量样本进行异常检测,从所述全量样本中确定出异常样本;筛选模块,用于从所述异常样本中筛选样本内容满足恶意条件的恶意样本;所述确定模块,还用于根据所述全量样本中除去所述恶意样本后的样本,确定正常样本;训练模块,用于基于所述恶意样本和所述正常样本对初始的分类模型进行训练,得到用于对所述目标业务进行安全管控的分类模型。一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行以下步骤:获取目标业务的全量样本;通过至少一种的异常检测方式对所述全量样本进行异常检测,从所述全量样本中确定出异常样本;从所述异常样本中筛选样本内容满足恶意条件的恶意样本;根据所述全量样本中除去所述恶意样本后的样本,确定正常样本;基于所述恶意样本和所述正常样本对初始的分类模型进行训练,得到用于对所述目标业务进行安全管控的分类模型。一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行以下步骤:获取目标业务的全量样本;通过至少一种的异常检测方式对所述全量样本进行异常检测,从所述全量样本中确定出异常样本;从所述异常样本中筛选样本内容满足恶意条件的恶意样本;根据所述全量样本中除去所述恶意样本后的样本,确定正常样本;基于所述恶意样本和所述正常样本对初始的分类模型进行训练,得到用于对所述目标业务进行安全管控的分类模型。上述基于业务安全的分类模型训练方法、装置、计算机可读存储介质和计算机设备,通过至少一种的异常检测方式,对目标业务的全量样本进行异常检测,以从全量样本中找到异常样本。进而可从异常样本中筛选样本内容满足恶意条件的恶意样本,并根据全量样本中除去恶意样本后的样本确定正常样本。这样,就可以通过无监督的异常检测方式结合内容筛选,快速准确地将正负样本分离,从而通过正负样本来训练分类模型。这样,训练得到的分类模型就可在线上对目标业务进行安全管控,无需大量的人工实时更新维护判别筛选规则,大大减少了安全管控的成本。附图说明图1为一个实施例中基于业务安全的分类模型训练方法的应用环境图;图2为一个实施例中基于业务安全的分类模型训练方法的流程示意图;图3为一个实施例中对初始的分类模型进行训练和使用的整体框架图;图4为一个实施例中通过至少一种的异常检测方式对全量样本进行异常检测,从全量样本中确定出异常样本的步骤的流程示意图;图5为一个实施例中重构模型的网络结构示意图;图6为另一个实施例中通过至少一种的异常检测方式对全量样本进行异常检测,从全量样本中确定出异常样本的步骤的流程示意图;图7为一个实施例中对样本进行聚类的步骤的流程图;图8为一个实施例中对目标业务进行安全管控的步骤的流程图;图9为一个实施例中基于业务安全的分类模型训练装置的结构框图;图10为另一个实施例中基于业务安全的分类模型训练装置的结构框图;图11为一个实施例中计算机设备的结构框图。具体实施方式为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。图1为一个实施例中基于业务安全的分类模型训练方法的应用环境图。参照图1,该基于业务安全的分类模型训练方法应用于安全对抗系统。该安全对抗系统包括用户终端110和计算机设备120。用户终端110和计算机设备120通过网络连接。用户终端110具体可以是台式终端或移动终端,移动终端具体可以手机、平板电脑、笔记本电脑等中的至少一种。计算机设备120具体可以是终端或服务器,其中,服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。可以理解,用户可通过用户终端110执行基于目标业务的操作,计算机设备120可从不同的用户终端110处获取基于目标业务所产生的日志文件,进而从日志文件中获取目标业务的全量样本,计算机设备120可通过执行本申请在后面的实施例中所提及的基于业务安全的分类模型训练方法,获得用于对目标业务进行安全管控的分类模型,通过该分类模型可在线上对目标业务进行安全管控,无需大量的人工实时更新维护判别筛选规则,大大减少了对目标业务进行安全管控的成本。如图2所示,在一个实施例中,提供了一种基于业务安全的分类模型训练方法。本实施例主要以该方法应用于上述图1中的计算机设备120来举例说明。参照图2,该基于业务安全的分类模型训练方法具体包括如下步骤:S202,获取目标业务的全量样本。其中,目标业务是需要进行安全管控的业务,具体可以是在互联网业务场景下的互联网产品。用户可操作该互联网产品,通过该互联网产品产生一系列事件,比如用户可通过社交应用加好友、发帖、发布用户生成内容、或进行评论等,从而产生一系列相应的事件。对目标业务进行安全管控,是对目标业务中所产生的一些列事件进行安全管控,也就是处理业务场景中存在安全隐患的情况,比如处理色本文档来自技高网...

【技术保护点】
1.一种基于业务安全的分类模型训练方法,包括:/n获取目标业务的全量样本;/n通过至少一种的异常检测方式对所述全量样本进行异常检测,从所述全量样本中确定出异常样本;/n从所述异常样本中筛选样本内容满足恶意条件的恶意样本;/n根据所述全量样本中除去所述恶意样本后的样本,确定正常样本;/n基于所述恶意样本和所述正常样本对初始的分类模型进行训练,得到用于对所述目标业务进行安全管控的分类模型。/n

【技术特征摘要】
1.一种基于业务安全的分类模型训练方法,包括:
获取目标业务的全量样本;
通过至少一种的异常检测方式对所述全量样本进行异常检测,从所述全量样本中确定出异常样本;
从所述异常样本中筛选样本内容满足恶意条件的恶意样本;
根据所述全量样本中除去所述恶意样本后的样本,确定正常样本;
基于所述恶意样本和所述正常样本对初始的分类模型进行训练,得到用于对所述目标业务进行安全管控的分类模型。


2.根据权利要求1所述的方法,其特征在于,所述获取目标业务的全量样本,包括:
获取预设周期内基于目标业务所产生的日志文件;
确定所述日志文件中出现的用户账号、及各用户账号对应的用户生成内容;
将所有的用户账号或所有的用户生成内容,作为所述目标业务的全量样本。


3.根据权利要求1所述的方法,其特征在于,所述获取目标业务的全量样本,包括:
获取目标业务的全量样本、以及所述全量样本中的各样本分别对应的第一样本特征;
所述通过至少一种的异常检测方式对所述全量样本进行异常检测,从所述全量样本中确定出异常样本,包括:
通过至少一种的异常检测方式,分别基于各样本对应的第一样本特征,对所述全量样本进行异常检测,得到至少一组的候选异常样本;
根据所述至少一组的候选异常样本的并集,从所述全量样本中筛选出异常样本。


4.根据权利要求3所述的方法,其特征在于,所述获取目标业务的全量样本、以及所述全量样本中的各样本分别对应的第一样本特征,包括:
获取预设周期内基于目标业务所产生的日志文件;所述日志文件包括用户账号、及与各所述用户账号对应的用户行为数据和用户生成内容;
将所述日志文件中出现的全部的用户账号作为全量样本;
获取与各所述用户账号分别对应的用户画像;
根据各所述用户账号分别对应的用户行为数据、用户生成内容和用户画像,确定与各用户账号分别对应的第一样本特征。


5.根据权利要求3所述的方法,其特征在于,所述获取目标业务的全量样本、以及所述全量样本中的各样本分别对应的第一样本特征,包括:
获取预设周期内基于目标业务所产生的日志文件;
将所述日志文件中出现的全部的用户生成内容作为全量样本;
根据各所述用户生成内容分别包括的恶意内容,确定与各用户生成内容分别对应的第一样本特征。


6.根据权利要求1所述的方法,其特征在于,所述通过至少一种的异常检测方式对所述全量样本进行异常检测,从所述全量样本中确定出异常样本,包括:
获取所述全量样本中的各样本分别对应的第一样本特征;
将每个样本各自对应的第一样本特征,分别输入至训练好的重构模型,得到对应的输出向量;
基于各所述样本分别对应的第一样本特征和输出向量间的差异,确定各所述样本对应的误差值;
将相应误差值满足异常条件的样本作为异常样本。


7.根据权利要求1所述的方法,其特征在于,所述通过至少一种的异常检测方式对所述全量样本进行异常检测,从所述全量样本中确定出异常样本,包括:
获取所述全量样本中的各样本分别对应的第一样本特征;
基于各样本分别对应的第一样本特征,对所述全量样本进行聚类处理,得到多于一类的簇;
根据各簇分别包括的样本的第一样本特征,确定各簇分别对应的特征均值;
基于各簇分别...

【专利技术属性】
技术研发人员:张戎
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1