【技术实现步骤摘要】
基于业务安全的分类模型训练方法、装置和存储介质
本申请涉及计算机
,特别是涉及一种基于业务安全的分类模型训练方法、装置、计算机可读存储介质和计算机设备。
技术介绍
随着互联网技术的广泛使用,给人们的生活和工作带来便利的同时,也存在一些安全隐患。比如,在一些业务场景中,用户可通过社交网络发布用户自己创建内容,比如UGC(UserGeneratedContent,用户生成内容)内容等,而有些恶意用户则利用这些方式来散播恶意内容,比如,垃圾消息、黄色暴力信息、或违反法律法规的信息等,这给大家的生活和工作都带来了非常不好的影响。因而如何去筛选甄别这些恶意内容就变得非常重要。传统的筛选甄别网络中的恶意内容的方式,通常是基于关键词匹配的方式。比如,可根据不同的业务场景,维护一份关于黑词的表格,根据发布内容中出现黑词的次数来筛选恶意内容。但对于传统的筛选方式,随着时间的迁移,需要人工维护的关键词也就越来越多,词语之间的组合也越来越复杂,使得人工运维成本巨大。
技术实现思路
基于此,有必要针对传统的恶意内容筛选的方式成本高的技术问题,提供一种基于业务安全的分类模型训练方法、装置、计算机可读存储介质和计算机设备。一种基于业务安全的分类模型训练方法,包括:获取目标业务的全量样本;通过至少一种的异常检测方式对所述全量样本进行异常检测,从所述全量样本中确定出异常样本;从所述异常样本中筛选样本内容满足恶意条件的恶意样本;根据所述全量样本中除去所述恶意样本后的样本,确定正 ...
【技术保护点】
1.一种基于业务安全的分类模型训练方法,包括:/n获取目标业务的全量样本;/n通过至少一种的异常检测方式对所述全量样本进行异常检测,从所述全量样本中确定出异常样本;/n从所述异常样本中筛选样本内容满足恶意条件的恶意样本;/n根据所述全量样本中除去所述恶意样本后的样本,确定正常样本;/n基于所述恶意样本和所述正常样本对初始的分类模型进行训练,得到用于对所述目标业务进行安全管控的分类模型。/n
【技术特征摘要】
1.一种基于业务安全的分类模型训练方法,包括:
获取目标业务的全量样本;
通过至少一种的异常检测方式对所述全量样本进行异常检测,从所述全量样本中确定出异常样本;
从所述异常样本中筛选样本内容满足恶意条件的恶意样本;
根据所述全量样本中除去所述恶意样本后的样本,确定正常样本;
基于所述恶意样本和所述正常样本对初始的分类模型进行训练,得到用于对所述目标业务进行安全管控的分类模型。
2.根据权利要求1所述的方法,其特征在于,所述获取目标业务的全量样本,包括:
获取预设周期内基于目标业务所产生的日志文件;
确定所述日志文件中出现的用户账号、及各用户账号对应的用户生成内容;
将所有的用户账号或所有的用户生成内容,作为所述目标业务的全量样本。
3.根据权利要求1所述的方法,其特征在于,所述获取目标业务的全量样本,包括:
获取目标业务的全量样本、以及所述全量样本中的各样本分别对应的第一样本特征;
所述通过至少一种的异常检测方式对所述全量样本进行异常检测,从所述全量样本中确定出异常样本,包括:
通过至少一种的异常检测方式,分别基于各样本对应的第一样本特征,对所述全量样本进行异常检测,得到至少一组的候选异常样本;
根据所述至少一组的候选异常样本的并集,从所述全量样本中筛选出异常样本。
4.根据权利要求3所述的方法,其特征在于,所述获取目标业务的全量样本、以及所述全量样本中的各样本分别对应的第一样本特征,包括:
获取预设周期内基于目标业务所产生的日志文件;所述日志文件包括用户账号、及与各所述用户账号对应的用户行为数据和用户生成内容;
将所述日志文件中出现的全部的用户账号作为全量样本;
获取与各所述用户账号分别对应的用户画像;
根据各所述用户账号分别对应的用户行为数据、用户生成内容和用户画像,确定与各用户账号分别对应的第一样本特征。
5.根据权利要求3所述的方法,其特征在于,所述获取目标业务的全量样本、以及所述全量样本中的各样本分别对应的第一样本特征,包括:
获取预设周期内基于目标业务所产生的日志文件;
将所述日志文件中出现的全部的用户生成内容作为全量样本;
根据各所述用户生成内容分别包括的恶意内容,确定与各用户生成内容分别对应的第一样本特征。
6.根据权利要求1所述的方法,其特征在于,所述通过至少一种的异常检测方式对所述全量样本进行异常检测,从所述全量样本中确定出异常样本,包括:
获取所述全量样本中的各样本分别对应的第一样本特征;
将每个样本各自对应的第一样本特征,分别输入至训练好的重构模型,得到对应的输出向量;
基于各所述样本分别对应的第一样本特征和输出向量间的差异,确定各所述样本对应的误差值;
将相应误差值满足异常条件的样本作为异常样本。
7.根据权利要求1所述的方法,其特征在于,所述通过至少一种的异常检测方式对所述全量样本进行异常检测,从所述全量样本中确定出异常样本,包括:
获取所述全量样本中的各样本分别对应的第一样本特征;
基于各样本分别对应的第一样本特征,对所述全量样本进行聚类处理,得到多于一类的簇;
根据各簇分别包括的样本的第一样本特征,确定各簇分别对应的特征均值;
基于各簇分别...
【专利技术属性】
技术研发人员:张戎,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。