一种数据筛选引擎建立方法及数据筛选引擎技术

技术编号:12809327 阅读:97 留言:0更新日期:2016-02-05 08:31
本发明专利技术实施例公开一种数据筛选引擎建立方法及数据筛选引擎,解决了目前的人工方式很难从海量的用户行为中总结出区分出黑白名单的规则的技术问题。本发明专利技术实施例数据筛选引擎建立方法包括:提取已注册的用户的基础信息和用户对应的历史行为数据;根据基础信息和历史行为数据,并结合预置的复数个业务逻辑确定每个用户的特征向量;根据特征向量,并再次结合复数个业务逻辑确定高置信度名单;对高置信度名单通过采用预置分析方式进行分析,建立相对应的数据筛选规则。

【技术实现步骤摘要】

本专利技术涉及数据处理
,尤其涉及一种数据筛选引擎建立方法及数据筛选 引擎。
技术介绍
随着网络游戏的发展,一些通过作弊程序获取经济利益的灰色产业也膨胀起来。 这些作弊程序一般通过机器模拟合法用户的行为,以刷礼品,刷人气等为手段,大量消耗网 络资源,严重影响平台生态的发展。为了识别这些作弊程序,一般需要构建黑白名单库,并 基于该库训练出识别模型。其中黑名单一般代表使用作弊程序的账号,白名单代表合法用 户帐号。黑白名单的构建一般基于历史沉淀,从大量的用户反馈和人工观察标注等记录中 获取。但对于一些新业务,历史积累不足而且用户反馈缺乏,没有形成判定的标准。采用人 工标注的方式来汇总黑白名单,人工量很大而且构建速度很慢。 传统方法一般靠人工观察以及业务经验,从大量的结果数据中总结出规律,进而 构建黑白名单。但对于一些新业务,如游戏直播,由于缺乏历史的积累,没有形成判定的标 准。另一方面,业务的用户量很大,每天有数千万的用户行为数据,伪账号跟正常用户帐户 混淆在一起。人工的方法很难甚至不可能从海量的用户行为中总结出区分出黑白名单的规 则。 上述提及的人工方式很难从海量的用户行为中总结出区分出黑白名单的规则的 技术问题,已经成为了本领域技术人员亟待解决的技术问题。
技术实现思路
本专利技术实施例提供了一种数据筛选引擎建立方法及数据筛选引擎,解决了目前的 人工方式很难从海量的用户行为中总结出区分出黑白名单的规则的技术问题。 本专利技术实施例中提供的一种数据筛选引擎建立方法,包括: 提取已注册的用户的基础信息和所述用户对应的历史行为数据; 根据所述基础信息和所述历史行为数据,并结合预置的复数个业务逻辑确定每个 用户的特征向量; 根据所述特征向量,并再次结合复数个所述业务逻辑确定高置信度名单; 对所述高置信度名单通过采用预置分析方式进行分析,建立相对应的数据筛选规 则。 可选地,提取已注册的用户的基础信息和所述用户对应的历史行为数据具体包 括: 通过接入客户端提取已注册的所述用户的所述基础信息; 提取与所述用户对应的所述历史所述行为数据,所述行为数据包括登录行为数 据、观看行为数据、消费行为数据和互动行为数据。 可选地,根据所述基础信息和所述历史行为数据,并结合预置的复数个业务逻辑 确定每个用户的特征向量之前还包括: 建立复数个所述业务逻辑,所述业务逻辑与非常规注册方式相对应。 可选地,根据所述基础信息和所述历史行为数据,并结合预置的复数个业务逻辑 确定每个用户的特征向量具体包括: 根据所述基础信息和所述历史行为数据定义相对应的复数个特征; 根据所述基础信息和所述历史行为数据,并结合所述业务逻辑量化出与所述业务 逻辑相对应的复数个衍生特征; 根据复数个所述特征和/或复数个所述衍生特征,并结合所述业务逻辑建立相关 联的复数个所述特征向量; 其中,所述特征向量为通过预置方式进行归一化处理的所述特征向量。 可选地,根据所述特征向量,并再次结合复数个所述业务逻辑确定高置信度名单 具体包括: 对复数个所述特征向量采用聚类方法进行基于所述用户的类别分类,确定每个所 述类别对应的所述特征向量; 对每个所述类别对应的所述特征向量再次结合复数个所述业务逻辑确定所述高 置信度名单,并将所述高置信度名单设定为每个所述类别对应的参考样本。 可选地,预置分析方式具体包括: 所述高置信度名单的自身特征信息分析,以及每个所述类别对应的参考样本和所 述高置信度名单的自身特征信息的相关性分析。 本专利技术实施例中提供的一种数据筛选引擎,包括: 数据接入单元,被配置为提取已注册的用户的基础信息和所述用户对应的历史行 为数据; 特征构造单元,被配置为根据所述基础信息和所述历史行为数据,并结合预置的 复数个业务逻辑确定每个用户的特征向量; 确定单元,被配置为根据所述特征向量,并再次结合复数个所述业务逻辑确定高 置信度名单; 规则建立单元,被配置为对所述高置信度名单通过采用预置分析方式进行分析, 建立相对应的数据筛选规则。 可选地,所述数据接入单元具体包括: 基础信息采集子单元,被配置为通过接入客户端提取已注册的所述用户的所述基 础信息; 行为数据采集子单元,被配置为提取与所述用户对应的所述历史所述行为数据; 所述行为数据采集子单元包括:登录行为数据采集模块、观看行为数据采集模块、 消费行为数据采集子单元和互动行为数据采集模块。 可选地,所述数据筛选引擎还包括: 建立单元,被配置为建立复数个所述业务逻辑,所述业务逻辑与非常规注册方式 相对应。 可选地,特征构造单元具体包括: 特征定义子单元,被配置为根据所述基础信息和所述历史行为数据定义相对应的 复数个特征; 特征衍生子单元,被配置为根据所述基础信息和所述历史行为数据,并结合所述 业务逻辑量化出与所述业务逻辑相对应的复数个衍生特征; 特征向量构建子单元,被配置为根据复数个所述特征和/或复数个所述衍生特 征,并结合所述业务逻辑建立相关联的复数个所述特征向量; 其中,所述特征向量为通过预置方式进行归一化处理的所述特征向量。 可选地,确定单元具体包括: 无监督聚类子单元,被配置为对复数个所述特征向量采用聚类方法进行基于所述 用户的类别分类,确定每个所述类别对应的所述特征向量; 特征验证子单元,被配置为对每个所述类别对应的所述特征向量再次结合复数个 所述业务逻辑确定所述高置信度名单,并将所述高置信度名单设定为每个所述类别对应的 参考样本。 可选地,规则建立单元包括: 第一规则建立子单元,被配置为对所述高置信度名单通过采用所述高置信度名单 的自身特征信息进行分析,建立相对应的所述数据筛选规则; 第二规则建立子单元,被配置为对所述高置信度名单通过采用对每个所述类别对 应的参考样本和所述高置信度名单的自身特征信息的相关性进行分析,建立相对应的所述 数据筛选规则。 从以上技术方案可以看出,本专利技术实施例具有以下优点: 本专利技术实施例提供的一种数据筛选引擎建立方法及数据筛选引擎,其中,数据筛 选引擎建立方法包括:提取已注册的用户的基础信息和用户对应的历史行为数据;根据基 础信息和历史行为数据,并结合预置的复数个业务逻辑确定每个用户的特征向量;根据特 征向量,并再次结合复数个业务逻辑确定高置信度名单;对高置信度名单通过采用预置分 析方式进行分析,建立相对应的数据筛选规则。本实施例中,通过基础信息和历史行为数 据,并结合预置的复数个业务逻辑确定每个用户的特征向量;根据特征向量,并再次结合复 数个业务逻辑确定高置信度名单;对高置信度名单通过采用预置分析方式进行分析,建立 相对应的数据筛选规则,便建立了可进行黑白名单筛选的数据筛选引擎,解决了目前的人 工方式很难从海量的用户行为中总结出区分出黑白名单的规则的技术问题。【附图说明】 为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现 有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本 专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可 以根据这些附图获得其它的附图。 图1为本专利技术实施例中提供的一种数据筛选引擎建立方法的一个实施例的流程 示意图; 图2为本专利技术实施例中提供的一种数据筛选引擎建立方法本文档来自技高网...

【技术保护点】
一种数据筛选引擎建立方法,其特征在于,包括:提取已注册的用户的基础信息和所述用户对应的历史行为数据;根据所述基础信息和所述历史行为数据,并结合预置的复数个业务逻辑确定每个用户的特征向量;根据所述特征向量,并再次结合复数个所述业务逻辑确定高置信度名单;对所述高置信度名单通过采用预置分析方式进行分析,建立相对应的数据筛选规则。

【技术特征摘要】

【专利技术属性】
技术研发人员:余建兴
申请(专利权)人:珠海多玩信息技术有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1