一种网络行为特征的差量计算方法和系统技术方案

技术编号:15262833 阅读:102 留言:0更新日期:2017-05-03 18:56
本发明专利技术提供了一种网络行为特征的差量计算方法,涉及网络数据处理技术领域。该方法包括:持续获取用户网络行为的特征信息;将距当前时刻最近的一个时间周期内的特征信息存入第一数据库;定时一个时间周期拉取特征信息并按不同维度聚合计算,将结果与上一个时间周期节点的统计值进行累加,得到当前时间周期节点的统计值并存入第二数据库;接收查询请求后,根据时间窗口读取第二数据库中的两个时间周期节点的统计值并相减得到差量,将差量与读取的第一数据库的特征信息进行合并,得到所要查询的特征指标。采用此方法不仅可以灵活、快速、准确地统计各种维度的指标,而且几乎可以满足高量并发场景的在线实时计算的要求。

Difference calculation method and system for network behavior characteristic

The invention provides a method for calculating the difference of network behavior characteristics, which relates to the technical field of network data processing. The method includes: the characteristic information of continued access to user network behavior; from the current time characteristic information of a recent period of time in the first database; a timing cycle time pull characteristic information according to the different dimensions of polymerization calculation, statistics and results will be a period of time the node values are accumulated, statistical the current time period node value and stored in the second database; receiving the query request, according to the statistics of the time window to read the two time periods of second nodes in the database and the value obtained by subtracting the difference, with characteristic information will difference and read the first database, get the feature index to query. This method can not only flexibly, quickly and accurately measure the various dimensions of the index, but also can meet the requirements of online real-time calculation of high volume concurrent scenes.

【技术实现步骤摘要】

本专利技术涉及网络数据处理
,特别是涉及一种网络行为特征的差量计算方法和一种网络行为特征的差量计算系统。
技术介绍
风险控制系统中,为了评估风险,往往需要对用户行为特征进行统计,计算用户行为的特征指标并以此来评估风险。在进行用户行为特征统计时,通常需要计算用户网络行为某个维度在过去某个特定的时段出现的次数、关联关系、变化趋势等,比如过去5分钟某个IP(InternetProtocol,网络之间互连的协议)登录次数,过去3天某个设备ID(DeviceID,设备唯一标识)关联的用户账号数等,以此来作为网络异常行为分析的重要依据。在先的对用户网络行为的特征指标的计算方案大致包括下述三种:第一种,把数据存入数据库,并在需要统计的字段上加上索引,每次计算时根据查询条件在数据库中获取用户行为特征信息,统计用户行为特征指标。第二种,把数据按不同维度聚合后,存储在NoSQL(NotonlyStructuredQueryLanguage,非关系型数据库)中,通过对关键值Key值的精巧设计,在每次计算时根据查询条件快速定位到对应的特征信息,并进行读取,然后统计用户行为的特征指标。第三种,把数据按照分钟、小时、天时间片进行聚合存入数据库,在每次计算时根据查询条件在数据库中获取用户行为特征信息,统计用户行为特征指标。在专利技术人应用上述方案的过程中发现,第一种方案存在两个问题,一个是如果每个字段都要加索引,对写入性能影响较大,二是如果事件中的字段是由客户传入的,是有非常多的可能,无法在数据库建表时进行穷举,建表后新增字段代价也非常高,所以计算用户行为特征时灵活度差。即使字段是确定的,然后每次计算时根据查询条件在数据库中进行统计,在数据量比较大的情况下,性能会到秒级,无法满足实时性的要求。第二种方案存在的问题是,当遇到欺诈、作弊等异常网络行为时,由于该网络行为特征的表现之一就是高并发,数据量大,这会导致在读取数据时因为数据量过大而经常超时,如果限制数据的条数就会导致计算不准。第三种方法也存在问题,对于回溯窗口特别长或数据量特别大的时候也会比较耗时,满足不了在线实时性的要求。
技术实现思路
针对上述现有技术的缺陷,本专利技术要解决的技术问题是提供一种对网络行为特征计算的方法,用以灵活、快速、准确地统计各种维度的特征指标,满足高量并发场景的在线实时计算的要求。为了解决上述问题,本专利技术公开了一种网络行为特征的差量计算方法,所述方法包括:持续获取用户网络行为的特征信息;将距离当前时刻最近的一个时间周期内的所述的特征信息存入第一数据库;按一个时间周期定期拉取所述的特征信息,并根据所述特征信息计算一个时间周期内的各个维度的特征指标;针对不同维度,将当前时间周期内计算获得的特征指标与上一个时间周期节点的特征指标统计值进行累加,得到当前时间周期节点的各个维度的特征指标统计值,并将所述当前时间周期节点的各个维度的特征指标统计值存入第二数据库;接收查询请求,所述查询请求包括时间窗口和至少一个维度的特征指标;读取第一数据库中距当前时刻最近的上一个时间周期节点与当前时刻的时间间隔内的特征信息;读取第二数据库中距当前时刻最近的上一个时间周期节点的所述的至少一个维度的特征指标统计值;读取第二数据库中所述时间窗口的起始时刻临近的一个时间周期节点的所述的至少一个维度的特征指标统计值;针对不同维度,将读取的第二数据库的两个时间周期节点的特征指标统计值进行相减,从而得到第二数据库的两个时间周期节点的所述的至少一个维度的特征指标统计值的差量;基于所述第一数据库中读取的特征信息和所述第二数据库的两个时间周期节点的所述的至少一个维度的特征指标统计值的差量,重新计算所述时间窗口内的所述至少一个维度的特征指标;返回合并计算后的所述时间窗口内的所述至少一个维度的特征指标。优选的,所述持续获取用户网络行为的特征信息的步骤之后还包括:将所述特征信息存入消息队列中;进一步,所述将距离当前时刻最近的一个时间周期内的所述的特征信息存入第一数据库的步骤包括:将所述消息队列中距离当前时刻最近的一个时间周期内的特征信息存入第一数据库;进一步,所述按一个时间周期定期拉取所述的特征信息,并根据所述特征信息计算一个时间周期内的各个维度的特征指标的步骤包括:按一个时间周期定期拉取所述消息队列中的特征信息,并根据所述特征信息计算一个时间周期内的各个维度的特征指标。优选的,所述根据所述特征信息计算一个时间周期内的各个维度的特征指标的步骤包括:针对所述特征信息的每一维度,将所述特征信息的同一维度的特征属性进行聚合;将所述聚合后的同一维度的特征属性按照预先定义的计算类型计算,从而得到一个时间周期内的各个维度的特征指标。优选的,所述读取第一数据库中距当前时刻最近的上一个时间周期节点与当前时刻的时间间隔内的特征信息的步骤包括:读取第一数据库中距当前时刻最近的上一个时间周期节点与当前时刻的时间间隔内的所述的至少一个维度的特征信息。优选的,所述读取第二数据库中所述时间窗口的起始时刻临近的一个时间周期节点的所述的至少一个维度的特征指标统计值的步骤包括:在信贷场景下,读取第二数据库中所述时间窗口的起始时刻最近的上一个时间周期节点的所述的至少一个维度的特征指标统计值;在面向客户服务场景下,读取第二数据库中所述时间窗口的起始时刻最近的下一个时间周期节点的所述的至少一个维度的特征指标统计值。优选的,所述基于所述第一数据库中读取的特征信息和所述第二数据库的两个时间周期节点的所述的至少一个维度的特征指标统计值的差量,重新计算所述时间窗口内的所述至少一个维度的特征指标的步骤包括:针对不同维度,将所述第一数据库中读取的特征信息的同一维度的特征属性进行聚合;将所述聚合后的同一维度的特征属性按照预先定义的计算类型计算,得到对应第一数据库的特征指标,所述对应第一数据库的特征指标包括距当前时刻最近的上一个时间周期节点与当前时刻的时间间隔内的至少一个维度的特征指标;将所述对应第一数据库的特征指标和第二数据库的两个时间周期节点的所述的至少一个维度的特征指标统计值的差量,按照不同维度进行合并,从而得到所述查询请求中所述的时间窗口内的至少一个维度的特征指标。本专利技术还公开了一种网络行为特征的差量计算系统,包括:特征信息获取模块:用于持续获取用户网络行为的特征信息;第一数据库存储模块:用于将距离当前时刻最近的一个时间周期内的所述的特征信息存入第一数据库;特征指标第一计算模块:用于按一个时间周期定期拉取所述的特征信息,并根据所述特征信息计算一个时间周期内的各个维度的特征指标;特征指标统计值计算模块:用于针对不同维度,将当前时间周期内计算获得的特征指标与上一个时间周期节点的特征指标统计值进行累加,得到当前时间周期节点的各个维度的特征指标统计值,并将所述当前时间周期节点的各个维度的特征指标统计值存入第二数据库;接收查询模块:用于接收查询请求,所述查询请求包括时间窗口和至少一个维度的特征指标;特征信息读取模块:用于读取第一数据库中距当前时刻最近的上一个时间周期节点与当前时刻的时间间隔内的特征信息;特征指标统计值第一读取模块:用于读取第二数据库中距当前时刻最近的上一个时间周期节点的所述的至少一个维度的特征指标统计值;特征指标统计值第二读取模块:用于读取第本文档来自技高网
...

【技术保护点】
一种网络行为特征的差量计算方法,其特征在于,所述方法包括:持续获取用户网络行为的特征信息;将距离当前时刻最近的一个时间周期内的所述的特征信息存入第一数据库;按一个时间周期定期拉取所述的特征信息,并根据所述特征信息计算一个时间周期内的各个维度的特征指标;针对不同维度,将当前时间周期内计算获得的特征指标与上一个时间周期节点的特征指标统计值进行累加,得到当前时间周期节点的各个维度的特征指标统计值,并将所述当前时间周期节点的各个维度的特征指标统计值存入第二数据库;接收查询请求,所述查询请求包括时间窗口和至少一个维度的特征指标;读取第一数据库中距当前时刻最近的上一个时间周期节点与当前时刻的时间间隔内的特征信息;读取第二数据库中距当前时刻最近的上一个时间周期节点的所述的至少一个维度的特征指标统计值;读取第二数据库中所述时间窗口的起始时刻临近的一个时间周期节点的所述的至少一个维度的特征指标统计值;针对不同维度,将读取的第二数据库的两个时间周期节点的特征指标统计值进行相减,从而得到第二数据库的两个时间周期节点的所述的至少一个维度的特征指标统计值的差量;基于所述第一数据库中读取的特征信息和所述第二数据库的两个时间周期节点的所述的至少一个维度的特征指标统计值的差量,重新计算所述时间窗口内的所述至少一个维度的特征指标;返回合并计算后的所述时间窗口内的所述至少一个维度的特征指标。...

【技术特征摘要】
1.一种网络行为特征的差量计算方法,其特征在于,所述方法包括:持续获取用户网络行为的特征信息;将距离当前时刻最近的一个时间周期内的所述的特征信息存入第一数据库;按一个时间周期定期拉取所述的特征信息,并根据所述特征信息计算一个时间周期内的各个维度的特征指标;针对不同维度,将当前时间周期内计算获得的特征指标与上一个时间周期节点的特征指标统计值进行累加,得到当前时间周期节点的各个维度的特征指标统计值,并将所述当前时间周期节点的各个维度的特征指标统计值存入第二数据库;接收查询请求,所述查询请求包括时间窗口和至少一个维度的特征指标;读取第一数据库中距当前时刻最近的上一个时间周期节点与当前时刻的时间间隔内的特征信息;读取第二数据库中距当前时刻最近的上一个时间周期节点的所述的至少一个维度的特征指标统计值;读取第二数据库中所述时间窗口的起始时刻临近的一个时间周期节点的所述的至少一个维度的特征指标统计值;针对不同维度,将读取的第二数据库的两个时间周期节点的特征指标统计值进行相减,从而得到第二数据库的两个时间周期节点的所述的至少一个维度的特征指标统计值的差量;基于所述第一数据库中读取的特征信息和所述第二数据库的两个时间周期节点的所述的至少一个维度的特征指标统计值的差量,重新计算所述时间窗口内的所述至少一个维度的特征指标;返回合并计算后的所述时间窗口内的所述至少一个维度的特征指标。2.如权利要求1所述的方法,其特征在于,所述持续获取用户网络行为的特征信息的步骤之后还包括:将所述特征信息存入消息队列中;进一步,所述将距离当前时刻最近的一个时间周期内的所述的特征信息存入第一数据库的步骤包括:将所述消息队列中距离当前时刻最近的一个时间周期内的特征信息存入第一数据库;进一步,所述按一个时间周期定期拉取所述的特征信息,并根据所述特征信息计算一个时间周期内的各个维度的特征指标的步骤包括:按一个时间周期定期拉取所述消息队列中的特征信息,并根据所述特征信息计算一个时间周期内的各个维度的特征指标。3.如权利要求1所述的方法,其特征在于,所述根据所述特征信息计算一个时间周期内的各个维度的特征指标的步骤包括:针对所述特征信息的每一维度,将所述特征信息的同一维度的特征属性进行聚合;将所述聚合后的同一维度的特征属性按照预先定义的计算类型计算,从而得到一个时间周期内的各个维度的特征指标。4.如权利要求1所述的方法,其特征在于,所述读取第一数据库中距当前时刻最近的上一个时间周期节点与当前时刻的时间间隔内的特征信息的步骤包括:读取第一数据库中距当前时刻最近的上一个时间周期节点与当前时刻的时间间隔内的所述的至少一个维度的特征信息。5.如权利要求1所述的方法,其特征在于,所述读取第二数据库中所述时间窗口的起始时刻临近的一个时间周期节点的所述的至少一个维度的特征指标统计值的步骤包括:在信贷场景下,读取第二数据库中所述时间窗口的起始时刻最近的上一个时间周期节点的所述的至少一个维度的特征指标统计值;在面向客户服务场景下,读取第二数据库中所述时间窗口的起始时刻最近的下一个时间周期节点的所述的至少一个维度的特征指标统计值。6.如权利要求1所述的方法,其特征在于,所述基于所述第一数据库中读取的特征信息和所述第二数据库的两个时间周期节点的所述的至少一个维度的特征指标统计值的差量,重新计算所述时间窗口内的所述至少一个维度的特征指标的步骤包括:针对不同维度,将所述第一...

【专利技术属性】
技术研发人员:方强王桥石陈昌龙张新波
申请(专利权)人:同盾科技有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1