一种获取时间窗口模型参数的方法和系统技术方案

技术编号:9462832 阅读:104 留言:0更新日期:2013-12-19 00:09
本申请提供了一种获取时间窗口模型参数的方法和系统,涉及计算机技术领域。所述方法包括:针对各条记录数据,将属于同一主体的各条记录数据分配到同一个服务器中;将每个服务器中的属于同一主体的各条记录数据按记录的时间顺序排列;针对每个服务器,从记录数据列表表头的记录数据开始,逐条将记录数据的时间点和内容分别加入时间队列和内容队列,时间队列和内容队列按序一一对应;其中,利用时间队列筛选属于同一主体的符合时间段阈值范围的记录数据,利用内容队列计算对应每条记录数据的目标值;将所述目标值作为时间窗口模型参数,并结合相应记录数据对应的主体进行输出。本申请在计算海量数据的时间窗口模型参数时提高了效率,具有可扩展性。

【技术实现步骤摘要】
一种获取时间窗口模型参数的方法和系统
本申请涉及计算机
,特别是涉及一种获取时间窗口模型参数的方法和系统。
技术介绍
随着网络的发展,对于网络用户的用户行为,比如使用网上银行进行交易,需要利用一些模型(如逻辑回归模型等)判断当前这笔用户行为是否异常(盗用,欺诈,套现等),而这些模型需要用到用户的历史交易行为等历史数据作为参数。在交易发生前的一段时间内的用户行为的统计值(包括交易行为,操作行为等)对判断当前交易是否异常(盗用,欺诈,套现等)具有至关重要的作用,在本文中这种类型的参数称作时间窗口模型参数。时间窗口模型参数的一般定义为:指当前事件的主体往前回溯一段时间该主体所参与事件的统计值。如计算当前交易的卖家在过去30天(包括当前这笔交易)交易金额的累加和。在实际中,通过该参数建立模型分析用户行为是否异常。目前在传统数据仓库中计算这类时间窗口模型参数时,一般采用固定时间段来近似计算,也就是说粒度是到天而不是到每笔用户行为,比如买家或卖家的每笔交易行为。如在T日某位卖家发生的所有交易,那么计算他最近30天交易资金累加和,那就是(T-30)日直到T日所有交易的累加和。该种方案计算量小本文档来自技高网...
一种获取时间窗口模型参数的方法和系统

【技术保护点】
一种获取时间窗口模型参数的方法,其特征在于,包括:针对各条记录数据,将属于同一主体的各条记录数据分配到同一个服务器中;将每个服务器中的属于同一主体的各条记录数据按记录的时间顺序排列;针对每个服务器,从记录数据列表表头的记录数据开始,逐条将记录数据的时间点和内容分别加入时间队列和内容队列,时间队列和内容队列按序一一对应;其中,利用时间队列筛选属于同一主体的符合时间段阈值范围的记录数据,利用内容队列计算对应每条记录数据的目标值;将所述目标值作为时间窗口模型参数,并结合相应记录数据对应的主体进行输出。

【技术特征摘要】
1.一种获取时间窗口模型参数的方法,其特征在于,包括:针对各条记录数据,将属于同一主体的各条记录数据分配到集群中的同一个服务器中;将每个服务器中的属于同一主体的各条记录数据按记录的时间顺序排列;针对每个服务器,从记录数据列表表头的记录数据开始,逐条将记录数据的时间点和内容分别加入时间队列和内容队列,时间队列和内容队列按序一一对应;其中,利用时间队列筛选属于同一主体的符合时间段阈值范围的记录数据,利用内容队列计算对应每条记录数据的目标值;将所述目标值作为时间窗口模型参数,并结合相应记录数据对应的主体进行输出。2.根据权利要求1所述的方法,其特征在于,所述利用时间队列筛选属于同一主体的符合时间段阈值范围的记录数据,利用内容队列计算对应每条记录数据的目标值包括:步骤A1,判断当前待处理的记录数据的主体是否与当前时间队列和内容队列的主体不同;若不同,转入步骤A2;若相同,转入步骤A3;步骤A2,则将时间队列和内容队列清空,并将当前记录数据主体作为时间队列和内容队列的主体,转入步骤A3;步骤A3,将当前记录数据的时间点加入时间队列,将当前记录数据的内容加入内容队列,保持当前时间队列队尾的时间点与队首的时间点的差距符合预置的时间段范围,并保持内容队列与时间队列一致;其中时间队列时间点和内容队列的内容值按加入顺序一一对应;步骤A4,利用内容队列的内容值计算当前记录数据的目标值。3.根据权利要求2所述的方法,其特征在于,所述步骤A3包括:步骤S3,将当前待处理的一条记录数据的时间点加入时间队列,和将所述记录数据的记录内容加入内容队列;其中,其中时间队列时间点和内容队列的内容值按加入顺序一一对应;步骤S4,判断当前待处理的一条记录数据的时间点与时间队列的队首的时间点相距的时间段是否大于阈值;如果大于,转入步骤S5;如果小于或等于,则转入步骤A4;步骤S5,将时间队列队首时间点从队列移除,并同时将内容队列的队首内容值移除,转入步骤S4。4.根据权利要求2或3所述的方法,其特征在于,所述步骤A4包括:基于新加入内容队列的内容值,和/或前一条记录数据的目标值,和/或被移除内容队列的队首值,计算当前记录数据对应的目标值。5.根据权利要求4所述的方法,其特征在于,将所述目标值作为时间窗口模型参数,并结合相应记录数据对应的主体进行输出时还包括:将当前记录数据的时间点、和/或卖家id、和/或买家id、和/或金额进行输出。6.根据权利要求1所述的方法,其特征在于,所述目标值包括:当前记录数据对应的内容队列的求和、内容队列的求最大值、内容队列的求最小值、当前记录数据对应的记录总数。7.根据权利要...

【专利技术属性】
技术研发人员:俞文明刘红星
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1