事件序列数据的处理方法、装置、电子设备制造方法及图纸

技术编号:24411930 阅读:28 留言:0更新日期:2020-06-06 09:36
公开一种事件序列数据的处理方法。该方法包括:为预设的事件集中包含的各事件分别生成对应的初始化特征向量;从事件序列数据集合中依次读取事件序列数据,并计算与读取到的所述事件序列数据对应的共现矩阵;其中,所述共现矩阵为基于所述事件序列数据中包含的各事件之间的共现概率生成的矩阵;将所述共现矩阵中包含的共现概率作为约束,对所述事件集中包含的与所述共现概率相关的事件对应的初始化特征向量进行训练,得到与所述事件集中包含的各事件对应的输入特征向量;基于所述事件集所包含的事件对应的输入特征向量,对所述事件序列数据集合中的各事件序列数据进行编码。

Processing method, device and electronic equipment of event sequence data

【技术实现步骤摘要】
事件序列数据的处理方法、装置、电子设备
本申请涉及机器学习
,尤其涉及事件序列数据的处理方法、装置、电子设备。
技术介绍
机器学习技术在过去十年中发生了显著的变化,从在实验室的纯粹的学术研究到广泛应用在各个生产领域,比如:金融行业、电商零售行业,IT行业,医疗行业等。机器学习模型本质上就是一种算法,该算法试图从数据中学习潜在模式和关系,而不是通过代码构建一成不变的规则。伴随互联网以及移动互联网的发展和普及,互联网以及移动互联网的各种应用(比如:APP应用或Web应用)也被广泛使用。用户可以通过在各种应用进行对应的业务操作。例如,用户可以通过支付宝应用,进行支付、转账、商户签约等业务对应的业务操作。
技术实现思路
本申请提供一种事件序列数据的处理方法,所述方法包括:为预设的事件集中包含的各事件分别生成对应的初始化特征向量;从事件序列数据集合中依次读取事件序列数据,并计算与读取到的所述事件序列数据对应的共现矩阵;其中,所述共现矩阵为基于所述事件序列数据中包含的各事件之间的共现概率生成的矩阵;本文档来自技高网...

【技术保护点】
1.一种事件序列数据的处理方法,所述方法包括:/n为预设的事件集中包含的各事件分别生成对应的初始化特征向量;/n从事件序列数据集合中依次读取事件序列数据,并计算与读取到的所述事件序列数据对应的共现矩阵;其中,所述共现矩阵为基于所述事件序列数据中包含的各事件之间的共现概率生成的矩阵;/n将所述共现矩阵中包含的共现概率作为约束,对所述事件集中包含的与所述共现概率相关的事件对应的初始化特征向量进行训练,得到与所述事件集中包含的各事件对应的输入特征向量;/n基于与所述事件集所包含的各事件对应的输入特征向量,对所述事件序列数据进行编码;其中,编码完成的事件序列数据用于作为输入数据输入至机器学习模型进行计...

【技术特征摘要】
1.一种事件序列数据的处理方法,所述方法包括:
为预设的事件集中包含的各事件分别生成对应的初始化特征向量;
从事件序列数据集合中依次读取事件序列数据,并计算与读取到的所述事件序列数据对应的共现矩阵;其中,所述共现矩阵为基于所述事件序列数据中包含的各事件之间的共现概率生成的矩阵;
将所述共现矩阵中包含的共现概率作为约束,对所述事件集中包含的与所述共现概率相关的事件对应的初始化特征向量进行训练,得到与所述事件集中包含的各事件对应的输入特征向量;
基于与所述事件集所包含的各事件对应的输入特征向量,对所述事件序列数据进行编码;其中,编码完成的事件序列数据用于作为输入数据输入至机器学习模型进行计算。


2.根据权利要求1所述的方法,所述共现概率,为事件序列数据所包含的各目标事件,与所述各目标事件以外的各其它事件,在所述事件序列数据中共同出现的概率;
所述共现矩阵的行对应各目标事件,所述共现矩阵的列对应各目标事件以外的各其它事件;或者,所述共现矩阵的列对应各目标事件,所述共现矩阵的行对应各目标事件以外的各其它事件。


3.根据权利要求2所述的方法,所述各目标事件包括,将预设大小的滑动窗口在所述事件序列数据中进行滑动时,所述滑动窗口的中心事件;
所述方法还包括:
将预设大小的滑动窗口在所述事件序列数据中进行滑动,并确定每次滑动时所述滑动窗口的中心事件;
依次计算所述滑动窗口的中心事件,与所述事件序列数据中包含的所述中心事件以外的各其它事件,在所述事件序列数据中的共现概率。


4.根据权利要求3所述的方法,所述依次计算所述滑动窗口的中心事件,与所述事件序列数据中包含的所述中心事件以外的各其它事件,在所述事件序列数据中的共现概率,包括:
统计所述事件序列数据中包含的各中心事件以外的各其它事件,与所述中心事件的事件距离;
基于所述各其它事件与所述中心事件的事件距离,依次计算所述各其它事件与所述中心事件的共现概率。


5.根据权利要求4所述的方法,利用所述各其它事件与所述中心事件的事件距离的倒数,表征所述各其它事件与所述中心事件的共现概率。


6.根据权利要求1所述的方法,所述为预设的事件集中包含的各事件分别生成对应的初始化特征向量,包括:
为预设的事件集中包含的各事件分别随机生成对应的初始化特征向量。


7.根据权利要求1所述的方法,所述将所述共现矩阵中包含的共现概率作为约束,对所述事件集中包含的与所述共现概率相关的事件对应的初始化特征向量进行训练,得到与所述事件集中包含的各事件对应的输入特征向量,包括:
迭代执行以下训练步骤,直到得到与所述事件集中包含的各事件对应的输入特征向量:
将所述共现概率相关的事件对应的初始化特征向量,输入至以所述共现概率作为约束的损失函数,计算所述损失函数的输出值;其中,所述损失函数表征,与所述共现概率相关的事件对应初始化特征向量,逼近所述共现概率的程度;
调整所述初始化特征向量,求解所述损失函数的输出值的最小值;将求解出所述最小值时,输入至所述损失函数的调整后的所述初始化特征向量,确定为与所述共现概率相关的事件对应输入特征向量。


8.根据权利要求7所述的方法,所述损失函数表征,与所述共现概率相关的事件对应初始化特征向量的内积,逼近所述共现概率的对数的程度;
所述将所述共现概率相关的事件对应的初始化特征向量,输入至以所述共现概率作为约束的损失函数,计算所述损失函数的输出值,包括:
计算与所述共现概率相关的事件对应的初始化特征向量内积,并将计算出的所述内积输入至以所述共现概率的对数作为约束的损失函数,计算所述损失函数的输出值。


9.根据权利要求8所述的方法,所述损失函数基于以下公式表征:



其中,J表示损失函数的输出值;i和j表示所述事件集中任意的两个事件;表示事件i与事件j分别对应的初始化特征向量的内积;C(i,j)表示事件i和j在所述共现矩阵中的共现概率;E的取值大小为M2;M表示所述事件集包含的各事件的类别总数;f(x)表示权重函数。


10.根据权利要求9所述的方法,所述f(x)为以所述共现矩阵中包含的C(i,j)为变量的区间函数。


11.根据权利要求10所述的方法,所述f(x)基于以下公式表征:



其中,d表示0或者趋于0的极小值;S表示与所述共现矩阵中包含的C(i,j)对应的阈值。


12.根据权利要求1所述的方法,所述基于与所述事件集所包含的各事件对应的输入特征向量,对所述事件序列数据进行编码,包括:
基于与所述事件集所包含的各事件对应的输入特征向量,按照所述事件序列数据中的各事件的排列顺序进行向量拼接,得到与所述事件序列数据对应的事件序列向量。


13.根据权利要求1所述的方法,所述事件包括用户针对用户账户的操作行为事件;所述机器学习模型为针对用户账户进行风险识别的风险识别模型。


14.根据权利要求1所述的方法,所述事件序列数据集合包括正常的事件序列数据集合和异常的事件序列数据集合;
相应的,所述共现矩阵包括与从正常的事件序列数据集合中读取到的事件序列数据对应的第一共现矩阵,和与从异常的事件序列数据集合中读取到的事件序列数据对应的第二共现矩阵;
所述为预设的事件集中包含的各事件分别生成对应的初始化特征向量,包括:
为预设的事件集中包含的事件,分别生成与第一共现矩阵对应的初始化特征向量、与第二共现矩阵对应的初始化特征向量。


15.根据权利要求14所述的方法,所述将所述共现矩阵中包含的共现概率作为约束,对所述事件集中包含的与所述共现概率相关的事件对应的初始化特征向量进行训练,得到与所述事件集中包含的各事件对应的输入特征向量,包括:
基于预设的与所述第一共现矩阵对应的第一损失函数,以所述第一共现矩阵中包含的共现概率作为约束,对所述事件集中包含的与所述共现概率相关的事件对应的初始化特征向量进行训练,得到与所述第一共现矩阵对应的所述事件集中包含的各事件对应的第一输入特征向量;
基于预设的与所述第二共现矩阵对应预设的第二损失函数,以所述第二共现矩阵中包含的共现概率作为约束,对所述事件集中包含的与所述共现概率相关的事件对应的初始化特征向量进行训练,得到与所述第二共现矩阵对应的所述事件集中包含的各事件对应的第二输入特征向量;
将第一输入特征向量和第二输入特征向量,拼接生成与所述事件集中包含的各事件对应的输入特征向量。


16.根据权利要求15所述的方法,所述将第...

【专利技术属性】
技术研发人员:赖清泉侯宪龙徐莎贾佳方俊陈侃陈知己曾小英冯力国
申请(专利权)人:支付宝杭州信息技术有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1