【技术实现步骤摘要】
一种面向时序数据的风险预测方法及系统
本专利技术属于数据处理和机器学习
,特别涉及一种面向时序数据的风险预测方法及系统。
技术介绍
在过去的十年中,诸如个人信用消费记录、医疗临床数据、信息系统安全数据的快速积累和传播,为风险事件预测提供了可能性。利用传统的机器学习方法来处理这些时序性、异质性和高维性的数据,会给算法带来极大的困难和挑战。现有的循环神经网络模型虽然可以处理海量的数据并且获得较为满意的效果,但是其仍然存在较大问题。首先,循环神经网络模型不能处理长时序数据,其性能会随着时序数据的增加而快速下降;而且,循环神经网络模型因为本身结构的原因不能并行训练网络模型,模型训练耗费大量时间;最后,循环神经网络模型最终只能输出风险事件的预测结果,并不能对预测结果进行详细且有效的解释,降低了模型的说服力。综上,亟需一种新的面向时序数据的可解释可并行的风险预测方法及系统。
技术实现思路
本专利技术的目的在于提供一种面向时序数据的风险预测方法及系统,进而至少在一定程度上克服由于上述相关技术的限制和缺陷而导致的一个或多个技术问题。为达到上述目的,本专利技术采用以下技术方案:本专利技术的一种面向时序数据的风险预测方法,包括以下步骤:步骤1,获取预设数量已判断的风险事件样本集合,提取风险事件样本集合中的事件实体和事件发生时间,组成时间-事件二元组集合,构造获得风险事件数据集;步骤2,将风险事件数据集中的二元组数据映射为等维度的向量,获得与每个风险事件一一对应的时 ...
【技术保护点】
1.一种面向时序数据的风险预测方法,其特征在于,包括以下步骤:/n步骤1,获取预设数量已判断的风险事件样本集合,提取风险事件样本集合中的事件实体和事件发生时间,组成时间-事件二元组集合,构造获得风险事件数据集;/n步骤2,将风险事件数据集中的二元组数据映射为等维度的向量,获得与每个风险事件一一对应的时间-事件二元组实体向量集合;其中,映射时采用词嵌入操作,时间-事件二元组实体向量包括时间向量e和事件向量v;/n步骤3,将步骤2获得的时间-事件二元组实体向量中的时间向量e与事件向量v进行向量加操作,获得包含时序特征和事件特征的词向量h;/n步骤4,将步骤3获得的词向量h输入到预设的自注意力子网络模型进行计算处理,获得更新后的词向量h’;/n步骤5,将步骤4获得的更新后的词向量h’输入到预定义好的基于位置的注意力子网络模型进行计算,获得风险事件的表征向量c;/n步骤6,将步骤5获得的风险事件的表征向量c输入到线性分类器中分类,获得事件出现风险的概率;/n步骤7,计算风险事件预测模型的损失,反向传播更新网络的参数权重,获得训练后的网络模型;所述风险事件预测模型包括:自注意力子网络模型和基于位 ...
【技术特征摘要】
1.一种面向时序数据的风险预测方法,其特征在于,包括以下步骤:
步骤1,获取预设数量已判断的风险事件样本集合,提取风险事件样本集合中的事件实体和事件发生时间,组成时间-事件二元组集合,构造获得风险事件数据集;
步骤2,将风险事件数据集中的二元组数据映射为等维度的向量,获得与每个风险事件一一对应的时间-事件二元组实体向量集合;其中,映射时采用词嵌入操作,时间-事件二元组实体向量包括时间向量e和事件向量v;
步骤3,将步骤2获得的时间-事件二元组实体向量中的时间向量e与事件向量v进行向量加操作,获得包含时序特征和事件特征的词向量h;
步骤4,将步骤3获得的词向量h输入到预设的自注意力子网络模型进行计算处理,获得更新后的词向量h’;
步骤5,将步骤4获得的更新后的词向量h’输入到预定义好的基于位置的注意力子网络模型进行计算,获得风险事件的表征向量c;
步骤6,将步骤5获得的风险事件的表征向量c输入到线性分类器中分类,获得事件出现风险的概率;
步骤7,计算风险事件预测模型的损失,反向传播更新网络的参数权重,获得训练后的网络模型;所述风险事件预测模型包括:自注意力子网络模型和基于位置的注意力子网络模型;所述自注意力子网络模型的输出为所述基于位置的注意力子网络模型的输入;
步骤8,重复步骤7,直至风险事件预测模型结果满足预设收敛条件,获得训练好的风险事件预测模型;
步骤9,将待预测的风险事件输入步骤8获得的训练好的风险事件预测模型中,获取风险事件预测信息;其中,所述风险事件预测信息包括:风险事件发生的概率、影响风险事件结果的因素所占的比重。
2.根据权利要求1所述的一种面向时序数据的风险预测方法,其特征在于,
步骤1中,提取风险事件样本集合中的事件实体时,同一事件实体只提取一次;提取获得的事件实体包含一个或多个子事件信息。
3.根据权利要求1所述的一种面向时序数据的风险预测方法,其特征在于,步骤2中,词嵌入操作采用基于预测的跳字模型;其中,映射获得的等维度的向量的维度大于等于50且小于等于100。
4.根据权利要求1所述的一种面向时序数据的风险预测方法,其特征在于,步骤4中,预设的自注意力子网络模型包括:
MatMul层,用于计算两个输入向量的相似度;
Scale层,用于正则化MatMul层输出的相似度;
Mask层,用于将Scale层输出的相似度变长向量固定为定长向量;
其中,MatMul层的输出作为Scale层的输入,Scale层的输出作为Mask层输入。
5.根据权利要求4所述的一种面向时序数据的风险预测方法,其特征在于,步骤4中,初始化的自注意力子网络模型的权重参数包括W(Q)、W(K)、W(V),用于和步骤3获得的词向量h进行点乘操作,生成自注意力子网络模型的输入向量;其中,词向量h与权重参数W(Q)、W(K)、W(V)进行点乘得到Q、K、V三个向量,经过MatMul层,Q向量和K向量做点乘操作,计算每个子事件与其他子事件的相似度向量;然后,进入Scale层,对相似度进行正则化操作;然后,在Mask层对正则化后的相似度向量进行对齐操作,将变长的正则化后的相似度向量统一为固定长度,得到向量A;最后,再经过一次MatMul层,A向量与V向量进行点乘操作,输出更新后的词向量h’。
6.根据权利要求2所述的一种面向时序数据...
【专利技术属性】
技术研发人员:钱步月,潘迎港,刘洋,陈航,卫荣,李晓亮,李扬,张先礼,
申请(专利权)人:西安交通大学,
类型:发明
国别省市:陕西;61
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。