一种面向时序数据的风险预测方法及系统技术方案

技术编号:24800904 阅读:44 留言:0更新日期:2020-07-07 21:16
本发明专利技术公开了一种面向时序数据的风险预测方法及系统,包括:获取样本集合中每个风险事件的时间信息和内容信息;将事件信息通过词嵌入技术转换为等维度高维向量;用风险事件向量对预设的预测模型进行训练,获得训练后的风险预测网络模型;用获得的风险预测网络模型处理待预测的风险事件,输出风险事件的风险水平和影响水平的因素所占比重。本发明专利技术通过注意力机制和深度网络,可以在保证模型高精确度的前提下,并行训练网络而且可对预测结果进行分析,可解释性强,具有说服力。

【技术实现步骤摘要】
一种面向时序数据的风险预测方法及系统
本专利技术属于数据处理和机器学习
,特别涉及一种面向时序数据的风险预测方法及系统。
技术介绍
在过去的十年中,诸如个人信用消费记录、医疗临床数据、信息系统安全数据的快速积累和传播,为风险事件预测提供了可能性。利用传统的机器学习方法来处理这些时序性、异质性和高维性的数据,会给算法带来极大的困难和挑战。现有的循环神经网络模型虽然可以处理海量的数据并且获得较为满意的效果,但是其仍然存在较大问题。首先,循环神经网络模型不能处理长时序数据,其性能会随着时序数据的增加而快速下降;而且,循环神经网络模型因为本身结构的原因不能并行训练网络模型,模型训练耗费大量时间;最后,循环神经网络模型最终只能输出风险事件的预测结果,并不能对预测结果进行详细且有效的解释,降低了模型的说服力。综上,亟需一种新的面向时序数据的可解释可并行的风险预测方法及系统。
技术实现思路
本专利技术的目的在于提供一种面向时序数据的风险预测方法及系统,进而至少在一定程度上克服由于上述相关技术的限制和缺陷而导致的一个或多个技术问题。为达到上述目的,本专利技术采用以下技术方案:本专利技术的一种面向时序数据的风险预测方法,包括以下步骤:步骤1,获取预设数量已判断的风险事件样本集合,提取风险事件样本集合中的事件实体和事件发生时间,组成时间-事件二元组集合,构造获得风险事件数据集;步骤2,将风险事件数据集中的二元组数据映射为等维度的向量,获得与每个风险事件一一对应的时间-事件二元组实体向量集合;其中,映射时采用词嵌入操作,时间-事件二元组实体向量包括时间向量e和事件向量v;步骤3,将步骤2获得的时间-事件二元组实体向量中的时间向量e与事件向量v进行向量加操作,获得包含时序特征和事件特征的词向量h;步骤4,将步骤3获得的词向量h输入到预设的自注意力子网络模型进行计算处理,获得更新后的词向量h’;步骤5,将步骤4获得的更新后的词向量h’输入到预定义好的基于位置的注意力子网络模型进行计算,获得风险事件的表征向量c;步骤6,将步骤5获得的风险事件的表征向量c输入到线性分类器中分类,获得事件出现风险的概率;步骤7,计算整个风险事件预测模型的损失,反向传播更新网络的参数权重,获得训练后的网络模型;所述风险事件预测模型包括:自注意力子网络模型和基于位置的注意力子网络模型;所述自注意力子网络模型的输出为所述基于位置的注意力子网络模型的输入;步骤8,重复步骤7,直至风险事件预测模型结果满足预设收敛条件,获得训练好的风险事件预测模型;步骤9,将待预测的风险事件输入步骤8获得的训练好的风险事件预测模型中,获取风险事件预测信息;其中,所述风险事件预测信息包括:风险事件发生的概率、影响风险事件结果的因素所占的比重。本专利技术的进一步改进在于,步骤1中,提取风险事件样本集合中的事件实体时,同一事件实体只提取一次;提取获得的事件实体包含一个或多个子事件信息。本专利技术的进一步改进在于,步骤2中,词嵌入操作采用基于预测的跳字模型;其中,映射获得的等维度的向量的维度大于等于50且小于等于100。本专利技术的进一步改进在于,步骤4中,预设的自注意力子网络模型包括:MatMul层,用于计算两个输入向量的相似度;Scale层,用于正则化MatMul层输出的相似度;Mask层,用于将Scale层输出的相似度变长向量固定为定长向量;其中,MatMul层的输出作为Scale层的输入,Scale层的输出作为Mask层输入。本专利技术的进一步改进在于,步骤4中,初始化的自注意力子网络模型的权重参数包括W(Q)、W(K)、W(V),用于和步骤3获得的词向量h进行点乘操作,生成自注意力子网络模型的输入向量;其中,词向量h与权重参数W(Q)、W(K)、W(V)进行点乘得到Q、K、V三个向量,经过MatMul层,Q向量和K向量做点乘操作,计算每个子事件与其他子事件的相似度向量;然后,进入Scale层,对相似度进行正则化操作;然后,在Mask层对正则化后的相似度向量进行对齐操作,将变长的正则化后的相似度向量统一为固定长度,得到向量A;最后,再经过一次MatMul层,A向量与V向量进行点乘操作,输出更新后的词向量h’。本专利技术的进一步改进在于,步骤5中,预定义好的基于位置的注意力子网络模型包括:线性计算,用于将子事件之间的位置信息加入子事件表征向量;softmax函数,用于把线性计算操作输出的子事件表征向量中的元素映射到0~1之间;加权平均操作,用于综合各风险子事件的特征αi生成风险事件的表征向量c。本专利技术的进一步改进在于,步骤5中,首先,对词向量h’进行线性计算,获得含有位置信息的向量g,表达式为:式中,和bα为风险事件预测模型需要训练的权重参数项和偏置项;然后,对向量集g={g1,g2…gn}进行softmax操作,获得向量集α={α1,α2…αn},表达式为:α1,α2…αn=softmax(g1,g2…gn),式中,α={α1,α2…αn}代表各子风险事件的表征向量,g={g1,g2…gn}代表含有位置信息的词向量;再后,将向量集α和词向量h’进行加权求和,获得风险事件的表征向量c,表达式为:式中,αi代表各风险子事件的表征向量,h′i代表词向量,c代表风险事件的表征向量。本专利技术的进一步改进在于,步骤6中,所述线性分类器包括:全连接层,用于实现输入数据的全连接操作;softmax层,用于输出预测分类概率;其中,全连接层的输出作为softmax层的输入。本专利技术的进一步改进在于,步骤7中,风险事件预测模型的损失函数采用交叉熵损失函数L,计算表达式为:式中,L为网络损失,y为风险事件真实概率,为网络预测的事件概率。本专利技术的一种面向时序数据的风险预测系统,包括:样本处理模块,用于获取预设数量已判断的风险事件样本集合,提取风险事件样本集合中的事件实体和事件发生时间,组成时间-事件二元组集合,构造获得风险事件数据集;将风险事件数据集中的二元组数据映射为等维度的向量,获得与每个风险事件一一对应的时间-事件二元组实体向量集合;其中,映射采用词嵌入操作;时间-事件二元组实体向量包括时间向量e和事件向量v;风险预测网络模型模块,包括:预设的自注意力子网络模型、预定义好的基于位置的注意力子网络模型和线性分类器;用于将获得的时间-事件二元组实体向量中的时间向量e与事件向量v进行向量加操作,获得包含时序特征和事件特征的词向量h;用于将词向量h输入到预设的self-attention子网络模型进行计算处理,获得更新后的词向量h’;用于将获得的更新后的词向量h’输入到预定义好的positive-levelattention子网络模型进行计算,获得风险事件的表征向量c;用于将获得的风险事件的表征向量c输入到线性分类器中分类,获本文档来自技高网...

【技术保护点】
1.一种面向时序数据的风险预测方法,其特征在于,包括以下步骤:/n步骤1,获取预设数量已判断的风险事件样本集合,提取风险事件样本集合中的事件实体和事件发生时间,组成时间-事件二元组集合,构造获得风险事件数据集;/n步骤2,将风险事件数据集中的二元组数据映射为等维度的向量,获得与每个风险事件一一对应的时间-事件二元组实体向量集合;其中,映射时采用词嵌入操作,时间-事件二元组实体向量包括时间向量e和事件向量v;/n步骤3,将步骤2获得的时间-事件二元组实体向量中的时间向量e与事件向量v进行向量加操作,获得包含时序特征和事件特征的词向量h;/n步骤4,将步骤3获得的词向量h输入到预设的自注意力子网络模型进行计算处理,获得更新后的词向量h’;/n步骤5,将步骤4获得的更新后的词向量h’输入到预定义好的基于位置的注意力子网络模型进行计算,获得风险事件的表征向量c;/n步骤6,将步骤5获得的风险事件的表征向量c输入到线性分类器中分类,获得事件出现风险的概率;/n步骤7,计算风险事件预测模型的损失,反向传播更新网络的参数权重,获得训练后的网络模型;所述风险事件预测模型包括:自注意力子网络模型和基于位置的注意力子网络模型;所述自注意力子网络模型的输出为所述基于位置的注意力子网络模型的输入;/n步骤8,重复步骤7,直至风险事件预测模型结果满足预设收敛条件,获得训练好的风险事件预测模型;/n步骤9,将待预测的风险事件输入步骤8获得的训练好的风险事件预测模型中,获取风险事件预测信息;其中,所述风险事件预测信息包括:风险事件发生的概率、影响风险事件结果的因素所占的比重。/n...

【技术特征摘要】
1.一种面向时序数据的风险预测方法,其特征在于,包括以下步骤:
步骤1,获取预设数量已判断的风险事件样本集合,提取风险事件样本集合中的事件实体和事件发生时间,组成时间-事件二元组集合,构造获得风险事件数据集;
步骤2,将风险事件数据集中的二元组数据映射为等维度的向量,获得与每个风险事件一一对应的时间-事件二元组实体向量集合;其中,映射时采用词嵌入操作,时间-事件二元组实体向量包括时间向量e和事件向量v;
步骤3,将步骤2获得的时间-事件二元组实体向量中的时间向量e与事件向量v进行向量加操作,获得包含时序特征和事件特征的词向量h;
步骤4,将步骤3获得的词向量h输入到预设的自注意力子网络模型进行计算处理,获得更新后的词向量h’;
步骤5,将步骤4获得的更新后的词向量h’输入到预定义好的基于位置的注意力子网络模型进行计算,获得风险事件的表征向量c;
步骤6,将步骤5获得的风险事件的表征向量c输入到线性分类器中分类,获得事件出现风险的概率;
步骤7,计算风险事件预测模型的损失,反向传播更新网络的参数权重,获得训练后的网络模型;所述风险事件预测模型包括:自注意力子网络模型和基于位置的注意力子网络模型;所述自注意力子网络模型的输出为所述基于位置的注意力子网络模型的输入;
步骤8,重复步骤7,直至风险事件预测模型结果满足预设收敛条件,获得训练好的风险事件预测模型;
步骤9,将待预测的风险事件输入步骤8获得的训练好的风险事件预测模型中,获取风险事件预测信息;其中,所述风险事件预测信息包括:风险事件发生的概率、影响风险事件结果的因素所占的比重。


2.根据权利要求1所述的一种面向时序数据的风险预测方法,其特征在于,
步骤1中,提取风险事件样本集合中的事件实体时,同一事件实体只提取一次;提取获得的事件实体包含一个或多个子事件信息。


3.根据权利要求1所述的一种面向时序数据的风险预测方法,其特征在于,步骤2中,词嵌入操作采用基于预测的跳字模型;其中,映射获得的等维度的向量的维度大于等于50且小于等于100。


4.根据权利要求1所述的一种面向时序数据的风险预测方法,其特征在于,步骤4中,预设的自注意力子网络模型包括:
MatMul层,用于计算两个输入向量的相似度;
Scale层,用于正则化MatMul层输出的相似度;
Mask层,用于将Scale层输出的相似度变长向量固定为定长向量;
其中,MatMul层的输出作为Scale层的输入,Scale层的输出作为Mask层输入。


5.根据权利要求4所述的一种面向时序数据的风险预测方法,其特征在于,步骤4中,初始化的自注意力子网络模型的权重参数包括W(Q)、W(K)、W(V),用于和步骤3获得的词向量h进行点乘操作,生成自注意力子网络模型的输入向量;其中,词向量h与权重参数W(Q)、W(K)、W(V)进行点乘得到Q、K、V三个向量,经过MatMul层,Q向量和K向量做点乘操作,计算每个子事件与其他子事件的相似度向量;然后,进入Scale层,对相似度进行正则化操作;然后,在Mask层对正则化后的相似度向量进行对齐操作,将变长的正则化后的相似度向量统一为固定长度,得到向量A;最后,再经过一次MatMul层,A向量与V向量进行点乘操作,输出更新后的词向量h’。


6.根据权利要求2所述的一种面向时序数据...

【专利技术属性】
技术研发人员:钱步月潘迎港刘洋陈航卫荣李晓亮李扬张先礼
申请(专利权)人:西安交通大学
类型:发明
国别省市:陕西;61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1