The invention discloses a user credit evaluation method and device, which belongs to the field of information security. The method includes: obtaining the first behavior sequence of the user and the second behavior sequence of at least one associated user; input the first behavior sequence of the user into the first recurrent neural network, get the user's first sequence feature representation, and input the second behavior sequence of the associated user to the second recurrent neural network, and get the associated user. The second sequence feature representation, the first sequence feature representation and the second sequence characteristics represent the input stall self encoder, and the user's combination feature derivation representation is obtained; the user's combination feature is derived to represent the input classifier, and the user's credit evaluation data are obtained. The invention automatically carries out feature extraction and feature combination derivation, and solves the problems of incomplete, low efficiency and high computing cost with the combination of artificial extraction features and artificial design, which can achieve the effect of comprehensive feature coverage, efficiency improvement and lower calculation cost.
【技术实现步骤摘要】
用户信用评估方法及装置
本专利技术实施例涉及信息安全领域,特别涉及一种用户信用评估方法及装置。
技术介绍
征信模型是用于根据用户的行为数据计算用户的信用评分的数据模型。征信模型广泛应用于互联网金融中的信用评估。构建一个征信模型主要经历四个阶段:(1)基础特征抽取;(2)特征组合衍生;(3)征信模型构建;(4)模型效果验证。基础特征抽取用于从用户的行为数据中抽取与信用评估有关的特征;特征组合衍生用于将基础特征抽取阶段抽取到的特征进行组合,得到组合特征衍生表示;征信模型构建用于根据特征组合衍生阶段得到的组合特征衍生表示构建征信模型;模型效果验证用于对构建的征信模型进行使用效果的验证。其中,基础特征抽取和特征组合衍生被称为特征工程,特征工程通常需要人工参与完成。基础特征抽取通常是通过人工从用户的行为数据中抽取与信用评估有关的特征,比如:抽取用户某种行为发生的天数、次数、频率等。在特征组合衍生阶段,由于现有的征信模型所使用的分类器大多属于线性分类器,线性分类器不能自动地捕捉特征之间的交互关系,因此输入到分类器中的特征需要通过人工进行组合。由于用户的行为数据中存在无法确切测量的特征,这类特征被称为隐含特征,隐含特征之间可能存在关联关系;而基于人工的基础特征抽取无法抽取隐含特征,并且也无法利用隐含特征之间的关联关系,从而产生基础特征抽取不全面的问题。另外,由于人工设计组合衍生特征通常是依赖人的先验知识,也可能产生考虑不全面的问题。并且随着基础特征数量的增加,特征组合的规模也会快速增长,靠人工进行基础特征抽取和特征组合衍生效率低、计算成本高。
技术实现思路
为了解决现有技术 ...
【技术保护点】
1.一种用户信用评估方法,其特征在于,所述方法包括:获取用户的第一行为序列和至少一个关联用户的第二行为序列,所述关联用户是在社交网络与所述用户存在关联的其他用户;将所述用户的第一行为序列输入第一循环神经网络,得到所述用户的第一序列特征表示;将所述关联用户的第二行为序列输入第二循环神经网络,得到所述关联用户的第二序列特征表示;将所述第一序列特征表示和所述第二序列特征表示输入栈式自编码器,得到所述用户的组合特征衍生表示;将所述用户的组合特征衍生表示输入分类器,得到所述用户的信用评估数据;其中,所述第一循环神经网络、所述第二循环神经网络和所述栈式自编码器中的模型参数是利用样本序列数据进行训练后确定的,所述第一循环神经网络和所述第二循环神经网络中的模型参数相同。
【技术特征摘要】
1.一种用户信用评估方法,其特征在于,所述方法包括:获取用户的第一行为序列和至少一个关联用户的第二行为序列,所述关联用户是在社交网络与所述用户存在关联的其他用户;将所述用户的第一行为序列输入第一循环神经网络,得到所述用户的第一序列特征表示;将所述关联用户的第二行为序列输入第二循环神经网络,得到所述关联用户的第二序列特征表示;将所述第一序列特征表示和所述第二序列特征表示输入栈式自编码器,得到所述用户的组合特征衍生表示;将所述用户的组合特征衍生表示输入分类器,得到所述用户的信用评估数据;其中,所述第一循环神经网络、所述第二循环神经网络和所述栈式自编码器中的模型参数是利用样本序列数据进行训练后确定的,所述第一循环神经网络和所述第二循环神经网络中的模型参数相同。2.根据权利要求1所述的方法,其特征在于,所述第一循环神经网络包括第一长短记忆网络LSTM单元和第一平均池化单元,每个所述第一LSTM单元包括输入层和隐藏层;所述第一行为序列包括n个时序上连续的向量,每个所述向量对应所述用户的1个行为数据,n为正整数;所述将所述用户的第一行为序列输入第一循环神经网络,得到所述用户的第一序列特征表示,包括:将所述n个时序上连续的向量按照时序顺序分别输入n个所述第一LSTM单元,得到n个所述第一LSTM单元的隐藏层输出的向量,将n个所述隐藏层输出的向量组成第一矩阵,其中,第i+1个所述第一LSTM单元的输入包括第i个所述第一LSTM单元的隐藏层的输出和第i+1个所述第一LSTM单元的输入层的输出,i为正整数,i<i+1<n;将所述第一矩阵输入所述第一平均池化单元,得到所述用户的第一序列特征表示,所述第一平均池化单元用于对所述第一矩阵中的每列元素求平均。3.根据权利要求1所述的方法,其特征在于,所述第二循环神经网络包括第二LSTM单元和第二平均池化单元,每个所述第二LSTM单元包括输入层和隐藏层;所述第二行为序列包括m个时序上连续的向量,每个所述向量对应所述关联用户的1个行为数据,m为正整数;所述将所述关联用户的第二行为序列输入第二循环神经网络,得到所述关联用户的第二序列特征表示,包括:将所述m个时序上连续的向量按照时序顺序分别输入m个所述第二LSTM单元,得到m个所述第二LSTM单元的隐藏层输出的向量,将m个所述隐藏层输出的向量组成第二矩阵,其中,第i+1个所述第二LSTM单元的输入包括第i个所述第二LSTM单元的隐藏层的输出和第i+1个所述第二LSTM单元的输入层的输出,i为正整数,i<i+1<m;将所述第二矩阵输入所述第二平均池化单元,得到所述关联用户的第二序列特征表示;其中,当所述第二行为序列的数量为一个时,所述第二平均池化单元用于对所述第二矩阵中的每列元素求平均;当所述第二行为序列的数量为p个时,所述第二平均池化单元用于对每个所述第二矩阵中的每列元素求平均得到的p个所述第二序列特征表示求平均,p为正整数,p>1。4.根据权利要求1至3任一所述的方法,其特征在于,所述第一循环神经网络在训练时包括第一LSTM单元、第一平均池化单元和第一训练分类器;所述第一循环神经网络的训练过程包括如下步骤:获取所述样本序列数据,所述样本序列数据包括:样本用户的第一样本行为序列、至少一个关联样本用户的第二样本行为序列和所述样本用户的标签数据,所述标签数据是对所述样本用户的信用进行标注后的标签,所述关联样本用户是在社交网络与所述样本用户存在关联的其他用户;将所述第一样本行为序列输入所述第一LSTM单元,得到训练特征序列;将所述训练特征序列输入所述第一平均池化单元,得到训练样本序列特征表示;将所述训练样本序列特征表示输入所述第一训练分类器,得到第一预测数据;将所述第一预测数据和所述标签数据代入第一损失函数,判断所述第一损失函数是否收敛到极小值;当所述第一损失函数没有收敛到极小值时,利用误差反向传播算法对所述第一LSTM单元的参数进行调整,直到所述第一损失函数收敛到极小值;当所述第一损失函数收敛到极小值时,将调整后的所述第一LSTM单元的参数确定为所述第一循环神经网络的模型参数。5.根据权利要求1所述的方法,其特征在于,所述栈式自编码器包括k层受限玻尔兹曼机RBM,每个所述RBM包括输入层和隐藏层,k为正整数;所述将所述第一序列特征表示和所述第二序列特征表示输入栈式自编码器,得到所述用户的组合特征衍生表示,包括:将所述第一序列特征表示和所述第二序列特征表示进行拼接,得到所述用户的序列特征表示;将所述用户的序列特征表示输入所述栈式自编码器,所述栈式自编码器的第i+1层所述RBM的输入层的输入为第i层所述RBM的隐藏层的输出,i为正整数,i<i+1<k;将第k层所述RBM的隐藏层的输出作为所述用户的组合特征衍生表示。6.根据权利要求1或5所述的方法,其特征在于,所述栈式自编码器在训练时包括k层受限玻尔兹曼机RBM和第二训练分类器,k为正整数;所述栈式自编码器的训练过程包括如下步骤:将样本用户的序列特征表示输入所述栈式自编码器,所述样本用户的序列特征表示是根据所述样本序列数据计算得到的;在预训练阶段,分别对每层所述RBM进行无监督学习训练,得到预训练后的RBM参数;在精调阶段,结合所述第二训练分类器对k层所述RBM进行有监督学习训练,所述有监督学习训练用于调整所述预训练后的RBM参数。7.根据权利要求6所述的方法,其特征在于,每个所述RBM在训练时包括输入层、隐藏层和输出层;所述在预训练阶段,分别对每层所述RBM进行无监督学习训练,得到预训练后的RBM参数,包括:在对第i层所述RBM进行训练时,将预定特征表示输入第i层所述RBM的输入层,根据第i层所述RBM的第i权重矩阵和第i偏置向量计算第i层所述RBM的输出层的数据;将第i层所述RBM的输入层的数据和输出层的数据代入第二损失函数,判断所述第二损失函数是否收敛到极小值;当所述第二损失函数没有收敛到极小值时,调整所述第i权重矩阵和所述第i偏置向量,将第i层所述RBM的输入层的数据和调整后的第i层所述RBM的输出层的数据代入所述第二损失函数,直到所述第二损失函数收敛到极小值;当所述第二损失函数收敛到极小值时,将调整后的所述第i权重矩阵和所述第i偏置向量确定为所述预训练后的RBM参数;其中,第i层所述RBM的隐藏层的输出作为第i+1层所述RBM的输入层的输入,i为正整数,i为1时所述预定特征表示是所述样本用户的序列特征表示,i大于1时所述预定特征表示是第i-1层所述RBM的隐藏层的输出,i<i+1<k。8.根据权利要求6所述的方法,其特征在于,所述在精调阶段,结合所述第二训练分类器对k层所述RBM进行有监督学习训练,包括:将第k层所述RBM的隐藏层的输出作为训练组合特征衍生表示输入给所述第二训练分类器,得到第二预测数据;将所述第二预测数据和所述标签数据代入第三损失函数,判断所述第三损失函数是否收敛到极小值;当所述第三损失函数没有收敛到极小值时,利用误差反向传播算法对每层所述RBM的隐藏层的权重矩阵和偏置向量进行调整,直到所述第三损失函数收敛到极小值;当所述第三损失函数收敛到极小值时,将调整后的每层所述RBM的隐藏层的权重矩阵和偏置向量确定为所述栈式自编码器的模型参数。9.根据权利要求6所述的方法,其特征在于,所述第一循环神经网络包括第一LSTM单元和第一平均池化单元;所述第二循环神经网络包括第二LSTM单元和第二平均池化单元;所述样本序列数据包括所述样本用户的第一样本行为序列、至少一个关联样本用户的第二样本行为序列和所述样本用户的标签数据,所述标签数据是对所述样本用户的信用进行标注后的标签,所述关联样本用户是在社交网络与所述样本用户存在关联的其他用户;所述将样本用户的序列特征表示输入所述栈式自编码器之前,还包括:将所述第一样本行为序列输入所述第一LSTM单元,得到所述样本用户的第一特征序列;将所述第一特征序列输入所述第一平均池化单元,得到第一样本序列特征表示;将所述第二样本行为序列输入所述第二LSTM单元,得到所述关联样本用户的第二特征序列,所述第二LSTM单元的参数与所述第一LSTM单元的参数相同;将所述第二特征序列输入所述第二平均池化单元,得到第二样本序列特征表示;将所述第一样本序列特征表示和所述第二样本序列特征表示进行拼接,得到所述样本用户的序列特征表示,所述样本用户的序列特征表示是所述栈式自编码器的输入;其中,当所述第二样本行为序列的数量为一个时,所述第二平均池化单元用于对所述第二特征序列求平均;当所述第二样本行为序列的数量为p个时,所述第二平均池化单元用于对每个所述第二特征序列求平均得到的p个所述第二样本序列特征表示求平均,p为正整数,p>1。10.根据权利要求1至9任一所述的方法,其特征在于,所述获取用户的第一行为序列和至少一个关联用户的第二行为序列,包括:获取所述用户的第一行为序列所包括的n个向量,将所述n个向量映射到同一值域空间中,n为正整数;获取所述关联用户的第二行为序列所包括的m个向量,将所述m个向量映射到所述同一值域空间中,m为正整数。11.一种用户信用评估装置,其特征在于,所述装置包括:第一获取模块,用于获取用户的第一行为序列和至少一个关联用户的第二行为序列,所述关联用户是在社交网络与所述用户存在关联的其他用户;第一计算模块,用于将所述第一获取模块获取的所述用户的第一行为序列输入第一循环神经网络,得到所述用户的第一序列特征表示;第二计算模块,用于将所述第一获取模块获取的所述关联用户的第二行为序列输入第二循环神...
【专利技术属性】
技术研发人员:段培,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。