用户信用评估方法及装置制造方法及图纸

技术编号:18446210 阅读:27 留言:0更新日期:2018-07-14 10:54
本发明专利技术公开了一种用户信用评估方法及装置,属于信息安全领域。所述方法包括:获取用户的第一行为序列和至少一个关联用户的第二行为序列;将用户的第一行为序列输入第一循环神经网络,得到用户的第一序列特征表示;将关联用户的第二行为序列输入第二循环神经网络,得到关联用户的第二序列特征表示;将第一序列特征表示和第二序列特征表示输入栈式自编码器,得到用户的组合特征衍生表示;将用户的组合特征衍生表示输入分类器,得到用户的信用评估数据。本发明专利技术自动进行特征抽取和特征组合衍生,解决了人工抽取特征和人工设计组合衍生特征考虑不全面、效率低、计算成本高的问题,达到了特征覆盖全面、提高效率、降低计算成本的效果。

User credit evaluation method and device

The invention discloses a user credit evaluation method and device, which belongs to the field of information security. The method includes: obtaining the first behavior sequence of the user and the second behavior sequence of at least one associated user; input the first behavior sequence of the user into the first recurrent neural network, get the user's first sequence feature representation, and input the second behavior sequence of the associated user to the second recurrent neural network, and get the associated user. The second sequence feature representation, the first sequence feature representation and the second sequence characteristics represent the input stall self encoder, and the user's combination feature derivation representation is obtained; the user's combination feature is derived to represent the input classifier, and the user's credit evaluation data are obtained. The invention automatically carries out feature extraction and feature combination derivation, and solves the problems of incomplete, low efficiency and high computing cost with the combination of artificial extraction features and artificial design, which can achieve the effect of comprehensive feature coverage, efficiency improvement and lower calculation cost.

【技术实现步骤摘要】
用户信用评估方法及装置
本专利技术实施例涉及信息安全领域,特别涉及一种用户信用评估方法及装置。
技术介绍
征信模型是用于根据用户的行为数据计算用户的信用评分的数据模型。征信模型广泛应用于互联网金融中的信用评估。构建一个征信模型主要经历四个阶段:(1)基础特征抽取;(2)特征组合衍生;(3)征信模型构建;(4)模型效果验证。基础特征抽取用于从用户的行为数据中抽取与信用评估有关的特征;特征组合衍生用于将基础特征抽取阶段抽取到的特征进行组合,得到组合特征衍生表示;征信模型构建用于根据特征组合衍生阶段得到的组合特征衍生表示构建征信模型;模型效果验证用于对构建的征信模型进行使用效果的验证。其中,基础特征抽取和特征组合衍生被称为特征工程,特征工程通常需要人工参与完成。基础特征抽取通常是通过人工从用户的行为数据中抽取与信用评估有关的特征,比如:抽取用户某种行为发生的天数、次数、频率等。在特征组合衍生阶段,由于现有的征信模型所使用的分类器大多属于线性分类器,线性分类器不能自动地捕捉特征之间的交互关系,因此输入到分类器中的特征需要通过人工进行组合。由于用户的行为数据中存在无法确切测量的特征,这类特征被称为隐含特征,隐含特征之间可能存在关联关系;而基于人工的基础特征抽取无法抽取隐含特征,并且也无法利用隐含特征之间的关联关系,从而产生基础特征抽取不全面的问题。另外,由于人工设计组合衍生特征通常是依赖人的先验知识,也可能产生考虑不全面的问题。并且随着基础特征数量的增加,特征组合的规模也会快速增长,靠人工进行基础特征抽取和特征组合衍生效率低、计算成本高。
技术实现思路
为了解决现有技术中通过人工抽取特征和人工设计组合衍生特征导致的考虑不全面、效率低、计算成本高的问题,本专利技术实施例提供了一种用户信用评估方法及装置。所述技术方案如下:第一方面,提供了一种用户信用评估方法,所述方法包括:获取用户的第一行为序列和至少一个关联用户的第二行为序列,所述关联用户是在社交网络与所述用户存在关联的其他用户;将所述用户的第一行为序列输入第一循环神经网络,得到所述用户的第一序列特征表示;将所述关联用户的第二行为序列输入第二循环神经网络,得到所述关联用户的第二序列特征表示;将所述第一序列特征表示和所述第二序列特征表示输入栈式自编码器,得到所述用户的组合特征衍生表示;将所述用户的组合特征衍生表示输入分类器,得到所述用户的信用评估数据;其中,所述第一循环神经网络、所述第二循环神经网络和所述栈式自编码器中的模型参数是利用样本序列数据进行训练后确定的,所述第一循环神经网络和所述第二循环神经网络中的模型参数相同。第二方面,提供了一种用户信用评估装置,所述装置包括:第一获取模块,用于获取用户的第一行为序列和至少一个关联用户的第二行为序列,所述关联用户是在社交网络与所述用户存在关联的其他用户;第一计算模块,用于将所述第一获取模块获取的所述用户的第一行为序列输入第一循环神经网络,得到所述用户的第一序列特征表示;第二计算模块,用于将所述第一获取模块获取的所述关联用户的第二行为序列输入第二循环神经网络,得到所述关联用户的第二序列特征表示;第三计算模块,用于将所述第一计算模块得到的所述第一序列特征表示和所述第二计算模块得到的所述第二序列特征表示输入栈式自编码器,得到所述用户的组合特征衍生表示;第四计算模块,用于将所述第三计算模块得到的所述用户的组合特征衍生表示输入分类器,得到所述用户的信用评估数据;其中,所述第一循环神经网络、所述第二循环神经网络和所述栈式自编码器中的模型参数是利用样本序列数据进行训练后确定的,所述第一循环神经网络和所述第二循环神经网络中的模型参数相同。本专利技术实施例提供的技术方案带来的有益效果是:一方面,通过利用样本序列数据训练第一循环神经网络和第二循环神经网络,使得第一循环神经网络在接收到用户的第一行为序列或第二循环神经网络在接收到关联用户的第二行为序列时,第一循环神经网络能够根据第一行为序列自动抽取出序列特征,第二循环神经网络能够根据第二行为序列自动抽取出序列特征,由于循环神经网络能够用于分析序列数据,因此在对第一行为序列或第二行为序列进行序列特征抽取时,不需要人工参与特征抽取工作,并且通过循环神经网络抽取到的序列特征包含隐含特征,对特征的覆盖更全面,且与人工抽取特征相比,通过循环神经网络进行特征抽取的效率提高,计算成本降低;另一方面,通过利用样本序列数据训练栈式自编码器,使得栈式自编码器在接收到循环神经网络输出的用户的序列特征表示后,能够根据用户的序列特征表示自动输出组合特征衍生表示,由于栈式自编码器能够根据用户的序列特征表示自动进行特征的组合衍生,从而不需要人工参与特征组合衍生的工作,避免了人工设计组合衍生特征时考虑不全面的问题,并且由于栈式自编码器进行特征组合衍生的效率提高,从而能够适用于大规模的特征组合衍生的工作,提高了特征组合衍生的效率,降低了计算成本。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术一个实施例示出的实施环境的示意图;图2A是本专利技术一个实施例提供的用户信用评估方法的方法流程图;图2B是本专利技术一个实施例提供的征信模型的结构示意图;图3A是本专利技术另一个实施例提供的用户信用评估方法的方法流程图;图3B是本专利技术另一个实施例提供的征信模型的结构示意图;图4A是本专利技术一个实施例提供的训练第一循环神经网络的方法的流程图;图4B是本专利技术一个实施例提供的第一LSTM在训练时的结构示意图;图4C是本专利技术一个实施例提供的第一LSTM单元的结构示意图;图5A是本专利技术一个实施例提供的训练栈式自编码器的方法的流程图;图5B是本专利技术另一个实施例提供的训练栈式自编码器的方法的流程图;图5C是本专利技术一个实施例提供的RBM在训练时的结构示意图;图5D是本专利技术一个实施例提供的RBM训练流程的示意图;图5E是本专利技术一个实施例提供的栈式自编码器训练流程的示意图;图6是本专利技术一个实施例提供的用户信用评估装置的结构方框图;图7是本专利技术一个实施例中提供的服务器的结构示意图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术实施方式作进一步地详细描述。图1是本专利技术一个实施例示出的实施环境的示意图,如图1所示,该实施环境包括:至少两个用户设备110、社交服务器120和数据管理服务器130。用户设备110是诸如手机、平板电脑、便携式计算机和台式计算机之类的终端设备。可选地,用户设备110中可以安装社交类应用程序,可选地,社交类应用程序支持交易支付功能。图1中示例性地示出了3个用户设备110。用户在用户设备110中的社交类应用程序中登录社交帐号后,用户可以通过社交帐号与其他用户进行社交活动,或者,在支持交易支付功能的社交类应用程序上通过社交帐号进行交易支付活动。社交服务器120是为用户设备110提供社交服务的后台服务器,社交服务器120可以是一台服务器,也可以是由若干服务器组成的服务器集群,或者是一个云计算服务中心。社交服务器120用于记录每个社本文档来自技高网...

【技术保护点】
1.一种用户信用评估方法,其特征在于,所述方法包括:获取用户的第一行为序列和至少一个关联用户的第二行为序列,所述关联用户是在社交网络与所述用户存在关联的其他用户;将所述用户的第一行为序列输入第一循环神经网络,得到所述用户的第一序列特征表示;将所述关联用户的第二行为序列输入第二循环神经网络,得到所述关联用户的第二序列特征表示;将所述第一序列特征表示和所述第二序列特征表示输入栈式自编码器,得到所述用户的组合特征衍生表示;将所述用户的组合特征衍生表示输入分类器,得到所述用户的信用评估数据;其中,所述第一循环神经网络、所述第二循环神经网络和所述栈式自编码器中的模型参数是利用样本序列数据进行训练后确定的,所述第一循环神经网络和所述第二循环神经网络中的模型参数相同。

【技术特征摘要】
1.一种用户信用评估方法,其特征在于,所述方法包括:获取用户的第一行为序列和至少一个关联用户的第二行为序列,所述关联用户是在社交网络与所述用户存在关联的其他用户;将所述用户的第一行为序列输入第一循环神经网络,得到所述用户的第一序列特征表示;将所述关联用户的第二行为序列输入第二循环神经网络,得到所述关联用户的第二序列特征表示;将所述第一序列特征表示和所述第二序列特征表示输入栈式自编码器,得到所述用户的组合特征衍生表示;将所述用户的组合特征衍生表示输入分类器,得到所述用户的信用评估数据;其中,所述第一循环神经网络、所述第二循环神经网络和所述栈式自编码器中的模型参数是利用样本序列数据进行训练后确定的,所述第一循环神经网络和所述第二循环神经网络中的模型参数相同。2.根据权利要求1所述的方法,其特征在于,所述第一循环神经网络包括第一长短记忆网络LSTM单元和第一平均池化单元,每个所述第一LSTM单元包括输入层和隐藏层;所述第一行为序列包括n个时序上连续的向量,每个所述向量对应所述用户的1个行为数据,n为正整数;所述将所述用户的第一行为序列输入第一循环神经网络,得到所述用户的第一序列特征表示,包括:将所述n个时序上连续的向量按照时序顺序分别输入n个所述第一LSTM单元,得到n个所述第一LSTM单元的隐藏层输出的向量,将n个所述隐藏层输出的向量组成第一矩阵,其中,第i+1个所述第一LSTM单元的输入包括第i个所述第一LSTM单元的隐藏层的输出和第i+1个所述第一LSTM单元的输入层的输出,i为正整数,i<i+1<n;将所述第一矩阵输入所述第一平均池化单元,得到所述用户的第一序列特征表示,所述第一平均池化单元用于对所述第一矩阵中的每列元素求平均。3.根据权利要求1所述的方法,其特征在于,所述第二循环神经网络包括第二LSTM单元和第二平均池化单元,每个所述第二LSTM单元包括输入层和隐藏层;所述第二行为序列包括m个时序上连续的向量,每个所述向量对应所述关联用户的1个行为数据,m为正整数;所述将所述关联用户的第二行为序列输入第二循环神经网络,得到所述关联用户的第二序列特征表示,包括:将所述m个时序上连续的向量按照时序顺序分别输入m个所述第二LSTM单元,得到m个所述第二LSTM单元的隐藏层输出的向量,将m个所述隐藏层输出的向量组成第二矩阵,其中,第i+1个所述第二LSTM单元的输入包括第i个所述第二LSTM单元的隐藏层的输出和第i+1个所述第二LSTM单元的输入层的输出,i为正整数,i<i+1<m;将所述第二矩阵输入所述第二平均池化单元,得到所述关联用户的第二序列特征表示;其中,当所述第二行为序列的数量为一个时,所述第二平均池化单元用于对所述第二矩阵中的每列元素求平均;当所述第二行为序列的数量为p个时,所述第二平均池化单元用于对每个所述第二矩阵中的每列元素求平均得到的p个所述第二序列特征表示求平均,p为正整数,p>1。4.根据权利要求1至3任一所述的方法,其特征在于,所述第一循环神经网络在训练时包括第一LSTM单元、第一平均池化单元和第一训练分类器;所述第一循环神经网络的训练过程包括如下步骤:获取所述样本序列数据,所述样本序列数据包括:样本用户的第一样本行为序列、至少一个关联样本用户的第二样本行为序列和所述样本用户的标签数据,所述标签数据是对所述样本用户的信用进行标注后的标签,所述关联样本用户是在社交网络与所述样本用户存在关联的其他用户;将所述第一样本行为序列输入所述第一LSTM单元,得到训练特征序列;将所述训练特征序列输入所述第一平均池化单元,得到训练样本序列特征表示;将所述训练样本序列特征表示输入所述第一训练分类器,得到第一预测数据;将所述第一预测数据和所述标签数据代入第一损失函数,判断所述第一损失函数是否收敛到极小值;当所述第一损失函数没有收敛到极小值时,利用误差反向传播算法对所述第一LSTM单元的参数进行调整,直到所述第一损失函数收敛到极小值;当所述第一损失函数收敛到极小值时,将调整后的所述第一LSTM单元的参数确定为所述第一循环神经网络的模型参数。5.根据权利要求1所述的方法,其特征在于,所述栈式自编码器包括k层受限玻尔兹曼机RBM,每个所述RBM包括输入层和隐藏层,k为正整数;所述将所述第一序列特征表示和所述第二序列特征表示输入栈式自编码器,得到所述用户的组合特征衍生表示,包括:将所述第一序列特征表示和所述第二序列特征表示进行拼接,得到所述用户的序列特征表示;将所述用户的序列特征表示输入所述栈式自编码器,所述栈式自编码器的第i+1层所述RBM的输入层的输入为第i层所述RBM的隐藏层的输出,i为正整数,i<i+1<k;将第k层所述RBM的隐藏层的输出作为所述用户的组合特征衍生表示。6.根据权利要求1或5所述的方法,其特征在于,所述栈式自编码器在训练时包括k层受限玻尔兹曼机RBM和第二训练分类器,k为正整数;所述栈式自编码器的训练过程包括如下步骤:将样本用户的序列特征表示输入所述栈式自编码器,所述样本用户的序列特征表示是根据所述样本序列数据计算得到的;在预训练阶段,分别对每层所述RBM进行无监督学习训练,得到预训练后的RBM参数;在精调阶段,结合所述第二训练分类器对k层所述RBM进行有监督学习训练,所述有监督学习训练用于调整所述预训练后的RBM参数。7.根据权利要求6所述的方法,其特征在于,每个所述RBM在训练时包括输入层、隐藏层和输出层;所述在预训练阶段,分别对每层所述RBM进行无监督学习训练,得到预训练后的RBM参数,包括:在对第i层所述RBM进行训练时,将预定特征表示输入第i层所述RBM的输入层,根据第i层所述RBM的第i权重矩阵和第i偏置向量计算第i层所述RBM的输出层的数据;将第i层所述RBM的输入层的数据和输出层的数据代入第二损失函数,判断所述第二损失函数是否收敛到极小值;当所述第二损失函数没有收敛到极小值时,调整所述第i权重矩阵和所述第i偏置向量,将第i层所述RBM的输入层的数据和调整后的第i层所述RBM的输出层的数据代入所述第二损失函数,直到所述第二损失函数收敛到极小值;当所述第二损失函数收敛到极小值时,将调整后的所述第i权重矩阵和所述第i偏置向量确定为所述预训练后的RBM参数;其中,第i层所述RBM的隐藏层的输出作为第i+1层所述RBM的输入层的输入,i为正整数,i为1时所述预定特征表示是所述样本用户的序列特征表示,i大于1时所述预定特征表示是第i-1层所述RBM的隐藏层的输出,i<i+1<k。8.根据权利要求6所述的方法,其特征在于,所述在精调阶段,结合所述第二训练分类器对k层所述RBM进行有监督学习训练,包括:将第k层所述RBM的隐藏层的输出作为训练组合特征衍生表示输入给所述第二训练分类器,得到第二预测数据;将所述第二预测数据和所述标签数据代入第三损失函数,判断所述第三损失函数是否收敛到极小值;当所述第三损失函数没有收敛到极小值时,利用误差反向传播算法对每层所述RBM的隐藏层的权重矩阵和偏置向量进行调整,直到所述第三损失函数收敛到极小值;当所述第三损失函数收敛到极小值时,将调整后的每层所述RBM的隐藏层的权重矩阵和偏置向量确定为所述栈式自编码器的模型参数。9.根据权利要求6所述的方法,其特征在于,所述第一循环神经网络包括第一LSTM单元和第一平均池化单元;所述第二循环神经网络包括第二LSTM单元和第二平均池化单元;所述样本序列数据包括所述样本用户的第一样本行为序列、至少一个关联样本用户的第二样本行为序列和所述样本用户的标签数据,所述标签数据是对所述样本用户的信用进行标注后的标签,所述关联样本用户是在社交网络与所述样本用户存在关联的其他用户;所述将样本用户的序列特征表示输入所述栈式自编码器之前,还包括:将所述第一样本行为序列输入所述第一LSTM单元,得到所述样本用户的第一特征序列;将所述第一特征序列输入所述第一平均池化单元,得到第一样本序列特征表示;将所述第二样本行为序列输入所述第二LSTM单元,得到所述关联样本用户的第二特征序列,所述第二LSTM单元的参数与所述第一LSTM单元的参数相同;将所述第二特征序列输入所述第二平均池化单元,得到第二样本序列特征表示;将所述第一样本序列特征表示和所述第二样本序列特征表示进行拼接,得到所述样本用户的序列特征表示,所述样本用户的序列特征表示是所述栈式自编码器的输入;其中,当所述第二样本行为序列的数量为一个时,所述第二平均池化单元用于对所述第二特征序列求平均;当所述第二样本行为序列的数量为p个时,所述第二平均池化单元用于对每个所述第二特征序列求平均得到的p个所述第二样本序列特征表示求平均,p为正整数,p>1。10.根据权利要求1至9任一所述的方法,其特征在于,所述获取用户的第一行为序列和至少一个关联用户的第二行为序列,包括:获取所述用户的第一行为序列所包括的n个向量,将所述n个向量映射到同一值域空间中,n为正整数;获取所述关联用户的第二行为序列所包括的m个向量,将所述m个向量映射到所述同一值域空间中,m为正整数。11.一种用户信用评估装置,其特征在于,所述装置包括:第一获取模块,用于获取用户的第一行为序列和至少一个关联用户的第二行为序列,所述关联用户是在社交网络与所述用户存在关联的其他用户;第一计算模块,用于将所述第一获取模块获取的所述用户的第一行为序列输入第一循环神经网络,得到所述用户的第一序列特征表示;第二计算模块,用于将所述第一获取模块获取的所述关联用户的第二行为序列输入第二循环神...

【专利技术属性】
技术研发人员:段培
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1