对用户分类的方法和装置制造方法及图纸

技术编号:23161722 阅读:17 留言:0更新日期:2020-01-21 21:59
本说明书实施例提供一种对用户分类的方法和装置。方法包括:获取目标用户安装的各应用的应用标识构成的标识集合、各应用的名字分词后的分词集合,各应用的类别标签构成的标签集合;将标识集合、分词集合和标签集合输入预先训练的神经网络模型,获取标识集合中各应用标识分别对应的第一嵌入向量,获取分词集合中各分词分别对应的第二嵌入向量,获取标签集合中各类别标签分别对应的第三嵌入向量;对各第一嵌入向量进行加权处理得到第四嵌入向量;对各第二嵌入向量进行加权处理得到第五嵌入向量;对各第三嵌入向量进行加权处理得到第六嵌入向量;根据第四嵌入向量、第五嵌入向量和第六嵌入向量,确定目标用户对应的类别。能够准确的对用户分类。

【技术实现步骤摘要】
对用户分类的方法和装置
本说明书一个或多个实施例涉及计算机领域,尤其涉及对用户分类的方法和装置。
技术介绍
当前,在互联网服务中常常会涉及到对用户分类,根据用户的类别确定是否向该用户提供服务,或者根据用户的类别确定向该用户提供的服务等级。例如,小额贷款业务中,为了尽量减少逾期带来的资损,在向用户发放贷款前,确定该用户的类别,以便尽可能准确地预测出该用户是否存在逾期还款的风险。现有技术中,常常通过用户的历史行为数据对用户分类,上述历史行为数据可以包括用户的购物习惯、理财习惯等,但是当无法获取用户的历史行为数据时,就无法实现对用户准确的分类。因此,希望能有改进的方案,能够准确的对用户分类。
技术实现思路
本说明书一个或多个实施例描述了一种对用户分类的方法和装置,能够准确的对用户分类。第一方面,提供了一种对用户分类的方法,方法包括:获取目标用户在预设历史时间周期内安装的各应用的应用标识构成的标识集合、所述各应用的名字分词后得到的分词集合,和所述各应用的类别标签构成的标签集合;将所述标识集合、所述分词集合和所述标签集合输入预先训练的神经网络模型,其中,所述神经网络模型包括嵌入层、注意力层和分类层;在所述嵌入层,获取所述标识集合中各应用标识分别对应的第一嵌入向量,获取所述分词集合中各分词分别对应的第二嵌入向量,获取所述标签集合中各类别标签分别对应的第三嵌入向量;在所述注意力层,根据预先确定的应用标识权重向量,确定各应用标识对应的各第一权重,并基于各第一权重对各所述第一嵌入向量进行加权处理得到第四嵌入向量;根据预先确定的分词权重向量,确定各分词对应的各第二权重,并基于各第二权重对各所述第二嵌入向量进行加权处理得到第五嵌入向量;根据预先确定的类别标签权重向量,确定各类别标签对应的各第三权重,并基于各第三权重对各所述第三嵌入向量进行加权处理得到第六嵌入向量;在所述分类层,根据所述第四嵌入向量、所述第五嵌入向量和所述第六嵌入向量,确定所述目标用户对应的用户类别。在一种可能的实施方式中,所述确定各应用标识对应的各第一权重,包括:基于各所述第一嵌入向量和所述应用标识权重向量的点积,确定各第一权重。在一种可能的实施方式中,所述各应用标识以one-hot编码的形式输入所述神经网络模型,用于根据该one-hot编码确定所述各应用标识分别对应的第一嵌入向量。在一种可能的实施方式中,所述各分词以one-hot编码的形式输入所述神经网络模型,用于根据该one-hot编码确定所述各分词分别对应的第二嵌入向量。在一种可能的实施方式中,所述各类别标签以one-hot编码的形式输入所述神经网络模型,用于根据该one-hot编码确定所述各类别标签分别对应的第三嵌入向量。在一种可能的实施方式中,所述神经网络模型采用如下方式训练:获取第一时间周期内的样本数据,所述第一时间周期包括第一子时间周期和第二子时间周期,所述第一子时间周期在所述第二子时间周期之前;采用所述第一子时间周期中第一预设比例的样本数据对所述神经网络模型进行训练,采用所述第一子时间周期中所述第一预设比例的样本数据之外的样本数据对训练后的所述神经网络模型进行测试,以及采用所述第二子时间周期中的样本数据对训练后的所述神经网络模型进行验证。在一种可能的实施方式中,所述用户类别包括:正常还款用户和逾期还款用户;所述神经网络模型根据样本数据进行训练,所述样本数据包括:样本输入和样本标签;所述样本标签采用如下方式确定:对于逾期还款的时间小于或等于预设时间阈值的用户确定该用户的样本标签为正常还款用户;对于逾期还款的时间大于所述预设时间阈值的用户确定该用户的样本标签为逾期还款用户。在一种可能的实施方式中,所述应用标识权重向量、所述分词权重向量和所述类别标签权重向量通过如下方式确定:在训练所述神经网络模型的过程中,通过反向回传更新所述应用标识权重向量、所述分词权重向量和所述类别标签权重向量,在所述神经网络模型训练结束后得到确定的所述应用标识权重向量、所述分词权重向量和所述类别标签权重向量。在一种可能的实施方式中,所述分类层包括映射子层和分类子层;在所述映射子层,对所述第四嵌入向量、所述第五嵌入向量和所述第六嵌入向量进行融合,得到综合嵌入向量;在所述分类子层,利用softmax函数对所述综合嵌入向量进行分类,得到所述目标用户的用户类别。第二方面,提供了一种对用户分类的装置,装置包括:获取单元,用于获取目标用户在预设历史时间周期内安装的各应用的应用标识构成的标识集合、所述各应用的名字分词后得到的分词集合,和所述各应用的类别标签构成的标签集合;输入单元,用于将所述获取单元获取的所述标识集合、所述分词集合和所述标签集合输入预先训练的神经网络模型,其中,所述神经网络模型包括嵌入层、注意力层和分类层;嵌入单元,用于在所述嵌入层,获取所述输入单元输入的所述标识集合中各应用标识分别对应的第一嵌入向量,获取所述输入单元输入的所述分词集合中各分词分别对应的第二嵌入向量,获取所述输入单元输入的所述标签集合中各类别标签分别对应的第三嵌入向量;注意力单元,用于在所述注意力层,根据预先确定的应用标识权重向量,确定各应用标识对应的各第一权重,并基于各第一权重对所述嵌入单元获取的各所述第一嵌入向量进行加权处理得到第四嵌入向量;根据预先确定的分词权重向量,确定各分词对应的各第二权重,并基于各第二权重对所述嵌入单元获取的各所述第二嵌入向量进行加权处理得到第五嵌入向量;根据预先确定的类别标签权重向量,确定各类别标签对应的各第三权重,并基于各第三权重对所述嵌入单元获取的各所述第三嵌入向量进行加权处理得到第六嵌入向量;分类单元,用于在所述分类层,根据所述注意力单元得到的所述第四嵌入向量、所述第五嵌入向量和所述第六嵌入向量,确定所述目标用户对应的用户类别。第三方面,提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行第一方面的方法。第四方面,提供了一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现第一方面的方法。通过本说明书实施例提供的方法和装置,首先获取目标用户在预设历史时间周期内安装的各应用的应用标识构成的标识集合、所述各应用的名字分词后得到的分词集合,和所述各应用的类别标签构成的标签集合;然后将所述标识集合、所述分词集合和所述标签集合输入预先训练的神经网络模型,其中,所述神经网络模型包括嵌入层,注意力层和分类层;先在所述嵌入层,获取所述标识集合中各应用标识分别对应的第一嵌入向量,获取所述分词集合中各分词分别对应的第二嵌入向量,获取所述标签集合中各类别标签分别对应的第三嵌入向量;接着在所述注意力层,根据预先确定的应用标识权重向量,确定各应用标识对应的各第一权重,并基于各第一权重对各所述第一嵌入向量进行加权处理得到第四本文档来自技高网...

【技术保护点】
1.一种对用户分类的方法,所述方法包括:/n获取目标用户在预设历史时间周期内安装的各应用的应用标识构成的标识集合、所述各应用的名字分词后得到的分词集合,和所述各应用的类别标签构成的标签集合;/n将所述标识集合、所述分词集合和所述标签集合输入预先训练的神经网络模型,其中,所述神经网络模型包括嵌入层、注意力层和分类层;/n在所述嵌入层,获取所述标识集合中各应用标识分别对应的第一嵌入向量,获取所述分词集合中各分词分别对应的第二嵌入向量,获取所述标签集合中各类别标签分别对应的第三嵌入向量;/n在所述注意力层,根据预先确定的应用标识权重向量,确定各应用标识对应的各第一权重,并基于各第一权重对各所述第一嵌入向量进行加权处理得到第四嵌入向量;根据预先确定的分词权重向量,确定各分词对应的各第二权重,并基于各第二权重对各所述第二嵌入向量进行加权处理得到第五嵌入向量;根据预先确定的类别标签权重向量,确定各类别标签对应的各第三权重,并基于各第三权重对各所述第三嵌入向量进行加权处理得到第六嵌入向量;/n在所述分类层,根据所述第四嵌入向量、所述第五嵌入向量和所述第六嵌入向量,确定所述目标用户对应的用户类别。/n

【技术特征摘要】
1.一种对用户分类的方法,所述方法包括:
获取目标用户在预设历史时间周期内安装的各应用的应用标识构成的标识集合、所述各应用的名字分词后得到的分词集合,和所述各应用的类别标签构成的标签集合;
将所述标识集合、所述分词集合和所述标签集合输入预先训练的神经网络模型,其中,所述神经网络模型包括嵌入层、注意力层和分类层;
在所述嵌入层,获取所述标识集合中各应用标识分别对应的第一嵌入向量,获取所述分词集合中各分词分别对应的第二嵌入向量,获取所述标签集合中各类别标签分别对应的第三嵌入向量;
在所述注意力层,根据预先确定的应用标识权重向量,确定各应用标识对应的各第一权重,并基于各第一权重对各所述第一嵌入向量进行加权处理得到第四嵌入向量;根据预先确定的分词权重向量,确定各分词对应的各第二权重,并基于各第二权重对各所述第二嵌入向量进行加权处理得到第五嵌入向量;根据预先确定的类别标签权重向量,确定各类别标签对应的各第三权重,并基于各第三权重对各所述第三嵌入向量进行加权处理得到第六嵌入向量;
在所述分类层,根据所述第四嵌入向量、所述第五嵌入向量和所述第六嵌入向量,确定所述目标用户对应的用户类别。


2.如权利要求1所述的方法,其中,所述确定各应用标识对应的各第一权重,包括:
基于各所述第一嵌入向量和所述应用标识权重向量的点积,确定各第一权重。


3.如权利要求1所述的方法,其中,所述各应用标识以one-hot编码的形式输入所述神经网络模型,用于根据该one-hot编码确定所述各应用标识分别对应的第一嵌入向量。


4.如权利要求1所述的方法,其中,所述各分词以one-hot编码的形式输入所述神经网络模型,用于根据该one-hot编码确定所述各分词分别对应的第二嵌入向量。


5.如权利要求1所述的方法,其中,所述各类别标签以one-hot编码的形式输入所述神经网络模型,用于根据该one-hot编码确定所述各类别标签分别对应的第三嵌入向量。


6.如权利要求1所述的方法,其中,所述神经网络模型采用如下方式训练:
获取第一时间周期内的样本数据,所述第一时间周期包括第一子时间周期和第二子时间周期,所述第一子时间周期在所述第二子时间周期之前;
采用所述第一子时间周期中第一预设比例的样本数据对所述神经网络模型进行训练,采用所述第一子时间周期中所述第一预设比例的样本数据之外的样本数据对训练后的所述神经网络模型进行测试,以及采用所述第二子时间周期中的样本数据对训练后的所述神经网络模型进行验证。


7.如权利要求1所述的方法,其中,所述用户类别包括:正常还款用户和逾期还款用户;所述神经网络模型根据样本数据进行训练,所述样本数据包括:样本输入和样本标签;
所述样本标签采用如下方式确定:
对于逾期还款的时间小于或等于预设时间阈值的用户确定该用户的样本标签为正常还款用户;
对于逾期还款的时间大于所述预设时间阈值的用户确定该用户的样本标签为逾期还款用户。


8.如权利要求1所述的方法,其中,所述应用标识权重向量、所述分词权重向量和所述类别标签权重向量通过如下方式确定:
在训练所述神经网络模型的过程中,通过反向回传更新所述应用标识权重向量、所述分词权重向量和所述类别标签权重向量,在所述神经网络模型训练结束后得到确定的所述应用标识权重向量、所述分词权重向量和所述类别标签权重向量。


9.如权利要求1所述的方法,其中,所述分类层包括映射子层和分类子层;在所述映射子层,对所述第四嵌入向量、所述第五嵌入向量和所述第六嵌入向量进行融合,得到综合嵌入向量;在所述分类子层,利用softmax函数对所述综合嵌入向量进行分类,得到所述目标用户的用户类别。


10.一种对用户分类的装置,所述装置包括:
获取单元,用于获取目标用户在预设历史时间周期内安装的各应用的应用标识构成的标识集合、所述各应用的名字分词后得到的分词集合,和所述各应用的类别标签构成的标签集合;
输入单元,用于将所述获取单元获取的所述标识集合、所述分词集合和所述标签集合输入预先训练的神经网络模型,其中,所述神经网络模型包括嵌入层、注意力层和分类层;

【专利技术属性】
技术研发人员:李茜茜王岱鑫周俊向彪
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛;KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1