一种用户类型识别方法及装置制造方法及图纸

技术编号:15938714 阅读:43 留言:0更新日期:2017-08-04 21:40
本发明专利技术涉及计算机技术领域,尤其涉及一种用户类型识别方法及装置,包括:首先获取用户的指标值,然后根据指标值及预先得到的阈值,通过识别模型识别所述用户的类型,其中所述阈值是对样本每个指标进行分组,根据每个分组的组值得到的。该方法在确定阈值时,是通过对样本每个指标进行分组,然后根据每个分组的组值来得到指标对应的阈值,因而该方法对样本进行分类,得到多个分组,并分别确定每个分组对应的组值,从而可以基于合理的分组结果,准确有效地确定指标对应的阈值。

User type identification method and device

The invention relates to the technical field of computer, in particular to a user and device type identification method includes: first, to get the user's index value, then according to the index value and the threshold obtained by identifying the model in advance, identifying the user type, wherein the threshold is the grouping of samples of each index, according to each packet group it is interesting to note that. The method to determine the threshold, is by grouping samples of each index, then according to each packet group index values to get the corresponding threshold value, so the method to classify the samples, get a plurality of packets, and determined each packet corresponding to the set of values, thereby grouping results based on the reasonable, accurate and effective to determine the index of the corresponding threshold.

【技术实现步骤摘要】
一种用户类型识别方法及装置
本专利技术涉及计算机
,尤其涉及一种用户类型识别方法及装置。
技术介绍
随着互联网的发展,使用手机的用户越来越多,造成商家或者非法组织发送垃圾短信的数量越来越多。一个短信用户的类型,例如可以划分为普通用户,优质用户和垃圾短信用户,因而如何识别一个短信用户的类型,成为现代短信通信中的一个重要课题。图1示出了现有技术中,通过决策树模型识别短信用户类型的示意图,该模型可以很好地利用指标(如图1中的“给陌生人发送的短信数量占比”、“所发短信群体陌生人占的比例”、“网龄”、“朋友圈人数”)及每个指标对应的阈值,对现网用户进行用户类型的识别。其中,使用该决策树模型时,最为关键的是如何对每个指标对应的阈值(如图1中的“85%”、“78%”、“3年”、“20人”)进行选择。目前在确定指标对应的阈值时,主要通过人工经验或者是根据短信用户样本中的某个指标的平均值来确定。该种方式会造成阈值与实际数据之间的匹配程度不高,进而无法准确有效地使用该阈值判别短信用户类型。
技术实现思路
本专利技术提供一种用户类型识别方法及装置,用以解决现有技术中无法准确有效地确定用户类型识别模型中的阈值的技术问题。一方面,本专利技术实施例提供一种用户类型识别方法,包括:获取用户的指标值;根据所述指标值及预先得到的阈值,通过识别模型识别所述用户的类型;所述阈值是对样本每个指标进行分组,根据每个分组的组值得到的。可选地,所述基于所述指标值,利用识别模型识别所述用户的类型之前,还包括:针对样本中的每个指标,根据所述样本在所述指标的取值,对所述样本进行排序;根据每个样本对应的标签及当前分组阈值,对排序后的样本进行分组,得到第一分组结果,确定所述第一分组结果对应的第一组熵总和;将增加一步长值之后的分组阈值作为当前分组阈值,根据每个样本对应的标签及当前分组阈值,对排序后的样本进行分组,得到第二分组结果,确定所述第二分组结果对应的第二组熵总和;若第一组熵总和与第二组熵总和之间的差值不大于停止阈值,则确定所述第二分组结果中每个分组的组值;根据每个分组的组值,确定所述指标对应的阈值。可选地,所述对排序后的样本进行分组,包括:按顺序选取排序后的样本中n个未分组的样本,生成样本集合;根据所述样本集合中每个样本的标签,确定每类标签的样本数;判断样本数最多的一类标签的比例是否小于当前分组阈值;若对应样本数最多的一类标签的比例不小于当前分组阈值,则将所述样本集合中的所有样本划分到一个分组,并返回到按顺序选取排序后的样本中的n个未分组的样本,生成样本集合的步骤;若对应样本数最多的一类标签的比例小于当前分组阈值,则按顺序增加m个未分组的样本到所述样本集合,并返回到根据所述样本集合中每个样本分别对应的标签,确定每类标签对应的样本数的步骤;其中,n为大于1的整数,m为正整数。可选地,将所述样本集合中的所有样本划分到一个分组之后,返回到按顺序选取排序后的样本中的n个未分组的样本,生成样本集合的步骤之前,还包括:判断当前分组之后的下一个未分组样本的标签与所述分组中对应样本数最多的一类标签是否相同;若当前分组之后的下一个未分组样本对应的标签与所述分组中对应样本数最多的一类标签相同,则将所述下一个未分组样本增加到当前分组,并重复执行判断当前分组之后的下一个样本对应的标签与所述分组中对应样本数最多的一类标签是否相同的步骤。可选地,所述将所述样本集合中的所有样本划分到一个分组之后,还包括:判断当前分组中对应样本数最多的一类标签是否与当前分组的上一分组中对应样本数最多的一类标签相同;若当前分组中对应样本数最多的一类标签与当前分组的上一分组中对应样本数最多的一类标签相同,则将当前分组合并到当前分组的上一分组。可选地,所述确定第二分组结果中每个分组的组值:根据每个分组中的所有样本在所述指标的取值,确定所述分组对应的组值。可选地,将增加一步长值之后的分组阈值作为当前分组阈值,根据每个样本对应的标签及当前分组阈值,对排序后的样本进行分组,得到第二分组结果,确定所述第二分组结果对应的第二组熵总和之后,还包括:若所述第一组熵总和与所述第二组熵总和之间的差值大于所述停止阈值,则将所述第二组熵总和作为所述第一组熵总和,并返回到将增加一步长值之后的分组阈值作为当前分组阈值,根据每个样本对应的标签及当前分组阈值,对排序后的样本进行分组,得到第二分组结果,确定所述第二分组结果对应的第二组熵总和的步骤。可选地,根据下列公式确定一种分组结果对应的组熵总和:其中,A表示所有分组的组熵总和,t为分组的组数,Si为第i组中不同类标签的数量,pij为第i组中第j类标签出现的概率。可选地,根据样本的指标的取值,对所述样本进行排序之前,还包括:根据下列公式校正所述样本的指标的取值:其中,wj(j=1,2,...,p):X为校正后的样本的指标的取值,xj为所述样本在最近第j个时长内的取值,wj为xj对应的权重,p为预先设定的值,A为所有分组的组熵总和,t为分组的组数,Si为第i组中不同类标签的数量,pij为第i组中第j类标签出现的概率。另一方面,本专利技术实施例还提供一种用户类型识别装置,包括:获取单元,用于获取用户的指标值;识别单元,用于根据所述指标值及预先得到的阈值,通过识别模型识别所述用户的类型;所述阈值是对样本每个指标进行分组,根据每个分组的组值得到的。可选地,所述装置还包括阈值确定单元,具体用于根据所述指标值,利用识别模型识别所述用户的类型之前,针对样本中的每个指标,根据所述样本在所述指标的取值,对所述样本进行排序;根据每个样本对应的标签及当前分组阈值,对排序后的样本进行分组,得到第一分组结果,确定所述第一分组结果对应的第一组熵总和;将增加一步长值之后的分组阈值作为当前分组阈值,根据每个样本对应的标签及当前分组阈值,对排序后的样本进行分组,得到第二分组结果,确定所述第二分组结果对应的第二组熵总和;若第一组熵总和与第二组熵总和之间的差值不大于停止阈值,则确定所述第二分组结果中每个分组的组值;根据每个分组的组值,确定所述指标对应的阈值。可选地,所述阈值确定单元,还用于按顺序选取排序后的样本中n个未分组的样本,生成样本集合;根据所述样本集合中每个样本的标签,确定每类标签的样本数;判断样本数最多的一类标签的比例是否小于当前分组阈值;若对应样本数最多的一类标签的比例不小于当前分组阈值,则将所述样本集合中的所有样本划分到一个分组,并返回到按顺序选取排序后的样本中的n个未分组的样本,生成样本集合的步骤;若对应样本数最多的一类标签的比例小于当前分组阈值,则按顺序增加m个未分组的样本到所述样本集合,并返回到根据所述样本集合中每个样本分别对应的标签,确定每类标签对应的样本数的步骤;其中,n为大于1的整数,m为正整数。可选地,所述阈值确定单元,还用于将所述样本集合中的所有样本划分到一个分组之后,返回到按顺序选取排序后的样本中的n个未分组的样本,生成样本集合的步骤之前,判断当前分组之后的下一个未分组样本的标签与所述分组中对应样本数最多的一类标签是否相同;若当前分组之后的下一个未分组样本对应的标签与所述分组中对应样本数最多的一类标签相同,则将所述下一个未分组样本增加到当前分组,并重复执行判断当前分组之后的下一个样本对应的标本文档来自技高网...
一种用户类型识别方法及装置

【技术保护点】
一种用户类型识别方法,其特征在于,包括:获取用户的指标值;根据所述指标值及预先得到的阈值,通过识别模型识别所述用户的类型;所述阈值是对样本每个指标进行分组,根据每个分组的组值得到的。

【技术特征摘要】
1.一种用户类型识别方法,其特征在于,包括:获取用户的指标值;根据所述指标值及预先得到的阈值,通过识别模型识别所述用户的类型;所述阈值是对样本每个指标进行分组,根据每个分组的组值得到的。2.如权利要求1所述的方法,其特征在于,所述基于所述指标值,利用识别模型识别所述用户的类型之前,还包括:针对样本中的每个指标,根据所述样本在所述指标的取值,对所述样本进行排序;根据每个样本对应的标签及当前分组阈值,对排序后的样本进行分组,得到第一分组结果,确定所述第一分组结果对应的第一组熵总和;将增加一步长值之后的分组阈值作为当前分组阈值,根据每个样本对应的标签及当前分组阈值,对排序后的样本进行分组,得到第二分组结果,确定所述第二分组结果对应的第二组熵总和;若第一组熵总和与第二组熵总和之间的差值不大于停止阈值,则确定所述第二分组结果中每个分组的组值;根据每个分组的组值,确定所述指标对应的阈值。3.如权利要求2所述的方法,其特征在于,所述对排序后的样本进行分组,包括:按顺序选取排序后的样本中n个未分组的样本,生成样本集合;根据所述样本集合中每个样本的标签,确定每类标签的样本数;判断样本数最多的一类标签的比例是否小于当前分组阈值;若对应样本数最多的一类标签的比例不小于当前分组阈值,则将所述样本集合中的所有样本划分到一个分组,并返回到按顺序选取排序后的样本中的n个未分组的样本,生成样本集合的步骤;若对应样本数最多的一类标签的比例小于当前分组阈值,则按顺序增加m个未分组的样本到所述样本集合,并返回到根据所述样本集合中每个样本分别对应的标签,确定每类标签对应的样本数的步骤;其中,n为大于1的整数,m为正整数。4.如权利要求3所述的方法,其特征在于,将所述样本集合中的所有样本划分到一个分组之后,返回到按顺序选取排序后的样本中的n个未分组的样本,生成样本集合的步骤之前,还包括:判断当前分组之后的下一个未分组样本的标签与所述分组中对应样本数最多的一类标签是否相同;若当前分组之后的下一个未分组样本对应的标签与所述分组中对应样本数最多的一类标签相同,则将所述下一个未分组样本增加到当前分组,并重复执行判断当前分组之后的下一个样本对应的标签与所述分组中对应样本数最多的一类标签是否相同的步骤。5.如权利要求3所述的方法,其特征在于,所述将所述样本集合中的所有样本划分到一个分组之后,还包括:判断当前分组中对应样本数最多的一类标签是否与当前分组的上一分组中对应样本数最多的一类标签相同;若当前分组中对应样本数最多的一类标签与当前分组的上一分组中对应样本数最多的一类标签相同,则将当前分组合并到当前分组的上一分组。6.如权利要求2所述的方法,其特征在于,所述确定第二分组结果中每个分组的组值:根据每个分组中的所有样本在所述指标的取值,确定所述分组对应的组值。7.如权利要求2所述的方法,其特征在于,将增加一步长值之后的分组阈值作为当前分组阈值,根据每个样本对应的标签及当前分组阈值,对排序后的样本进行分组,得到第二分组结果,确定所述第二分组结果对应的第二组熵总和之后,还包括:若所述第一组熵总和与所述第二组熵总和之间的差值大于所述停止阈值,则将所述第二组熵总和作为所述第一组熵总和,并返回到将增加一步长值之后的分组阈值作为当前分组阈值,根据每个样本对应的标签及当前分组阈值,对排序后的样本进行分组,得到第二分组结果,确定所述第二分组结果对应的第二组熵总和的步骤。8.如权利要求2-7中任一项所述的方法,其特征在于,根据下列公式确定一种分组结果对应的组熵总和:其中,A表示所有分组的组熵总和,t为分组的组数,Si为第i组中不同类标签的数量,pij为第i组中第j类标签出现的概率。9.如权利2-7中任一项所述的方法,其特征在于,根据样本的指标的取值,对所述样本进行排序之前,还包括:根据下列公式校正所述样本的指标的取值:其中,wj(j=1,2,...,p):X为校正后的样本的指标的取值,xj为所述样本在最近第j个时长内的取值,wj为xj对应的权重,p为预先设定的值,A为所有分组的组熵总和,t为分组的组数,Si为第i组中不同类标签的数量,pij为第i组中第j类标签出现的概率。10.一种用户类型识别装置,其特征在于,包括:获取单元,用于获取用户的指标...

【专利技术属性】
技术研发人员:潘钢王远伟
申请(专利权)人:中国移动通信集团上海有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1