一种用户数据分类的方法和设备技术

技术编号:14882470 阅读:72 留言:0更新日期:2017-03-24 04:51
本申请的目的是提供一种用户数据的分类方法,通过获取若干用户数据,并基于所述用户数据生成若干样本;基于所述样本中两个用户数据的区别特征信息及所述区别特征信息的比较信息,将所述样本分为相同类样本、不同类样本或待确定类样本;接着,利用预测分类模型将所述待确定类样本再分为相同类样本或不同类样本;随后,基于所述相同类样本和不同类样本,对所述用户数据进行分类。从而更准确地根据用户数据的特征信息对用户数据进行关联识别,更好的对用户数据分类至相应用户的记录,打通用户多次的综合描述特征信息,以供为用户服务。

【技术实现步骤摘要】

本申请涉及计算机领域,尤其涉及一种用户数据分类的技术。
技术介绍
随着云时代的来临,大数据(Bigdata)也吸引了越来越多的关注。互联网和移动的快速发展也使大数据的概念远不止大量的数据(TB级别数据)和处理大量数据的技术,或者所谓的\4个V\(Volume、Variety、Value和Velocity)的简单概念,大数据也在各个领域不断增加应用,也越来越面向个人应用,将用户在生活中方方面面个人信息收集整理,为用户提供切身服务。因此,不仅在电信行业、互联网行业等易产生大量用户数据的行业,教育,采矿,电力等行业,尤其是医疗领域等传统行业,如何在获取用户的众多数据后,根据用户数据的特征信息对用户数据进行关联识别,依据用户数据所对应的用户,对用户数据进行有效分类,以供为用户服务成为广泛关注的问题。
技术实现思路
本申请的目的是提供一种用户数据分类的方法与设备,以解决对用户数据进行有效分类的问题。根据本申请的一个方面,提供了一种用户数据的分类方法,包括:获取若干用户数据,并基于所述用户数据生成若干样本,每一所述样本包括具有相同标识特征信息的两个用户数据;基于所述样本中两个用户数据的区别特征信息及所述区别特征信息的比较信息,将所述样本分为相同类样本、不同类样本或待确定类样本;利用预测分类模型将所述待确定类样本再分为相同类样本或不同类样本,其中,所述预测分类模型为基于所述相同类样本和所述不同类样本及其中用户数据的综合描述特征信息进行训练所获得的;基于所述相同类样本和不同类样本,对所述用户数据进行分类。进一步地,所述用户数据为用户的医疗记录数据,所述区别特征信息包括所述用户的身份特征信息,所述综合描述特征信息包括用户的医疗记录特征信息。进一步地,所述区别特征信息包括唯一识别区别特征信息和不唯一识别区别特征信息。其中,所述基于所述样本中两个用户数据的区别特征信息及所述区别特征信息的比较信息,将所述样本分为相同类样本、不同类样本或待确定类样本包括:当所述样本中两个用户数据均具有唯一识别区别特征信息时,基于所述唯一识别区别特征信息的比较信息,将所述分为相同类样本或不同类样本;当所述样本中两个用户数据至少一个不具有唯一识别区别特征信息时,基于所述不唯一识别区别特征信息的比较信息,将所述样本分为不同类样本或待确定类样本;当所述样本中两个用户数据至少一个不具有区别特征信息时,则将所述样本分为待确定类样本;进一步地,所述预测分类模型为利用机器学习法,基于所述相同类样本和所述不同类样本及其中用户数据的综合描述特征信息进行训练所获得的。进一步地,所述机器学习法包括逻辑回归法,获得所述预测分类模型的过程包括:创建逻辑回归模型,所述逻辑回归模型为关于所述样本中两个用户数据的若干综合描述特征信息的差别信息与所述样本的分类信息的关系模型;获取所述相同类样本和所述不同类样本中的两个用户数据的若干综合描述特征信息的差别信息及相应样本的分类信息;基于所述差别信息和相应所述样本的分类信息对所述逻辑回归模型进行训练,以获得逻辑回归模型中各综合描述特征信息的差别信息的权重信息。进一步地,获得所述预测分类模型的过程还包括:利用未进行过训练的若干所述差别信息和相应所述样本的分类信息对所述逻辑回归模型进行测试。其中,所述利用预测分类模型将所述待确定类样本再分为相同类样本或不同类样本包括:获取所述待确定类样本中两个用户数据的若干综合描述特征信息的差别信息;将所述差别信息输入所述逻辑回归模型,获得所述样本的分类信息;基于所述样本的分类信息将所述待确定类样本再分为相同类样本或不同类样本。进一步地,所述机器学习法包括随机森林法。根据本申请的另一方面,还提供了一种用户数据的分类设备,包括:获取装置,用于获取若干用户数据,并基于所述用户数据生成若干样本,每一所述样本包括具有相同标识特征信息的两个用户数据;比较装置,用于基于所述样本中两个用户数据的区别特征信息及所述区别特征信息的比较信息,将所述样本分为相同类样本、不同类样本或待确定类样本;训练装置,用于利用预测分类模型将所述待确定类样本再分为相同类样本或不同类样本,其中,所述预测分类模型为基于所述相同类样本和所述不同类样本及其中用户数据的综合描述特征信息进行训练所获得的;分类装置,用于基于所述相同类样本和不同类样本,对所述用户数据进行分类。进一步地,所述用户数据为用户的医疗记录数据,所述区别特征信息包括所述用户的身份特征信息,所述综合描述特征信息包括用户的医疗记录特征信息。进一步地,所述区别特征信息包括唯一识别区别特征信息和不唯一识别区别特征信息。其中,所述比较装置用于:当所述样本中两个用户数据均具有唯一识别区别特征信息时,基于所述唯一识别区别特征信息的比较信息,将所述分为相同类样本或不同类样本;当所述样本中两个用户数据至少一个不具有唯一识别区别特征信息时,基于所述不唯一识别区别特征信息的比较信息,将所述样本分为不同类样本或待确定类样本;当所述样本中两个用户数据至少一个不具有区别特征信息时,则将所述样本分为待确定类样本。进一步地,所述预测分类模型为利用机器学习法,基于所述相同类样本和所述不同类样本及其中用户数据的综合描述特征信息进行训练所获得的。进一步地,所述机器学习法包括逻辑回归法,获得所述预测分类模型的过程包括:创建逻辑回归模型,所述逻辑回归模型为关于所述样本中两个用户数据的若干综合描述特征信息的差别信息与所述样本的分类信息的关系模型;获取所述相同类样本和所述不同类样本中的两个用户数据的若干综合描述特征信息的差别信息及相应样本的分类信息;基于所述差别信息和相应所述样本的分类信息对所述逻辑回归模型进行训练,以获得逻辑回归模型中各综合描述特征信息的差别信息的权重信息。进一步地,获得所述预测分类模型的过程还包括:利用未进行过训练的若干所述差别信息和相应所述样本的分类信息对所述逻辑回归模型进行测试。其中,所述训练装置包括:获取单元,用于获取所述待确定类样本中两个用户数据的若干综合描述特征信息的差别信息;输入单元,用于将所述差别信息输入所述逻辑回归模型,获得所述样本的分类信息;样本单元,用于基于所述样本的分类信息将所述待确定类样本再分为相同类样本或不同类样本。进一步地,所述机器学习法包括随机森林法。与现有技术相比,本申请通过获取若干用户数据,并基于所述用户数据生成若干样本,每一所述样本包括具有相同标识特征信息的两个用户数据;基于所述样本中两个用户数据的区别特征信息及所述区别特征信息的比较信息,将所述样本分为相同类样本、不同类样本或待确定类样本;接着,利用预测分类模型将所述待确定类样本再分为相同类样本或不同类样本,其中,所述预测分类模型为基于所述相同类样本和所述不同类样本及其中用户数据的综合描述特征信息进行训练所获得的;基于所述相同类样本和不同类样本,对所述用户数据进行分类。从而更准确地根据用户数据的特征信息对用户数据进行关联识别,更好的对用户数据分类至相应用户的记录,打通用户多次的综合描述特征信息,以供为用户服务。进一步地,本申请可应用于医疗领域,例如应用于对用户的体检记录的关联识别等,所述用户数据为用户的医疗记录数据,例如用户的体检记录等。本申请通过获取若干用户医疗记录数据,并基于本文档来自技高网...
一种<a href="http://www.xjishu.com/zhuanli/55/201510571182.html" title="一种用户数据分类的方法和设备原文来自X技术">用户数据分类的方法和设备</a>

【技术保护点】
一种用户数据的分类方法,其中,所述方法包括:获取若干用户数据,并基于所述用户数据生成若干样本,每一所述样本包括具有相同标识特征信息的两个用户数据;基于所述样本中两个用户数据的区别特征信息及所述区别特征信息的比较信息,将所述样本分为相同类样本、不同类样本或待确定类样本;利用预测分类模型将所述待确定类样本再分为相同类样本或不同类样本,其中,所述预测分类模型为基于所述相同类样本和所述不同类样本及其中用户数据的综合描述特征信息进行训练所获得的;基于所述相同类样本和不同类样本,对所述用户数据进行分类。

【技术特征摘要】
1.一种用户数据的分类方法,其中,所述方法包括:获取若干用户数据,并基于所述用户数据生成若干样本,每一所述样本包括具有相同标识特征信息的两个用户数据;基于所述样本中两个用户数据的区别特征信息及所述区别特征信息的比较信息,将所述样本分为相同类样本、不同类样本或待确定类样本;利用预测分类模型将所述待确定类样本再分为相同类样本或不同类样本,其中,所述预测分类模型为基于所述相同类样本和所述不同类样本及其中用户数据的综合描述特征信息进行训练所获得的;基于所述相同类样本和不同类样本,对所述用户数据进行分类。2.根据权利要求1所述的方法,其中,所述用户数据为用户的医疗记录数据,所述区别特征信息包括所述用户的身份特征信息,所述综合描述特征信息包括用户的医疗记录特征信息。3.根据权利要求1或2所述的方法,其中,所述区别特征信息包括唯一识别区别特征信息和不唯一识别区别特征信息。4.根据权利要求3所述的方法,其中,所述基于所述样本中两个用户数据的区别特征信息及所述区别特征信息的比较信息,将所述样本分为相同类样本、不同类样本或待确定类样本包括:当所述样本中两个用户数据均具有唯一识别区别特征信息时,基于所述唯一识别区别特征信息的比较信息,将所述分为相同类样本或不同类样本;当所述样本中两个用户数据至少一个不具有唯一识别区别特征信息时,基于所述不唯一识别区别特征信息的比较信息,将所述样本分为不同类样本或待确定类样本;当所述样本中两个用户数据至少一个不具有区别特征信息时,则将所述样本分为待确定类样本。5.根据权利要求1至4中任一项所述的方法,其中,所述预测分类模型为利用机器学习法,基于所述相同类样本和所述不同类样本及其中用户数据的综合描述特征信息进行训练所获得的。6.根据权利要求5所述的方法,其中,所述机器学习法包括逻辑回归法,获得所述预测分类模型的过程包括:创建逻辑回归模型,所述逻辑回归模型为关于所述样本中两个用户数据的若干综合描述特征信息的差别信息与所述样本的分类信息的关系模型;获取所述相同类样本和所述不同类样本中的两个用户数据的若干综合描述特征信息的差别信息及相应样本的分类信息;基于所述差别信息和相应所述样本的分类信息对所述逻辑回归模型进行训练,以获得逻辑回归模型中各综合描述特征信息的差别信息的权重信息。7.根据权利要求6所述的方法,其中,获得所述预测分类模型的过程还包括:利用未进行过训练的若干所述差别信息和相应所述样本的分类信息对所述逻辑回归模型进行测试。8.根据权利要求5至7中任一项所述的方法,其中,所述利用预测分类模型将所述待确定类样本再分为相同类样本或不同类样本包括:获取所述待确定类样本中两个用户数据的若干综合描述特征信息的差别信息;将所述差别信息输入所述逻辑回归模型,获得所述样本的分类信息;基于所述样本的分类信息将所述待确定类样本再分为相同类样本或不同类样本。9.根据权利要求8所述的方法,其中,所述机器学习法包括随机...

【专利技术属性】
技术研发人员:白松李禹武凯潘静
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛;KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1