一种创建个人画像的方法及装置制造方法及图纸

技术编号:19023368 阅读:29 留言:0更新日期:2018-09-26 19:03
本发明专利技术涉及一种创建个人画像的方法及装置。该方法包括:获取与个人画像相关的数据;对与个人画像相关的数据进行预处理,获取预处理后的数据;对预处理后的数据进行分类;对分类后的数据与个人信息进行匹配,并将匹配成功后的数据存储至与个人信息对应的个人信息数据库;利用个人信息数据库中存储的数据,创建与个人对应的个人画像。获取与个人画像相关的数据后,进行相应的预处理。可以去除一些无用的数据或者重复的数据等等。然后对数据进行分类后,再和个人信息进行匹配,以便于匹配后的数据同样是分类存储的。根据匹配成功后的数据创建个人画像,完整地刻画了个人的全面方位信息,使创建的个人画像更加全面,更加客观。

【技术实现步骤摘要】
一种创建个人画像的方法及装置
本专利技术涉及数据处理领域,尤其涉及一种创建个人画像的方法及装置。
技术介绍
个人画像具体是指通过分析一个或多个来源的数据,对同个人相关的信息进行提炼与整理,从而得到刻画、描述个人知识领域、信用情况等多个方面的“画像”,即数据集。现阶段,在许多针对个人的业务或应用中,都是基于个人画像所确定的个人相关信息而开展,如各种产品、服务推荐。伴随着互联网信息的海量扩张,以及社会信息化程度的提高,同个人相关的信息、数据也在飞速的增加,这也导致个人画像这一技术方法的应用更加丰富,分析成果更具说服力。例如,在互联网领域普遍的个人产品推荐系统,就可以理解为个人画像的一种应用形式,这类应用中,系统(或移动端应用程序(Application,简称App))会分析来自用户的浏览记录以及历史购物信息,通过分析模型提炼关键的指标或特征,完成个人的“画像”,并最终形成对个人产品或服务的推荐。个人征信同样也是个人画像应用较广的领域,许多互联网金融公司通过各种信息对个人的信用情况进行“画像”,并基于画像得分确定信用额度。综上,个人画像方法通过一段时间的发展,在现阶段有着较广的应用。与此同时,通过广泛了解、分析已有的个人画像应用情况,发现目前个人画像在设计、应用过程中主要存在着三个方面的缺点,包括数据源单一,数据形式偏重结构化数据以及应用场景局限。不同的个人画像在这三个方面都有着不同程度的体现,但是这三个方面无论哪一者的出现,都会对个人画像的应用效果造成显著的负面影响。以下便是对这三个方面的详细阐述。数据源单一是现有个人画像方法应用中最为广泛的问题,对个人画像的应用效果造成了直接的限制,同样也是个人画像丰富最难以突破的瓶颈。诸多分析认为,数据是21世纪信息化发展的源动力,当前的时代是数据时代,这个特点在个人画像中体现的尤为明显。个人画像的目的在于对个人的多个层面进行数据支持的刻画,而实现这一过程需要丰富数据源的驱动。现有的个人画像多数仅采用单一渠道的源数据,或为央行信用报告,或为房产车辆信息,较少能够将多方面数据源整合利用。而这很大程度归因于当前隐私数据的保护,为实现数据渠道的丰富,往往需要多倍于此的成本。数据形式偏重结构化这一缺点在部分个人画像应用中体现的尤为明显。其中就包括针对央行信用报告分析的个人信用情况,个人还款能力评估等场景。结构化数据即“行数据”,指可以在数据库中用二维表结构来进行描述的数据,在上述这部分应用中,所有的分析都基于报表中的数值型或分类型数据,这一特点会导致个人画像的丰富程度存在不足。应用场景局限在一定程度上是目前大部分个人画像方法的通病,这指的是目前的个人画像往往是为某一特定的应用目标(如产品推荐,个人征信等)而开展,因此导致收集的目标数据源存在单一围绕分析目标的特点。
技术实现思路
为解决上述技术问题,本专利技术提供了一种创建个人画像的方法及装置。第一方面,本专利技术提供了一种创建个人画像的方法,该方法包括:获取与个人画像相关的数据;对与个人画像相关的数据进行预处理,获取预处理后的数据;对预处理后的数据进行分类;对分类后的数据与个人信息进行匹配,并将匹配成功后的数据存储至与个人信息对应的个人信息数据库;利用个人信息数据库中存储的数据,创建与个人对应的个人画像。本专利技术的有益效果是:获取与个人画像相关的数据后,进行相应的预处理。可以去除一些无用的数据或者重复的数据等等。然后对数据进行分类后,再和个人信息进行匹配,以便于匹配后的数据同样是分类存储的。根据匹配成功后的数据创建个人画像,完整地刻画了个人的全面方位信息,使创建的个人画像更加全面,更加客观。进一步,对与个人画像相关的数据进行预处理,获取预处理后的数据,具体包括:对与个人画像相关的数据进行去重处理;分别提取经过去重处理后的与个人画像相关的数据中每一条数据对应的至少一个关键词;分别将至少一个关键词中的每一个关键词与关键词典中的关键词进行比对,当确定第一数据的至少一个关键词中所有关键词均不属于关键词典中的关键词时,去除第一数据,其中第一数据为经过去重处理后的与个人画像相关的数据中的任一条数据;将去除第一数据后的与个人画像相关的数据进行格式转换。采用上述进一步的方案的有益技术效果在于,将收集到的数据进行去重、去除无用数据,以及将数据进行格式转换等预处理,可以提高最终数据质量,统一数据标准。进一步,与个人画像相关的数据包括:政务数据和互联网数据。采用上述进一步的技术方案的有益技术效果在于,数据源来自于政务大数据和互联网大数据,数据来源更加广泛,拓展数据获取渠道,由此可以避免数据的单一性,数据形式偏重结构化,以及应用场景局限化等问题。进一步的,对预处理后的数据进行分类,具体包括:将预处理后的政务数据分为:个税信息类、个人处罚类、专利技术奖励类、信贷信息类、信用情况类以及技能证书类;将预处理后的互联网数据分为:个人社交信息类、个人介绍信息类以及个人相关新闻类。采用上述进一步的技术方案的有益技术效果在于:采用两大数据源,将数据分别分为九类。根据这九大类数据可以实现全方位的构建个人画像。进一步的,对分类后的数据与个人信息进行匹配,并将匹配成功后的数据存储至与个人信息对应的个人信息数据库,具体包括:当分类后的数据所属数据源中包含国家统一身份代码时,利用国家统一身份代码与个人信息进行匹配;当分类后的数据所属数据源中不包含国家统一身份代码时,采用模糊匹配算法,将分类后的数据与个人信息进行匹配,并将匹配成功后的数据存储至与个人信息对应的个人信息数据库。采用上述进一步的技术方案的有益技术效果在于:在进行数据分类后,将每一条数据和个人信息进行匹配。当数据源含有国家统一身份代码时,利用统一身份代码与个人信息相匹配。当不包含时,则利用模糊匹配的方法,进行匹配。最终获取一个高纬度、不同属性的大数据。第二方面,本专利技术提供了一种创建个人画像的装置,该装置包括:获取单元,用于获取与个人画像相关的数据;处理单元,用于对与个人画像相关的数据进行预处理,获取预处理后的数据;分类单元,用于对预处理后的数据进行分类;匹配单元,用于对分类后的数据与个人信息进行匹配,并将匹配成功后的数据存储至与个人信息对应的个人信息数据库;创建单元,用于利用个人信息数据库中存储的数据,创建与个人对应的个人画像。上述方案的有益技术效果在于,获取与个人画像相关的数据后,进行相应的预处理。可以去除一些无用的数据或者重复的数据等等。然后对数据进行分类后,再和个人信息进行匹配,以便于匹配后的数据同样是分类存储的。根据匹配成功后的数据创建个人画像,完整地刻画了个人的全面方位信息,使创建的个人画像更加全面,更加客观。进一步的,处理单元具体用于:对与个人画像相关的数据进行去重处理;分别提取经过去重处理后的与个人画像相关的数据中每一条数据对应的至少一个关键词;分别将至少一个关键词中的每一个关键词与关键词典中的关键词进行比对,当确定第一数据的至少一个关键词中所有关键词均不属于关键词典中的关键词时,去除第一数据,其中第一数据为经过去重处理后的与个人画像相关的数据中的任一条数据;将去除第一数据后的与个人画像相关的数据进行格式转换。采用上述进一步的方案的有益技术效果在于,将收集到的数据进行去重、去除无用数据,以及将数据进行格式转本文档来自技高网
...

【技术保护点】
1.一种创建个人画像的方法,其特征在于,所述方法包括:获取与个人画像相关的数据;对所述与个人画像相关的数据进行预处理,获取预处理后的数据;对所述预处理后的数据进行分类;对所述分类后的数据与个人信息进行匹配,并将匹配成功后的数据存储至与所述个人信息对应的个人信息数据库;利用所述个人信息数据库中存储的数据,创建与所述个人对应的个人画像。

【技术特征摘要】
1.一种创建个人画像的方法,其特征在于,所述方法包括:获取与个人画像相关的数据;对所述与个人画像相关的数据进行预处理,获取预处理后的数据;对所述预处理后的数据进行分类;对所述分类后的数据与个人信息进行匹配,并将匹配成功后的数据存储至与所述个人信息对应的个人信息数据库;利用所述个人信息数据库中存储的数据,创建与所述个人对应的个人画像。2.根据权利要求1所述的方法,其特征在于,所述对所述与个人画像相关的数据进行预处理,获取预处理后的数据,具体包括:对所述与个人画像相关的数据进行去重处理;分别提取经过去重处理后的与个人画像相关的数据中每一条数据对应的至少一个关键词;分别将所述至少一个关键词中的每一个关键词与关键词典中的关键词进行比对,当确定第一数据的至少一个关键词中所有关键词均不属于关键词典中的关键词时,去除所述第一数据,其中所述第一数据为所述经过去重处理后的与个人画像相关的数据中的任一条数据;将去除所述第一数据后的与个人画像相关的数据进行格式转换。3.根据权利要求1所述的方法,其特征在于,所述与个人画像相关的数据包括:政务数据和互联网数据。4.根据权利要求3所述的方法,其特征在于,对所述预处理后的数据进行分类,具体包括:将预处理后的政务数据分为:个税信息类、个人处罚类、发明奖励类、信贷信息类、信用情况类以及技能证书类;将预处理后的互联网数据分为:个人社交信息类、个人介绍信息类以及个人相关新闻类。5.根据权利要求1-4任一项所述的法,其特征在于,对所述分类后的数据与个人信息进行匹配,并将匹配成功后的数据存储至与所述个人信息对应的个人信息数据库,具体包括:当所述分类后的数据所属数据源中包含国家统一身份代码时,利用所述国家统一身份代码与所述个人信息进行匹配;当所述分类后的数据所属数据源中不包含所述国家统一身份代码时,采用模糊匹配算法,将所述分类后的数据与个人信息进行匹配,并将匹配成功后的数据...

【专利技术属性】
技术研发人员:许青圆王启力邰莉梅黄昕庭于莹
申请(专利权)人:神州数码系统集成服务有限公司许青圆
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1