人员信息数据整合方法、系统和计算机可读存储介质技术方案

技术编号：38266158 阅读：12 留言：0更新日期：2023-07-27 10:23

本发明专利技术公开了一种人员信息数据整合方法，包括：S101、创建人员基础库，人员基础库用于导入人员信息数据并形成人员信息表，人员基础库具有多个分库表；S102、确定数据记录的排重键，基于排重键对人员信息数据进行去重；S103、将去重后的所述人员信息数据均分至不同的所述分库表中；S104、将人员信息数据与所述人员信息表进行匹配，其中，响应于人员信息数据为异常数据，根据可信度权值选取异常数据中可信度最高的一条作为人员属性所对应的人员信息数据与人员信息表进行匹配，异常数据为针对同一人员属性的多条内容不一致的人员信息数据。本发明专利技术能够更好地进行负载均衡，从而保证以较快的速度进行查询和更新处理，数据选取的准确度也更高。也更高。也更高。

全部详细技术资料下载

【技术实现步骤摘要】
人员信息数据整合方法、系统和计算机可读存储介质

[0001]本申请涉及人员信息分析
，尤其是涉及一种人员信息数据整合方法、系统和计算机可读存储介质。

技术介绍

[0002]当前互联网背景下，每时每刻都产生着各种数据，这些数据中蕴含着丰富的潜在知识，各行各业的决策者也意识到了这些大量数据的价值，利用云计算、数据挖掘等新型技术从这些大数据中挖掘知识，支持决策以及进行犯罪证据查询。
[0003]在这些大数据分析中，人员属性的分析是一个重点，所有的分析都是针对“人员”来进行的，因此需要对采集人员信息数据进行整合得到以人员为中心的人员信息表。然而，由于数据来源的多样性，真实数据的复杂性，采集来的人员信息数据很可能存在数据冲突，例如同一个卡号在不同的平台有不同的姓名，同一个身份证有不同的姓名，在分析时会造成很大的误解，因此需要对人员信息数据进行整合，以保证人员信息数据的准确性。此外，随着分析维度(公安数据，人员基础数据，社会数据等)的增加以及数据量的增加，数据的更新和处理速度会大幅度降低。
[0004]综上，需要一种准确度较高且更新处理速度较快的人员信息数据整合方法。

技术实现思路

[0005]为了解决现有技术中存在的上述技术问题，本申请提供了一种人员信息数据整合方法、系统和计算机可读存储介质，以解决上述问题。
[0006]根据本申请的一个方面，提出了一种人员信息数据整合方法，包括如下步骤：
[0007]S101、创建人员基础库，人员基础库用于导入人员信息数据并形成人员信息表...

【技术保护点】

【技术特征摘要】
1.一种人员信息数据整合方法，其特征在于，包括如下步骤：S101、创建人员基础库，所述人员基础库用于导入人员信息数据并形成人员信息表，所述人员基础库具有多个分库表；S102、确定数据记录的排重键，基于所述排重键对人员信息数据进行去重；S103、将去重后的所述人员信息数据均分至不同的所述分库表中；S104、将所述人员信息数据与所述人员信息表进行匹配，其中，响应于所述人员信息数据为异常数据，根据可信度权值选取所述异常数据中可信度最高的一条作为人员属性所对应的所述人员信息数据与所述人员信息表进行匹配，所述异常数据为针对同一所述人员属性的多条内容不一致的所述人员信息数据。2.根据权利要求1所述的人员信息数据整合方法，其特征在于，所述S102中确定数据记录的排重键的操作包括：将所述人员信息数据表示为S＝{d1，d2，
…
，dm}的形式，其中，S表示所述人员信息数据，d为所述人员信息数据中的一个字段，m为所述人员信息数据中的字段数量；对m个所述字段进行连接操作，所述连接操作为，使用&作为字符串拼接符号将m个所述字段连接，使所述人员信息数据转化成S＝{d1&d2&
…
&dm}的形式；对所述S＝{d1&d2&
…
&dm}进行散列映射，得到排重键的取值t。3.根据权利要求2所述的人员信息数据整合方法，其特征在于，所述散列映射的算法为MD5算法。4.根据权利要求1所述的人员信息数据整合方法，其特征在于，将去重后的所述人员信息数据均分至不同的所述分库表中的具体操作为：S201、响应于检测到所述人员基础库的链表链不为空，设置一个取值范围为[0,i)的随机函数，i的初始值为1；S202、对所述随机函数进行一次取值，若所述随机函数取值为0，则向第i个结点对应的所述分库表插入一条所述人员信息数据且i的取值增加1，否则i的取值增加1且不向所述第i个结点对应的所述分库表插入所述人员信息数据；S203、判断i的取值是否大于所述链表链中的结点个数n，若是，则令i＝1并重复S202，否则直接进入S202，直至所述人员信息数据全部被插入所述分库表。5.根据权利要求1所述的人员信息数据整合方法，其特征在于，根据所述可信度权值选取所述异常数据中可信度最高的一条所述人员信息数据的方法为通过二叉树进行遍历查询，其中，所述二叉树的左侧的人员信息数据的可信度权值较高低的数据，右侧的人员信息数据的可信度权值较高，所述遍历查询为后序算法遍历查询。6.根据权利要求1所述的人员信息数据整合方法，其特征在于，所述可信度权值的设置依据包括信息来源、获取手段和置信度中的至少一种。7.根据权利要求1所述的人员信息数据整合方法，其特征在于，所述人员基础库使用Postgres数据库创建。8.计算机可读存储介质，其上存储有一或多个计算机程序，其特征在于，该一或多个计算机程序被计算机处理...

【专利技术属性】
技术研发人员：吴松松，李锐，陈汀，姚志强，张磊，田野，
申请(专利权)人：厦门市美亚柏科信息股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人