一种通过联系方式构建数据库的方法及装置制造方法及图纸

技术编号:39051049 阅读:14 留言:0更新日期:2023-10-12 19:43
本发明专利技术涉及数据处理领域,具体提供了一种通过联系方式构建数据库的方法及装置,具有如下步骤:S1、主题库数据存储;S2、数据可信度计算;S3、数据更新和查询。与现有技术相比,本发明专利技术可以快速整合多种数据来源的联系方式,构建一个方便、高效的联系方式查询分析库,同时提供了一种合理的数据可信度计算方法,可以较好的标识数据是否可信,具有很好的参考价值。具有很好的参考价值。具有很好的参考价值。

【技术实现步骤摘要】
一种通过联系方式构建数据库的方法及装置


[0001]本专利技术涉及数据处理领域,具体提供一种通过联系方式构建数据库的方法及装置。

技术介绍

[0002]随着社会信息化的发展,联系方式数据不再局限于少数几种来源,而是拥有多种数据来源,这导致数据分布在多个数据表中,而且数据结构各异,对数据的查询和分析非常不便,比如快递、会员卡、租房、燃气缴费等等来源均存在联系方式。对于这种情况,如果要查询一个人的所有联系方式,需要去多个数据表进行查询,而且各个数据来源的可信度是不一样的,对于最终查询结果也没有一个可度量的值去判断数据的真实性。
[0003]因此构建联系方式主题库,将多种数据来源整合到一起,提供数据可信度的计算,对于本领域的技术人员进行查询分析是非常有帮助的。

技术实现思路

[0004]本专利技术是针对上述现有技术的不足,提供一种实用性强通过联系方式构建数据库的方法。
[0005]本专利技术进一步的技术任务是提供一种设计合理,安全适用的通过联系方式构建数据库的装置。
[0006]本专利技术解决其技术问题所采用的技术方案是:
[0007]一种通过联系方式构建数据库的方法,具有如下步骤:
[0008]S1、主题库数据存储;
[0009]S2、数据可信度计算;
[0010]S3、数据更新和查询。
[0011]进一步的,在步骤S1中,使用列式存储数据库对主题库数据进行存储,以列的形式保存联系方式使用记录,一个人的某个联系方式的所有数据记录均存在一行数据中。
[0012]进一步的,在步骤S2中,进一步包括:
[0013]S201、对联系方式涉及到的资源进行可信度打分;
[0014]S202、在联系方式可信度的计算中需要加入时间因素;
[0015]S203、计算联系方式可信度方法。
[0016]进一步的,在步骤S201中,对联系方式涉及到的资源进行可信度打分,按照不同的类别,同一资源具有不同的可信度,需要按照类别进行资源可信度设置。
[0017]进一步的,在步骤S202中,在联系方式可信度的计算中需要加入时间因素,采用资源权重和时间系数相乘的方式进行计算,时间系数采用公式如下:
[0018][0019]其中,t为联系方式记录业务时间距离当前时间的天数,参数T可以根据业务情况
调整时间系数随时间变化的速度。
[0020]进一步的,在步骤S203中,设第i次记录对应的资源可信度为S
i
,业务时间对应的时间系数为y
i
,那么该次记录联系方式为不可信的概率为1

S
i
y
i
,由此得到对于联系方式可信概率,即可信度为:
[0021][0022]其中,n为联系方式记录总数;
[0023]存在历史数据多次出现,而近期没有出现导致可信度偏高,需要对最终可信度进行修正,使用如下公式:
[0024]PF=Py
t

[0025]其中,P为上述可信度计算结果,y
t
为联系方式最新使用时间的时间系数。
[0026]进一步的,在步骤S3中,根据步骤S2中可信度计算,定时对数据可信度进行全量更新,并提供数据的实时查询,使用最新数据对可信度进行计算。
[0027]一种通过联系方式构建数据库的装置,包括:至少一个存储器和至少一个处理器;
[0028]所述至少一个存储器,用于存储机器可读程序;
[0029]所述至少一个处理器,用于调用所述机器可读程序,执行一种通过联系方式构建数据库的方法。
[0030]本专利技术的一种通过联系方式构建数据库的方法及装置和现有技术相比,具有以下突出的有益效果:
[0031]本专利技术可以快速整合多种数据来源的联系方式,构建一个方便、高效的联系方式查询分析库,同时提供了一种合理的数据可信度计算方法,可以较好的标识数据是否可信,具有很好的参考价值。
附图说明
[0032]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0033]附图1是一种通过联系方式构建数据库的方法中时间系数的变化曲线示意图。
具体实施方式
[0034]为了使本
的人员更好的理解本专利技术的方案,下面结合具体的实施方式对本专利技术作进一步的详细说明。显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例都属于本专利技术保护的范围。
[0035]下面给出一个最佳实施例:
[0036]本实施例中的一种通过联系方式构建数据库的方法,具有如下步骤:
[0037]S1、主题库数据存储;
[0038]使用列式存储数据库对主题库数据进行存储,以列的形式保存联系方式使用记录,一个人的某个联系方式的所有数据记录均存在一行数据中。
[0039]以HBASE为例设计如下表结构:
[0040]其中,[表名]@[原表主键]列记录联系方式来源库的业务记录,多条记录指多少列,一个人的某个联系方式的所有数据记录均存在一行数据中,ROWKEY使用身份证号作为前缀,方便HBASE检索,对于数据进行MD5编码,是为了避免某些特殊字符作为ROWKEY,比如中文地址。
[0041]S2、数据可信度计算;
[0042]进一步包括:
[0043]S201、对联系方式涉及到的资源进行可信度打分,按照不同的类别,同一资源具有不同的可信度,需要按照类别进行资源可信度设置。
[0044]S202、由于联系方式是具有时效性的,在联系方式可信度的计算中需要加入时间因素,本方法采用资源权重和时间系数相乘的方式进行计算,时间系数采用公式如下:
[0045][0046]其中,t为联系方式使用记录业务时间距离当前时间的天数,参数T可以根据业务情况调整时间系数随时间变化的速度。
[0047]如图1所示,为T=10时的变化曲线,根据实际经验,对于联系方式可信度时效性来说,开始一段时间时效性不会有太大变化,超过一定时间后时效性会快速下降,直到最后趋于0,基本忽略。
[0048]S203、计算联系方式可信度方法;
[0049]设第i次记录对应的资源可信度为S
i
,其业务时间对应的时间系数为y
i
,那么该次记录联系方式为不可信的概率为1

S
i
y
i
,由此得到对于该联系方式可信概率,即可信度为:
[0050][0051]其中,n为联系方式记录总数;
[0052]因为存在历史数据多次出现,而近期没有本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种通过联系方式构建数据库的方法,其特征在于,具有如下步骤:S1、主题库数据存储;S2、数据可信度计算;S3、数据更新和查询。2.根据权利要求1所述的一种通过联系方式构建数据库的方法,其特征在于,在步骤S1中,使用列式存储数据库对主题库数据进行存储,以列的形式保存联系方式使用记录,一个人的某个联系方式的所有数据记录均存在一行数据中。3.根据权利要求2所述的一种通过联系方式构建数据库的方法,其特征在于,在步骤S2中,进一步包括:S201、对联系方式涉及到的资源进行可信度打分;S202、在联系方式可信度的计算中需要加入时间因素;S203、计算联系方式可信度方法。4.根据权利要求3所述的一种通过联系方式构建数据库的方法,其特征在于,在步骤S201中,对联系方式涉及到的资源进行可信度打分,按照不同的类别,同一资源具有不同的可信度,需要按照类别进行资源可信度设置。5.根据权利要求4所述的一种通过联系方式构建数据库的方法,其特征在于,在步骤S202中,在联系方式可信度的计算中需要加入时间因素,采用资源权重和时间系数相乘的方式进行计算,时间系数采用公式如下:其中,t为联系方式记录业务时间距离当前时间的天数,参数T可以根据业务情况调整时间系数随时间变化的速度...

【专利技术属性】
技术研发人员:王宁夏华张峰朱家兵李照川王彦功张悦
申请(专利权)人:浪潮软件科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1