The embodiment of the present invention discloses a method, device, device and storage medium for determining data reliability, which includes: acquiring user data from two or more data sources, user data including data content corresponding to different identification of users, data source attribute information and user data attribute information; and according to data source attribute information and use of data source attribute information in each user data. User data attribute information determines the reliability between data contents corresponding to different identifications; according to the reliability between data contents corresponding to different identifications in each user data, the target reliability between data contents corresponding to different identifications of users is determined. The embodiment of the invention can effectively calculate the correlation reliability between Internet data and improve the accuracy of the calculation of the correlation reliability.
【技术实现步骤摘要】
数据可靠度的确定方法、装置、设备和存储介质
本专利技术实施例涉及数据处理
,尤其涉及一种数据可靠度的确定方法、装置、设备和存储介质。
技术介绍
随着社会和科技的发展,越来越多的信息可以被记录下来,形成海量的社会信息的数据。但是对这些海量数据进行高效的分析和利用,在现阶段依然是一个难题,其中最为困难的是对数据之间的关联性进行计算存储。社会信息的数据中包括用户身份信息,因此数据之间的关联性包括同一用户身份的不同数据之间的关联性和非同一用户身份的不同数据之间的关联性,其中同一用户身份的不同数据之间的关联性的准确度和可靠度非常重要。档案是对一个用户的刻画,包括一个用户身份的各种不同数据,若同一用户身份的各种数据能够全部正确关联起来,形成一个关联的数据组,便能将该用户的档案刻画的更清晰,能够产生巨大的数据使用价值。但是其前提是,数据的关联必须是有效的、正确的,否则错误的关联可能严重损害数据使用价值。档案虽然可靠度非常高,但是档案中的数据大多是线下数据,收集效率很低。而互联网上的档案,虽然数据量很高,但是由于其固有局限性,其与真实个人的关联可靠度较低,不能满足需求。现有 ...
【技术保护点】
1.一种数据可靠度的确定方法,其特征在于,包括:获取来自两个或两个以上的数据源的用户数据,所述用户数据包括用户不同标识对应的数据内容、数据源属性信息和用户数据属性信息;根据每一用户数据中的数据源属性信息和用户数据属性信息确定不同标识对应的数据内容之间的可靠度;根据每一用户数据中不同标识对应的数据内容之间的可靠度,确定所述用户不同标识对应的数据内容之间的目标可靠度。
【技术特征摘要】
1.一种数据可靠度的确定方法,其特征在于,包括:获取来自两个或两个以上的数据源的用户数据,所述用户数据包括用户不同标识对应的数据内容、数据源属性信息和用户数据属性信息;根据每一用户数据中的数据源属性信息和用户数据属性信息确定不同标识对应的数据内容之间的可靠度;根据每一用户数据中不同标识对应的数据内容之间的可靠度,确定所述用户不同标识对应的数据内容之间的目标可靠度。2.根据权利要求1所述的方法,其特征在于,还包括:根据数量阈值、可靠度阈值以及所述用户不同标识对应的数据内容之间的可靠度优化所述用户数据。3.根据权利要求1所述的方法,其特征在于,所述数据源属性信息包括数据源权重,所述用户数据属性信息包括用户数据的出现次数权重、用户数据的时间权重、用户数据的丰富程度权重、用户数据的规范程度权重、用户数据的类别参考值和用户数据的勾稽惩罚度。4.根据权利要求3所述的方法,其特征在于,根据每一用户数据中的数据源属性信息和用户数据属性信息确定不同标识对应的数据内容之间的可靠度,包括:用户数据中用户不同标识对应的数据内容之间的可靠度=(数据源权重+用户数据的出现次数权重×次数系数+用户数据的时间权重×时间系数+用户数据的丰富程度权重×丰富程度评估值+用户数据的规范程度权重×规范程度评估值)×用户数据的类别参考值×(1-用户数据的勾稽惩罚度)/5。5.根据权利要求1所述的方法,其特征在于,根据每一用户数据中不同标识对应的数据内容之间的可靠度,确定所述用户不同标识对应的数据内容之间的目标可靠度,包括:基于每一用户数据中不同标识对应的数据内容之间的可靠度及合并可靠度公式,确定所述用户不同标识对应的数据内容之间的目标可靠度;所述合并可靠度公式表示为:Ki=...
【专利技术属性】
技术研发人员:张志远,陶劲,万月亮,
申请(专利权)人:北京锐安科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。