数据关联方法、装置、设备及存储介质制造方法及图纸

技术编号:26478687 阅读:19 留言:0更新日期:2020-11-25 19:22
本申请公开了一种数据关联方法、装置及存储介质,属于数据处理技术领域。所述方法包括:获取采集的多个数据集、以及多个数据集中每个数据集包括的每条数据的采集时间,多个数据集来自不同的数据源;确定多个数据集中的目标数据集包括的每条数据与其他数据集包括的每条数据之间的相似度;基于目标数据集和其他数据集中的每条数据的采集时间,确定目标数据集中的每条数据与其他数据集中的每条数据之间的置信度。相似度表示数据之间的语义上下文关联程度,置信度表示数据之间在时间维度上的关联程度,因此基于相似度和置信度能够准确将多源数据进行关联。

【技术实现步骤摘要】
数据关联方法、装置、设备及存储介质
本申请涉及数据处理
,特别涉及一种数据关联方法、装置、设备及存储介质。
技术介绍
物联网场景中一般存在大量的多源数据,其中,该多源数据是指来自不同数据源,且具有时间和空间属性的多个数据集,譬如,可以在某场景中设置多源数据采集设备,以通过该多源数据采集设备采集多个不同数据源的数据,得到多个数据集,如该多个数据集可以包括人脸标识数据集和终端标识数据集等。基于一些业务场景的需求,可能需要根据多源数据来确定某个目标或某个目标的特征等,比如,根据人脸标识数据集和终端标识数据集来确定某个目标人物。为了能够基于多源数据来确定某个目标,如何准确地将属于同一目标的不同源的数据进行关联成为研究的重点。
技术实现思路
本申请实施例提供了一种数据关联方法、装置、设备及存储介质,可以解决如何准确地将属于同一目标的不同源的数据进行关联的问题。所述技术方案如下:第一方面,提供了一种数据关联方法,所述方法包括:获取采集的多个数据集、以及所述多个数据集中每个数据集包括的每条数据的采集时间,所述多个数据本文档来自技高网...

【技术保护点】
1.一种数据关联方法,其特征在于,所述方法包括:/n获取采集的多个数据集、以及所述多个数据集中每个数据集包括的每条数据的采集时间,所述多个数据集来自不同的数据源;/n确定所述多个数据集中的目标数据集包括的每条数据与其他数据集包括的每条数据之间的相似度,所述目标数据集为所述多个数据集中的任一数据集,所述其他数据集为所述多个数据集中除所述目标数据集之外的数据集;/n基于所述目标数据集和所述其他数据集中的每条数据的采集时间,确定所述目标数据集中的每条数据与所述其他数据集中的每条数据之间的置信度;/n基于确定的相似度和置信度,将所述目标数据集中的数据与所述其他数据集中的数据进行关联。/n

【技术特征摘要】
1.一种数据关联方法,其特征在于,所述方法包括:
获取采集的多个数据集、以及所述多个数据集中每个数据集包括的每条数据的采集时间,所述多个数据集来自不同的数据源;
确定所述多个数据集中的目标数据集包括的每条数据与其他数据集包括的每条数据之间的相似度,所述目标数据集为所述多个数据集中的任一数据集,所述其他数据集为所述多个数据集中除所述目标数据集之外的数据集;
基于所述目标数据集和所述其他数据集中的每条数据的采集时间,确定所述目标数据集中的每条数据与所述其他数据集中的每条数据之间的置信度;
基于确定的相似度和置信度,将所述目标数据集中的数据与所述其他数据集中的数据进行关联。


2.如权利要求1所述的方法,其特征在于,所述确定所述多个数据集中的目标数据集包括的每条数据与其他数据集包括的每条数据之间的相似度,包括:
对于所述其他数据集中的任一数据集,按照所述目标数据集和所述任一数据集中的每条数据的采集时间的先后顺序,对所述目标数据集和所述任一数据集中的数据进行排序,得到第一数据向量;
基于参考时间阈值对所述第一数据向量进行时间段划分,得到第二数据向量,所述第二数据向量包括多个时间段,每个时间段包括多条数据;
基于所述第二数据向量,确定所述目标数据集包括的每条数据与所述任一数据集包括的每条数据之间的相似度。


3.如权利要求2所述的方法,其特征在于,所述基于所述第二数据向量,确定所述目标数据集包括的每条数据与所述任一数据集包括的每条数据之间的相似度,包括:
将所述第二数据向量作为语料输入至目标自然语言模型中,由所述目标自然语言模型进行处理,输出所述多个时间段内所述目标数据集中的数据与所述任一数据集中的数据之间的子相似度;
获取所述目标数据集中的每条数据与所述任一数据集中的每条数据在每个时间段内的子相似度;
将获取的子相似度进行求和运算,得到所述目标数据集中的每条数据与所述任一数据集中的每条数据之间的相似度。


4.如权利要求1所述的方法,其特征在于,所述基于所述目标数据集和所述其他数据集中的每条数据的采集时间,确定所述目标数据集中的每条数据与所述其他数据集中的每条数据之间的置信度,包括:
对于所述其他数据集中的任一数据集,基于参考时间阈值分别对所述目标数据集中的数据和所述任一数据集中的数据进行时间段划分;
在每个相同的时间段内,遍历所述目标数据集中的每条数据的采集时间和所述任一数据集中的每条数据的采集时间,基于遍历的采集时间,确定所述目标数据集中的每条数据与所述任一数据集中的每条数据之间的置信度。


5.如权利要求4所述的方法,其特征在于,所述基于遍历的采集时间,确定所述目标数据集中的每条数据与所述任一数据集中的每条数据之间的置信度,包括:
基于遍历的采集时间,确定每个时间段内的所述目标数据集中的数据与所述任一数据集中的数据之间的子置信度;
获取所述目标数据集中的每条数据与所述任一数据集中的每条数据在每个时间段内的子置信度;
将获取的子置信度进行求和运算,得到所述目标数据集中的每条数据与所述任一数据集中的每条数据之间的置信度。


6.如权利要求1-5任一项所述的方法,其特征在于,所述基于确定的相似度和置信度,将所述目标数据集中的数据与所述其他数据集中的数据进行关联,包括:
当所述目标数据集中的任一数据与所述其他数据集中的任一数据之间的相似度大于或等于第一阈值,且置信度大于或等于第二阈值时,将所述目标数据集中的任一数据与所述其他数据集中的任一数据进行关联;
当所述目标数据集中的任一数据与所述其他数据集中的任一数据之间的相似度小于第一阈值,和/或,置信度小于第二阈值时,不对所述目标数据集中的任一数据与所述其他数据集中的任一数据进行关联。


...

【专利技术属性】
技术研发人员:李彬李林森
申请(专利权)人:杭州海康威视数字技术股份有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1