数据关联关系的确定方法、装置、电子设备和介质制造方法及图纸

技术编号:32363417 阅读:14 留言:0更新日期:2022-02-20 03:34
本公开涉及一种数据关联关系的确定方法、装置、电子设备和介质;其中,该方法包括:获取第一结构化数据和第二结构化数据,第一结构化数据和第二结构化数据同属于一个目标数据中;基于文本相似度算法,计算第一结构化数据和第二结构化数据之间的相似度;根据第一结构化数据和第二结构化数据之间的相似度,确定第一结构化数据和第二结构化数据的关联关系。本公开实施例能够准确确定出目标数据中包括的两个结构化数据之间的关联关系。结构化数据之间的关联关系。结构化数据之间的关联关系。

【技术实现步骤摘要】
数据关联关系的确定方法、装置、电子设备和介质


[0001]本公开涉及数据处理
,尤其涉及一种数据关联关系的确定方法、装置、电子设备和介质。

技术介绍

[0002]结构化数据也被称为行数据,即能够存储在数据库里,且可以用二维表结构来逻辑表达实现的数据。结构化数据中存储着多个行数据,且每个行数据之间具有一定的相似性,从而,能够表征出该结构化数据的内部相似度。
[0003]结构化数据的内部相似度能够直观反映出该结构化数据的数据安全性,且能够根据内部相似度对每组结构化数据进行有效的数据管理。因此,结构化数据中数据间的关联关系的确定是非常重要的。
[0004]现有技术中,主要是通过追溯结构化数据中每一内部数据的来源,来确定出该内部数据之间是否具有关联关系,但是,对于某些数据来源不准确的内部数据,使用该方法难以准确确定出该内部数据之间的关联关系。

技术实现思路

[0005]为了解决上述技术问题或者至少部分地解决上述技术问题,本公开提供了一种数据关联关系的确定方法、装置、电子设备和介质。
[0006]第一方面,本公开提供了一种数据关联关系的确定方法,包括:
[0007]获取第一结构化数据和第二结构化数据,所述第一结构化数据和所述第二结构化数据同属于一个目标数据中;
[0008]基于文本相似度算法,计算所述第一结构化数据和所述第二结构化数据之间的相似度;
[0009]根据所述第一结构化数据和所述第二结构化数据之间的相似度,确定所述第一结构化数据和所述第二结构化数据的关联关系。
[0010]可选的,所述获取第一结构化数据和第二结构化数据,包括:
[0011]从目标数据包含的所有结构化数据中选取任一结构化数据作为第一结构化数据,从目标数据中剩余的结构化数据中选取任一结构化数据作为第二结构化数据,所述剩余的结构化数据中不包括所述第一结构化数据;
[0012]或者,从目标数据包含的所有结构化数据中选取任一结构化数据作为第二结构化数据,从目标数据中剩余的结构化数据中选取任一结构化数据作为第一结构化数据,所述剩余的结构化数据中不包括所述第二结构化数据。
[0013]可选的,所述基于文本相似度算法,计算所述第一结构化数据和所述第二结构化数据之间的相似度,包括:
[0014]将所述第一结构化数据和所述第二结构化数据进行交操作,得到所述第一结构化数据和所述第二结构化数据的交数据;
[0015]将所述第一结构化数据和所述第二结构化数据进行并操作,得到所述第一结构化数据和所述第二结构化数据的并数据;
[0016]根据所述交数据和所述并数据,确定所述第一结构化数据和所述第二结构化数据之间的相似度。
[0017]可选的,所述根据所述交数据和所述并数据,确定所述第一结构化数据和所述第二结构化数据之间的相似度,包括:
[0018]计算所述交数据与预设数值的乘积,得到第一数值;
[0019]计算所述并数据与所述交数据之和,得到第二数值;
[0020]将所述第一数值和所述第二数值的比值作为所述第一结构化数据和所述第二结构化数据之间的相似度。
[0021]可选的,所述根据所述第一结构化数据和所述第二结构化数据之间的相似度,确定所述第一结构化数据和所述第二结构化数据的关联关系,包括:
[0022]检测到所述第一结构化数据和所述第二结构化数据之间的相似度大于或等于预设的相似度阈值,则确定所述第一结构化数据和所述第二结构化数据之间的关联关系属于强关联关系;
[0023]检测到所述第一结构化数据和所述第二结构化数据之间的相似度小于预设的相似度阈值,则确定所述第一结构化数据和所述第二结构化数据之间的关联关系属于弱关联关系。
[0024]可选的,所述方法还包括:
[0025]统计出所述目标数据中具有弱关联关系的结构化数据组,其中,所述具有弱关联关系的结构化数据组包括第三结构化数据;
[0026]计算所述第三结构化数据,与具有强关联关系的结构化数据组中包含的任一结构化数据的相似度;所述第三结构化数据属于所述目标数据中;
[0027]根据所述相似度,确定所述第三结构化数据是否属于弱关联结构化数据。
[0028]可选的,所述根据所述相似度,确定所述第三结构化数据是否属于弱关联结构化数据,包括:
[0029]检测到所述相似度小于预设的相似度阈值,则确定所述第三结构化数据属于弱关联结构化数据;
[0030]从所述目标数据中删除所述第三结构化数据。
[0031]第二方面,本公开提供了一种数据关联关系的确定装置,包括:
[0032]获取模块,用于获取第一结构化数据和第二结构化数据,所述第一结构化数据和所述第二结构化数据同属于一个目标数据中;
[0033]计算模块,用于基于文本相似度算法,计算所述第一结构化数据和所述第二结构化数据之间的相似度;
[0034]确定模块,用于根据所述第一结构化数据和所述第二结构化数据之间的相似度,确定所述第一结构化数据和所述第二结构化数据的关联关系。
[0035]可选的,获取模块,具体用于:
[0036]从目标数据包含的所有结构化数据中选取任一结构化数据作为第一结构化数据,从目标数据中剩余的结构化数据中选取任一结构化数据作为第二结构化数据,所述剩余的
结构化数据中不包括所述第一结构化数据;
[0037]或者,从目标数据包含的所有结构化数据中选取任一结构化数据作为第二结构化数据,从目标数据中剩余的结构化数据中选取任一结构化数据作为第一结构化数据,所述剩余的结构化数据中不包括所述第二结构化数据。
[0038]可选的,计算模块,包括:第一确定单元、第二确定单元和第三确定单元;
[0039]第一确定单元,用于将所述第一结构化数据和所述第二结构化数据进行交操作,得到所述第一结构化数据和所述第二结构化数据的交数据;
[0040]第二确定单元,用于将所述第一结构化数据和所述第二结构化数据进行并操作,得到所述第一结构化数据和所述第二结构化数据的并数据;
[0041]第三确定单元,用于根据所述交数据和所述并数据,确定所述第一结构化数据和所述第二结构化数据之间的相似度。
[0042]可选的,第三确定单元,具体用于:
[0043]计算所述交数据与预设数值的乘积,得到第一数值;
[0044]计算所述并数据与所述交数据之和,得到第二数值;
[0045]将所述第一数值和所述第二数值的比值作为所述第一结构化数据和所述第二结构化数据之间的相似度。
[0046]可选的,确定模块,具体用于:
[0047]检测到所述第一结构化数据和所述第二结构化数据之间的相似度大于或等于预设的相似度阈值,则确定所述第一结构化数据和所述第二结构化数据之间的关联关系属于强关联关系;
[0048]检测到所述第一结构化数据和所述第二结构化数据之间的相似度小于预设的相似度阈值,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据关联关系的确定方法,其特征在于,所述方法包括:获取第一结构化数据和第二结构化数据,所述第一结构化数据和所述第二结构化数据同属于一个目标数据中;基于文本相似度算法,计算所述第一结构化数据和所述第二结构化数据之间的相似度;根据所述第一结构化数据和所述第二结构化数据之间的相似度,确定所述第一结构化数据和所述第二结构化数据的关联关系。2.根据权利要求1所述的方法,其特征在于,所述获取第一结构化数据和第二结构化数据,包括:从目标数据包含的所有结构化数据中选取任一结构化数据作为第一结构化数据,从目标数据中剩余的结构化数据中选取任一结构化数据作为第二结构化数据,所述剩余的结构化数据中不包括所述第一结构化数据;或者,从目标数据包含的所有结构化数据中选取任一结构化数据作为第二结构化数据,从目标数据中剩余的结构化数据中选取任一结构化数据作为第一结构化数据,所述剩余的结构化数据中不包括所述第二结构化数据。3.根据权利要求1所述的方法,其特征在于,所述基于文本相似度算法,计算所述第一结构化数据和所述第二结构化数据之间的相似度,包括:将所述第一结构化数据和所述第二结构化数据进行交操作,得到所述第一结构化数据和所述第二结构化数据的交数据;将所述第一结构化数据和所述第二结构化数据进行并操作,得到所述第一结构化数据和所述第二结构化数据的并数据;根据所述交数据和所述并数据,确定所述第一结构化数据和所述第二结构化数据之间的相似度。4.根据权利要求3所述的方法,其特征在于,所述根据所述交数据和所述并数据,确定所述第一结构化数据和所述第二结构化数据之间的相似度,包括:计算所述交数据与预设数值的乘积,得到第一数值;计算所述并数据与所述交数据之和,得到第二数值;将所述第一数值和所述第二数值的比值作为所述第一结构化数据和所述第二结构化数据之间的相似度。5.根据权利要求1所述的方法,其特征在于,所述根据所述第一结构化数据和所述第二结构化数据之间的相似度,确定所述第一结构化数据和所述第二结构化数据...

【专利技术属性】
技术研发人员:毕凯峰王健张佳发黄潜胡健王劲午母天石李慧娟邓子杰周磊
申请(专利权)人:南方电网数字电网研究院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1