一种数据匹配方法及其相关设备组成比例

技术编号:30826234 阅读:21 留言:0更新日期:2021-11-18 12:24
本申请实施例公开了一种数据匹配方法及其相关设备,该方法包括:在获取到具有较低数据量的第一组医学数据和具有较高数据量的第二组医学数据之后,先将该第一组医学数据与该第二组医学数据进行预设聚类处理,得到至少一个聚类数据集,以使这些聚类数据集能够准确地表示出该第一组医学数据中各个第一医学数据分别与该第二组医学数据中那些第二医学数据属于同一类;再根据该至少一个聚类数据集,将各个第一医学数据分别与其所属聚类类别下至少一个第二医学数据之间建立匹配关系,如此能够实现“一对多”的匹配目的,从而能够有效地提高医学数据匹配对的数据量,如此有利于提高研究分析结果的准确性。究分析结果的准确性。究分析结果的准确性。

【技术实现步骤摘要】
一种数据匹配方法及其相关设备


[0001]本申请涉及数据分析
,具体涉及一种数据匹配方法及其相关设备。

技术介绍

[0002]在一些医学研究场景(例如,针对某疾病诱因的研究等场景)中,需要先将两组医学数据(例如,病例组医学数据和对照组医学数据)进行匹配;再利用各对匹配成功的医学数据(下文简称,医学数据匹配对)进行研究分析。
[0003]然而,因相关数据匹配技术存在缺陷,使得在一些特殊场景(如,上述两组医学数据的数据量不一致等场景)下利用该相关数据匹配技术确定的医学数据匹配对也存在缺陷,如此易导致后续基于这些医学数据匹配对确定的研究分析结果不准确。

技术实现思路

[0004]有鉴于此,本申请实施例提供一种数据匹配方法及其相关设备,能够提高研究分析结果的准确性。
[0005]为解决上述问题,本申请实施例提供的技术方案如下:
[0006]本申请实施例提供了一种数据匹配方法,所述方法包括:
[0007]获取第一组医学数据和第二组医学数据;其中,所述第一组医学数据的数据量不高于所述第二组医学数据的数据量;
[0008]将所述第一组医学数据与所述第二组医学数据进行预设聚类处理,得到至少一个聚类数据集;
[0009]根据所述至少一个聚类数据集,确定所述第一组医学数据中各个第一医学数据与所述第二组医学数据中至少一个第二医学数据之间的匹配关系。
[0010]在一种可能的实施方式中,所述第一医学数据的数据维度为N,且所述第二医学数据的数据维度为N;其中,N为正整数;
[0011]所述至少一个聚类数据集的确定过程,包括:
[0012]将所述第一组医学数据与所述第二组医学数据在N个数据维度上进行第一聚类处理,得到至少一个第一数据集合;
[0013]将所述至少一个第一数据集合在第t个维度目标上进行第二聚类处理,得到所述第t个维度目标对应的至少一个第二数据集合;其中,所述第t个维度目标包括至少一个所述数据维度;t为正整数,t≤T,T为正整数,T表示所述维度目标的个数,且T个维度目标是根据所述N个数据维度确定的;
[0014]将所述第t个维度目标对应的至少一个第二数据集合进行第三聚类处理,得到所述第t个维度目标对应的至少一个第三数据集合;其中,t为正整数,t≤T;
[0015]根据第1个维度目标对应的至少一个第三数据集合至第T个维度目标对应的至少一个第三数据集合,确定所述至少一个聚类数据集。
[0016]在一种可能的实施方式中,所述将所述第一组医学数据与所述第二组医学数据在
N个数据维度上进行第一聚类处理,得到至少一个第一数据集合,包括:
[0017]根据所述N个数据维度、所述第一组医学数据和所述第二组医学数据,构建数据分布空间;按照预设划分方式对所述数据分布空间进行单元划分,得到至少一个划分单元;从所述至少一个划分单元中筛选出满足预设筛选条件的至少一个待使用单元;其中,所述待使用单元用于表示所述第一数据集合;
[0018]所述将所述至少一个第一数据集合在第t个维度目标上进行第二聚类处理,得到所述第t个维度目标对应的至少一个第二数据集合,包括:
[0019]按照所述第t个维度目标对应的预设单元合并规则,将所述至少一个待使用单元在所述第t个维度目标上进行合并处理,得到所述第t个维度目标对应的至少一个待使用区域;根据所述至少一个待使用区域,确定所述第t个维度目标对应的至少一个第二数据集合。
[0020]在一种可能的实施方式中,所述将所述第t个维度目标对应的至少一个第二数据集合进行第三聚类处理,得到所述第t个维度目标对应的至少一个第三数据集合,包括:
[0021]根据所述第t个维度目标对应的至少一个第二数据集合,确定待合并对象集;其中,所述待合并对象集包括至少一个待合并对象;所述待合并对象用于表示所述第二数据集合;
[0022]确定所述待合并对象集中任意两个待合并对象之间的相似度;
[0023]根据所述待合并对象集中任意两个待合并对象之间的相似度,从所述待合并对象集中查找满足预设合并条件的至少一对目标合并对象;
[0024]将所述待合并对象集中各对目标合并对象分别进行合并处理,并继续执行所述确定所述待合并对象集中任意两个待合并对象之间的相似度的步骤,直至在确定达到预设停止条件时,根据所述待合并对象集,确定所述第t个维度目标对应的至少一个第三数据集合。
[0025]在一种可能的实施方式中,所述待合并对象集包括第一对象和第二对象,且所述第一对象与第二对象之间的相似度的确定过程,包括:
[0026]根据所述第t个维度目标对应的至少一个第二数据集合,构建K最近邻图;其中,所述K最近邻图用于记录所述至少一个第二数据集合中任一数据与其K个最近邻数据之间的连接权重;
[0027]根据所述K最近邻图,确定所述第一对象与所述第二对象之间的相对互联度、以及所述第一对象与所述第二对象之间的相对接近度;
[0028]根据所述第一对象与所述第二对象之间的相对互联度、以及所述第一对象与所述第二对象之间的相对接近度,确定所述第一对象与所述第二对象之间的相似度。
[0029]在一种可能的实施方式中,所述根据所述至少一个聚类数据集,确定所述第一组医学数据中各个第一医学数据与所述第二组医学数据中至少一个第二医学数据之间的匹配关系,包括:
[0030]根据所述第t个维度目标对应的至少一个第三数据集合,确定所述第t个维度目标对应的匹配关系;其中,t为正整数,t≤T;
[0031]将第1个维度目标对应的匹配关系至第T个维度目标对应的匹配关系进行集合,得到所述第一组医学数据中各个第一医学数据与所述第二组医学数据中至少一个第二医学
数据之间的匹配关系。
[0032]在一种可能的实施方式中,所述方法还包括:
[0033]获取终端用户输入的至少一个非关注变量;
[0034]在确定所述至少一个非关注变量与T个维度目标中待使用维度目标匹配时,将所述待使用维度目标对应的匹配关系发送给终端用户。
[0035]在一种可能的实施方式中,所述第一组医学数据包括R个第一医学数据;所述至少一个聚类数据集包括目标数据集;
[0036]当所述目标数据集包括第r个第一医学数据和D
r
个第二医学数据时,所述匹配关系的确定过程,包括:
[0037]建立所述第r个第一医学数据与所述D
r
个第二医学数据中各个第二医学数据之间的匹配关系;其中,r为正整数,r≤R,R为正整数;D
r
为正整数;
[0038]和/或,
[0039]当所述目标数据集包括第r个第一医学数据和Dr个第二医学数据时,所述匹配关系的确定过程,包括:
[0040]从所述D
r
个第二医学数据中筛选至少一个目标医学数据,以使各个所述目标医学数据与所述第r个第一医学数据之间的相似度均达到预设相似条件,并建立本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据匹配方法,其特征在于,所述方法包括:获取第一组医学数据和第二组医学数据;其中,所述第一组医学数据的数据量不高于所述第二组医学数据的数据量;将所述第一组医学数据与所述第二组医学数据进行预设聚类处理,得到至少一个聚类数据集;根据所述至少一个聚类数据集,确定所述第一组医学数据中各个第一医学数据与所述第二组医学数据中至少一个第二医学数据之间的匹配关系。2.根据权利要求1所述的方法,其特征在于,所述第一医学数据的数据维度为N,且所述第二医学数据的数据维度为N;其中,N为正整数;所述至少一个聚类数据集的确定过程,包括:将所述第一组医学数据与所述第二组医学数据在N个数据维度上进行第一聚类处理,得到至少一个第一数据集合;将所述至少一个第一数据集合在第t个维度目标上进行第二聚类处理,得到所述第t个维度目标对应的至少一个第二数据集合;其中,所述第t个维度目标包括至少一个所述数据维度;t为正整数,t≤T,T为正整数,T表示所述维度目标的个数,且T个维度目标是根据所述N个数据维度确定的;将所述第t个维度目标对应的至少一个第二数据集合进行第三聚类处理,得到所述第t个维度目标对应的至少一个第三数据集合;其中,t为正整数,t≤T;根据第1个维度目标对应的至少一个第三数据集合至第T个维度目标对应的至少一个第三数据集合,确定所述至少一个聚类数据集。3.根据权利要求2所述的方法,其特征在于,所述将所述第一组医学数据与所述第二组医学数据在N个数据维度上进行第一聚类处理,得到至少一个第一数据集合,包括:根据所述N个数据维度、所述第一组医学数据和所述第二组医学数据,构建数据分布空间;按照预设划分方式对所述数据分布空间进行单元划分,得到至少一个划分单元;从所述至少一个划分单元中筛选出满足预设筛选条件的至少一个待使用单元;其中,所述待使用单元用于表示所述第一数据集合;所述将所述至少一个第一数据集合在第t个维度目标上进行第二聚类处理,得到所述第t个维度目标对应的至少一个第二数据集合,包括:按照所述第t个维度目标对应的预设单元合并规则,将所述至少一个待使用单元在所述第t个维度目标上进行合并处理,得到所述第t个维度目标对应的至少一个待使用区域;根据所述至少一个待使用区域,确定所述第t个维度目标对应的至少一个第二数据集合。4.根据权利要求2或3所述的方法,其特征在于,所述将所述第t个维度目标对应的至少一个第二数据集合进行第三聚类处理,得到所述第t个维度目标对应的至少一个第三数据集合,包括:根据所述第t个维度目标对应的至少一个第二数据集合,确定待合并对象集;其中,所述待合并对象集包括至少一个待合并对象;所述待合并对象用于表示所述第二数据集合;确定所述待合并对象集中任意两个待合并对象之间的相似度;根据所述待合并对象集中任意两个待合并对象之间的相似度,从所述待合并对象集中查找满足预设合并条件的至少一对目标合并对象;
将所述待合并对象集中各对目标合并对象分别进行合并处理,并继续执行所述确定所述待合并对象集中任意两个待合并对象之间的相似度的步骤,直至在确定达到预设停止条件时,根据所述待合并对象集,确定所述第t个维度目标对应的至少一个第三数据集合。5.根据权利要求4所述的方法,其特征在于,所述待合并对象集包括第一对象和第二对象,且所述第一对象与第二对象之间的相似度的确定过程,包括:根据所述第t个维度目标对应的至少一个第二数据集合,构建K最近邻图;其中,所述K最近邻图用于记录所述至少一个第二数据集合中任一数据与其K个最近邻数据之间的连接权重;根据所述K最近邻图,确定所述第一对象与所述第二对象之间的相对互联度、以及所述第一对象与所述第二对象之间的相对接近度;根据所述第一对象与所述第二对象之间的相对互联度、以及所述第一对象与所述第二对象之间的相对接近度,确定所述第一对象与所述第二对象之间的相似度。6.根据权利要求2所述的方法,其特征在于,所述根据所述至少一个聚类数据集,确定所述第一组医学...

【专利技术属性】
技术研发人员:郑铭鑫曹延泽陆可韩宇吴迪
申请(专利权)人:东软集团股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1