一种基于K最相近要素的数据融合方法技术

技术编号:37278550 阅读:10 留言:0更新日期:2023-04-20 23:45
本发明专利技术公开一种基于K最相近要素的数据融合方法。本发明专利技术从数据结点的构成要素出发,以数据要素的属性值、量化知识等特性为依据,根据设定的最少最相近要素对和数据要素所在向量的间隔区间数分析数据要素的最相近情况,并以此聚集相似数据结点。同时,对已聚集的数据结点子集中每个数据要素组,提供一种由占主导的最相近数据要素决定其目标数据要素的融合方式。本发明专利技术旨在通过直接有效的聚集融合策略,提高医学等领域数据融合的效率和可靠性以及基于融合结果的决策精准性。及基于融合结果的决策精准性。及基于融合结果的决策精准性。

【技术实现步骤摘要】
一种基于K最相近要素的数据融合方法


[0001]本专利技术涉及数据融合
,特别是涉及一种基于K最相近要素的数据融合方法。

技术介绍

[0002]数据融合本质在于将特性相似的数据结点聚集在一起并融合成单一形式,并将融合结果用于决策支持。数据融合的性能主要取决于数据结点的特性定义、相似聚集策略、单一表示方式等。数据结点的特性可定义为数据结点的属性值或属性值的变形,也可进一步定义为数据结点的属性值与其背后(决策影响)知识的组合。数据结点的相似聚集策略的关键在于如何通过某种策略(如“估计”、“推理”等)将特征最相似的结点聚集在一起,聚集结果将直接影响融合结果的可靠性和基于融合结果的决策支持的精准度。聚集而成的相似数据结点有多样的单一表示方式,如“平均值”、“最大值”等。因此,单一表示方式关注对应目标数据结点的代表性,并使得目标数据结点与源数据结点之间偏差最小。
[0003]现有数据融合方法的相似聚集策略存在较高的计算复杂性,损害了融合效率和融合结果的可靠性,不利于基于融合的精准决策。例如,采用高计算复杂性的相似聚集策略融合多源医学检查数据,将降低基于数据融合结果的疾病诊断的精准性。

技术实现思路

[0004]针对上述问题,本专利技术提出一种直接有效的相似聚集策略,即基于K最相近要素的相似聚集策略。具体来说,两个或多个数据结点的相似性可进一步明确为其所包含的数据要素的相似性。这里,每个数据结点包含多个要素,如一个多源数据实体结点包含多个单元结点,而一个单元结点又包含多个元素结点。对于均包含K个数据要素的两个数据结点,若其中最相近数据要素对大于某一设定值(如K/2),则可以确定这两个数据结点是相似的。对于均包含K个数据要素的多个数据结点,若其中最相近数据要素对大于某一设定值(如小于K/2的值),则也可以确定这多个数据结点是相似的。每组聚集结点可以分为若干组对应的数据要素,而每组要素对应的目标要素可由这组要素中占主导的最相近数据要素决定。
[0005]基于K最相近要素的数据融合方法以数据结点的属性值、量化知识等特性为依据,通过分析数据结点中数据要素的最相近情况定义数据结点的相似性,并将最相似数据结点进行聚集与单一化表示,旨在高效地获得可靠的融合结果并将融合结果用于精准决策支持。
[0006]本专利技术提出一种基于K最相近要素的数据融合方法,包括如下步骤:
[0007]步骤(1)获取实体结点,组成实体结点集合,所述实体结点代表一个能产生数据的主体,每个所述实体结点中包括若干种反映所述能产生数据的主体的属性的数据,构建基于K最相近要素的相似聚合策略,从实体结点集合中得到待数据融合的实体结点,组成子集;
[0008]步骤(2)对同一所述子集中的实体结点进行数据融合。
[0009]作为优选,所述步骤(1)中,所述能产生数据的主体为患者;所述能产生数据的主体的属性的数据为多源医学检查数据,包括:病史、体格检查、肺部检查、血常规检验、大便常规检查、尿常规检查、急诊生化检查。
[0010]作为优选,所述基于K最相近要素的相似聚合策略,具体为:
[0011]选取实体结点集合中的任意一个实体结点e
i
,所述实体结点e
i
由来自m个源数据的单元结点s
1,i
,...,s
t,i
,...,s
m,i
组成,即e
i
=[s
1,i
,...,s
t,i
,...,s
m,i
]T
,而单元结点s
t,i
由来自第t个源数据DS
t
中J个属性元素结点组成,即组成,即
[0012]所述实体结点e
i
包含mJ个数据要素,即数据要素的数量K=mJ;
[0013]设定属性元素结点的决策影响知识量化为同时的归一化表示为则的属性知识表示为
[0014]将实体结点e
i
中所有元素结点展开后,可重新定义e
i
为:
[0015][0016]将所述所有元素结点采用属性知识表示,则实体结点e
i
的属性知识展开形式为
[0017]对含K个数据要素的实体结点和和若e
i1
和e
i2
包含κ对最相近要素,则e
i1
和e
i2
将聚集在同一子集中,其中κ≥K/2;若e
i1
和e
i2
中数据要素和满足如下关系,则和为最相近要素对;
[0018][0019]其中,和表示数据要素和所在的向量间隔区间,
[0020][0021]其中,和为第k个向量V
k
的最大和最小数据要素,NE(V
k
)表示第k个向量V
k
的唯一数据要素个数,NI表示所有向量的统一间隔区间数;若均匀划分每个向量的间隔区间,则第k个向量V
k
的每个间隔区间大小为的每个间隔区间大小为
[0022]基于各个向量的唯一数据要素分布情况设置NI的值:NI越大,则每个间隔区间就越小,目标数据结点就越多,NI越小,则每个间隔区间就越大,目标数据结点就越多。
[0023]作为优选,所述步骤(2)具体包括如下步骤:
[0024]提取所述实体结点集合中,同一所述子集中的各实体结点中相同位置的数据要素,得到n个数据要素组;
[0025]所述同一所述子集中的各实体结点如下:所述同一所述子集中的各实体结点如下:
[0026]所述n个数据要素组如下:
[0027][0027][0028]确定上述n个数据要素组中,每个数据要素组中占主导的数据要素,基于所述占主
导的数据要素生成数据要素替换值,得到n个数据要素替换值;使用n个数据要素替换值构建一个融合后的实体结点e
ir
,如下式所示:
[0029]e
ir
=(G1,G2,...,G
n
)
[0030]所述占主导的数据要素为每个数据要素组中,占比最大的最相近要素。
[0031]作为优选,所述基于所述占主导的数据要素生成数据要素替换值的具体方法为:对占主导的数据要素求平均值,将所述平均值作为数据要素替换值。
[0032]作为优选,所述基于所述占主导的数据要素生成数据要素替换值的具体方法为:对占主导的数据要素求最大或最小值,将所述最大或最小值作为数据要素替换值。
[0033]本专利技术的有益效果
[0034]1)本专利技术针对由具有较高计算复杂性的现有相似聚集策略带来的融合效率和融合结果可靠性不足的问题,为数据结点提供了一种基于K最相近要素的相似聚集策略。最相近依据可以是数据结点的属性值或由属性值和属性值背后的决策影响知识的量化值组成的属性知识值。通过设定最少最相近要素对和属性(或属性知识)向量的间隔区间数,获得所要求的聚集结果。<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于K最相近要素的数据融合方法,其特征在于,包括如下步骤:步骤(1)获取实体结点,组成实体结点集合,所述实体结点代表一个能产生数据的主体,每个所述实体结点中包括若干种反映所述能产生数据的主体的属性的数据,构建基于K最相近要素的相似聚合策略,从实体结点集合中得到待数据融合的实体结点,组成子集;步骤(2)对同一所述子集中的实体结点进行数据融合。2.如权利要求1所述的一种基于K最相近要素的数据融合方法,其特征在于,所述步骤(1)中,所述能产生数据的主体为患者;所述能产生数据的主体的属性的数据为多源医学检查数据,包括:病史、体格检查、肺部检查、血常规检验、大便常规检查、尿常规检查、急诊生化检查。3.如权利要求2所述的一种基于K最相近要素的数据融合方法,其特征在于:所述基于K最相近要素的相似聚合策略,具体为:选取实体结点集合中的任意一个实体结点e
i
,所述实体结点e
i
由来自m个源数据的单元结点s
1,i
,

,s
t,i
,

,s
m,i
组成,即e
i
=[s
1,i
,

,s
t,i
,

,s
m,i
]
T
,而单元结点s
t,i
由来自第t个源数据DS
t
中J个属性元素结点组成,即组成,即所述实体结点e
i
包含mJ个数据要素,即数据要素的数量K=mJ;设定属性元素结点的决策影响知识量化为同时的归一化表示为则的属性知识表示为将实体结点e
i
中所有元素结点展开后,可重新定义e
i
为:将所述所有元素结点采用属性知识表示,则实体结点e
i
的属性知识展开形式为对含K个数据要素的实体结点和和若e
i1
和e
i2
...

【专利技术属性】
技术研发人员:彭伟民钱程陈爱红
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1