【技术实现步骤摘要】
一种多源数据的泛化表示与协同融合方法
[0001]本专利技术涉及多源数据表示与融合
,特别是涉及一种多源数据的泛化表示与协同融合方法。
技术介绍
[0002]如何从源数据获得更泛化的融合结果是数据融合的一个重要议题。尤其当数据规模较小时,这一议题显得更加突出,对于多源数据融合来说也是如此。通常,提升融合结果泛化性的方式是增加数据的规模和来源。即便如此,也不可能覆盖所有类型的数据单元。这个固有缺陷导致泛化性不足的数据融合结果。例如,因为体温36.2和36.5都是正常体温数据而不是发烧数据,所以它们之间没有明显区别。若一个体温数据集覆盖了体温36.2而没有覆盖体温36.5,则这个体温数据集的融合结果可能缺乏泛化性。事实上,体温36.5的缺失并不会影响基于体温数据融合结果的发烧诊断。因此,如果能够利用泛化表示来减小由于一些非关键数据缺失造成的负面影响,则一个给定数据集的融合结果将在泛化性上具有更好的表现。
[0003]传统上,一组数据单元的表示限定于一个总体区间,不同数据单元根据其在总体区间内的特征值进行区分。因此,虽然一些数据单元的特征值的差异较大,但这些数据单元的决策影响的差异相对较小。另一方面,虽然一些数据单元的特征值的差异较小,但这些数据单元的决策影响的差异相对较大。例如,因为体温37.3为发烧标志,因而体温37.2和37.3的决策影响的差异较大。然而,因为体温37.2和36.2都是正常体温,因而它们具有几乎相等的决策影响。
[0004]从决策影响的角度,传统的数据表示不能准确地反映在一个整体
【技术保护点】
【技术特征摘要】
1.一种多源数据的泛化表示与协同融合方法,其特征在于该方法包括如下步骤:步骤1)多源数据的泛化表示;步骤2)基于泛化表示的协同融合。2.如权利要求1所述的多源数据的泛化表示与协同融合方法,其特征在于:所述步骤1)具体如下:m源数据集DS1,...,DS
k
,...,DS
m
由n个实体(结点)E1,...,E
i
,...,E
n
产生;因而,包含来自不同实体的n个分支结点(或数据单元)的数据集DS
k
具有表达式DS
k
={s
k,1
,...,s
k,i
,...,s
k,n
},由分布于不同数据集的分支结点组成的实体结点E
i
具有表达式E
i
=[s
1,i
,...,s
k,i
,...,s
m,i
]
T
;若数据单元s
k,i
中的数据元素来自L个不同的数据向量(Data vector,DV),则可定义s
k,i
为给定正常区间的数据元素定义它的归一化表示为这里,和表示正常区间的下限和上限;若位于左边非正常区间位于左边非正常区间或右边非正常区间则定义它的归一化表示为则定义它的归一化表示为或其中,和表示左边非正常区间的最小元素和右边非正常区间的最大元素;泛化函数取决于在区间指数所指区间中的位置3.如权利要求2所述的多源数据的泛化表示与协同融合方法,其特征在于:所述步骤2)具体如下:给定数据单元和它们之间距离D(s
k,i1
,s
k,i2
)为他们当中对应数据元素之间协同距离的累计;两个数据元素之间协同距离与这个两个数据元素所在数据向量的协同指数有关;给定泛化数据向量和和的升序形式和数据向量和中数据元素的变化率颁布为布为布为布为数据向量和之间协同度具有如下定义:
一个数据向量的协同指数为这个数据向量与同一数据集中其他数据向量之间协同度之和:给定数据集DS
k
中分支结点s
k,i
和其他分支结点之间n
‑
1个升序距离D(s
k,i
,s
′
k,1
),...,D(s
k,i
,s
′
k,i
′
),...,D(s
k,i
,s
′
k,n
‑1),s
k,i
的距离变化率R
d
(s
k,i
)被定义为相邻距离差(D(s
k,i
,s
′
k,2
)
‑
D(s
k,i
,s
′
k,1
))/D(s
k,i
,s
′
k,1
),
…
,(D(s
k,i
,s
′
k,i
′
+1
)
‑
D(s
k,i
,s
′
k,i
′
))/D(s
k,i
,s
′
k,i
′
),
…
,(D(s
k,i
,s
′
k,n
‑1)
‑
D(s
k,i
,s
′
k,n
‑2))/D(s
k,i
,s
′
k,n
‑2)(i≠i
′
)的平均值;分支结点s
k,i
的上部距离D
u
(s
k,i
)和下部距离D
l
(s
k,i
)根据s
k,i
的平均距离D
a
(s
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。