一种多源数据的泛化表示与协同融合方法技术

技术编号:33090171 阅读:27 留言:0更新日期:2022-04-15 11:02
本发明专利技术公开了一种多源数据的泛化表示与协同融合方法。本发明专利技术从数据的决策影响角度,为多源数据提供了一种组合数据和数据背后知识的泛化表示,从而定义了一种可用于横向精准比较的统一数据结构。针对多源数据的泛化表示,本发明专利技术从链接角度提供了一种基于实体结点之间协同度的融合方法,实现了泛化阵列结构中实体结点的协同划分与融合。基于泛化表示的多源数据协同融合方法能够获得用于精准决策的精确、可靠和泛化的多源数据融合结果。可靠和泛化的多源数据融合结果。可靠和泛化的多源数据融合结果。

【技术实现步骤摘要】
一种多源数据的泛化表示与协同融合方法


[0001]本专利技术涉及多源数据表示与融合
,特别是涉及一种多源数据的泛化表示与协同融合方法。

技术介绍

[0002]如何从源数据获得更泛化的融合结果是数据融合的一个重要议题。尤其当数据规模较小时,这一议题显得更加突出,对于多源数据融合来说也是如此。通常,提升融合结果泛化性的方式是增加数据的规模和来源。即便如此,也不可能覆盖所有类型的数据单元。这个固有缺陷导致泛化性不足的数据融合结果。例如,因为体温36.2和36.5都是正常体温数据而不是发烧数据,所以它们之间没有明显区别。若一个体温数据集覆盖了体温36.2而没有覆盖体温36.5,则这个体温数据集的融合结果可能缺乏泛化性。事实上,体温36.5的缺失并不会影响基于体温数据融合结果的发烧诊断。因此,如果能够利用泛化表示来减小由于一些非关键数据缺失造成的负面影响,则一个给定数据集的融合结果将在泛化性上具有更好的表现。
[0003]传统上,一组数据单元的表示限定于一个总体区间,不同数据单元根据其在总体区间内的特征值进行区分。因此,虽然一些数据单元的特征值的差异较大,但这些数据单元的决策影响的差异相对较小。另一方面,虽然一些数据单元的特征值的差异较小,但这些数据单元的决策影响的差异相对较大。例如,因为体温37.3为发烧标志,因而体温37.2和37.3的决策影响的差异较大。然而,因为体温37.2和36.2都是正常体温,因而它们具有几乎相等的决策影响。
[0004]从决策影响的角度,传统的数据表示不能准确地反映在一个整体区间内数据单元之间真实差异。因此,有必要将一个整体区间分割为若干子区间,如左边非正常区间、正常区间和右边非正常区间。同一子区间内的数据单元具有相同的区间指数和不同的区间值。涵盖了决策影响的数据表示显得更准确,并能处理某个子区间未能覆盖一些数据单元的情况。此外,当数据表示涵盖了决策影响,可以有效区分具有相同特征值但不同区间指数的数据单元,也能直接比较具有相同区间指数但不同特征值的数据单元。这些特点体现了基于影响区间的数据表示的泛化性。
[0005]泛化数据表示不仅包含源数据的值信息,也包含源数据背后的知识信息,是源数据的一种更精准表示。换句话说,泛化数据表示是数据和知识的组合表示。即使如此,一种合理的融合策略在获取精准和可靠的融合结果方面也扮演了重要角色。基于由多源泛化数据单元构造的阵列结构,泛化数据单元的划分和融合是一个由数据单元之间横向和纵向关系引导的协同过程。
[0006]在由多个链接网络组成的阵列结构空间中,位于一个链接网络中的数据单元称作分支结点,而一个实体结点由同一实体产生并位于不同链接网络的数据单元组成。分支结点之间横向关系取决于它们之间横向协同距离。利用每个分支结点中数据元素的泛化表示,两个分支结点之间横向协同距离被定义为它们当中对应数据元素的累计协同距离。实
体结点之间的纵向关系实际上为阵列结构中的协同关系。这里,基于泛化表示的协同融合致力于获得用于精准决策的精确、可靠和泛化的融合结果,并克服数据元素覆盖不足的缺陷。

技术实现思路

[0007]为了解决现有技术中存在的上述技术问题,本专利技术提出了一种多源数据的泛化表示与协同融合方法。具体技术方案如下:
[0008]一种多源数据的泛化表示与协同融合方法,其特征在于该方法包括如下步骤:步骤1)多源数据的泛化表示;
[0009]步骤2)基于泛化表示的协同融合。
[0010]进一步的,所述步骤1)具体如下:
[0011]m源数据集DS1,

,DS
k
,

,DS
m
由n个实体(结点)E1,

,E
i
,

,E
n
产生;因而,包含来自不同实体的n个分支结点(或数据单元)的数据集DS
k
具有表达式DS
k
={s
k,1
,

,s
k,i
,

,s
k,n
},由分布于不同数据集的分支结点组成的实体结点E
i
具有表达式E
i
=[s
1,i
,

,s
k,i
,

,s
m,i
]T
;若数据单元s
k,i
中的数据元素来自L个不同的数据向量(Data vector,DV),则可定义s
k,i

[0012]给定正常区间的数据元素定义它的归一化表示为
[0013][0014]这里,和表示正常区间的下限和上限;若位于左边非正常区间位于左边非正常区间或右边非正常区间则定义它的归一化表示为则定义它的归一化表示为或其中,和表示左边非正常区间的最小元素和右边非正常区间的最大元素;
[0015]泛化函数取决于在区间指数所指区间中的位置
[0016][0017]进一步的,所述步骤2)具体如下:
[0018]给定数据单元和它们之间距离D(s
k,i1
,s
k,i2
)为他们当中对应数据元素之间协同距离的累计;
[0019][0020]两个数据元素之间协同距离与这个两个数据元素所在数据向量的协同指数有关;
[0021][0022]给定泛化数据向量和和的升序形式和
数据向量和中数据元素的变化率颁布为布为布为布为数据向量和之间协同度具有如下定义:
[0023][0024]一个数据向量的协同指数为这个数据向量与同一数据集中其他数据向量之间协同度之和:
[0025][0026]给定数据集DS
k
中分支结点s
k,i
和其他分支结点之间n

1个升序距离D(s
k,i
,s

k,1
),

,D(s
k,i
,s

k,i

),

,D(s
k,i
,s

k,n
‑1),s
k,i
的距离变化率R
d
(s
k,i
)被定义为相邻距离差(D(s
k,i
,s

k,2
)

D(s
k,i
,s

k,1
))/D(s
k,i
,s

k,1
),

,(D(s
k,i
,s

k,i

+1
)

D(s
k,i
,s

k,i

))/D(s...

【技术保护点】

【技术特征摘要】
1.一种多源数据的泛化表示与协同融合方法,其特征在于该方法包括如下步骤:步骤1)多源数据的泛化表示;步骤2)基于泛化表示的协同融合。2.如权利要求1所述的多源数据的泛化表示与协同融合方法,其特征在于:所述步骤1)具体如下:m源数据集DS1,...,DS
k
,...,DS
m
由n个实体(结点)E1,...,E
i
,...,E
n
产生;因而,包含来自不同实体的n个分支结点(或数据单元)的数据集DS
k
具有表达式DS
k
={s
k,1
,...,s
k,i
,...,s
k,n
},由分布于不同数据集的分支结点组成的实体结点E
i
具有表达式E
i
=[s
1,i
,...,s
k,i
,...,s
m,i
]
T
;若数据单元s
k,i
中的数据元素来自L个不同的数据向量(Data vector,DV),则可定义s
k,i
为给定正常区间的数据元素定义它的归一化表示为这里,和表示正常区间的下限和上限;若位于左边非正常区间位于左边非正常区间或右边非正常区间则定义它的归一化表示为则定义它的归一化表示为或其中,和表示左边非正常区间的最小元素和右边非正常区间的最大元素;泛化函数取决于在区间指数所指区间中的位置3.如权利要求2所述的多源数据的泛化表示与协同融合方法,其特征在于:所述步骤2)具体如下:给定数据单元和它们之间距离D(s
k,i1
,s
k,i2
)为他们当中对应数据元素之间协同距离的累计;两个数据元素之间协同距离与这个两个数据元素所在数据向量的协同指数有关;给定泛化数据向量和和的升序形式和数据向量和中数据元素的变化率颁布为布为布为布为数据向量和之间协同度具有如下定义:
一个数据向量的协同指数为这个数据向量与同一数据集中其他数据向量之间协同度之和:给定数据集DS
k
中分支结点s
k,i
和其他分支结点之间n

1个升序距离D(s
k,i
,s

k,1
),...,D(s
k,i
,s

k,i

),...,D(s
k,i
,s

k,n
‑1),s
k,i
的距离变化率R
d
(s
k,i
)被定义为相邻距离差(D(s
k,i
,s

k,2
)

D(s
k,i
,s

k,1
))/D(s
k,i
,s

k,1
),

,(D(s
k,i
,s

k,i

+1
)

D(s
k,i
,s

k,i

))/D(s
k,i
,s

k,i

),

,(D(s
k,i
,s

k,n
‑1)

D(s
k,i
,s

k,n
‑2))/D(s
k,i
,s

k,n
‑2)(i≠i

)的平均值;分支结点s
k,i
的上部距离D
u
(s
k,i
)和下部距离D
l
(s
k,i
)根据s
k,i
的平均距离D
a
(s

【专利技术属性】
技术研发人员:彭伟民陈爱红
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1