【技术实现步骤摘要】
一种基于多角度融合的生物组学数据分析方法
[0001]本专利技术属于生物组学数据分析
,涉及一种基于多角度融合的生物组学数据分析方法。
技术介绍
[0002]随着科技的蓬勃发展,组学技术的不断进步,海量的生物组学数据在不断地涌出。常见的组学数据包括:基因组学数据、转录组学数据、蛋白质组学数据和代谢组学数据等。在这些组学数据中,基因组学指的是对生物体所有基因进行集体表征和定量研究,并比较不同基因之间的差异,是目前最为成熟的生物组学领域。基因组学所关注的是整个基因组的研究,而不是传统遗传学领域所关注的少数或单个基因。基因组学为破译遗传信息、研究复杂疾病和特定的遗传变异提供了可靠的保证。基因经过转录、翻译等过程成为生命的体现者——蛋白质,它与细胞内的各种生化反应过程都密切相关。因此,在基因组学之后,蛋白质组学受到了研究人员的广泛关注。蛋白质组学是研究蛋白质表达水平、翻译后修饰以及蛋白质相互作用的学科。人体中的蛋白质会经历动态变化过程,具有天然的复杂性,解析蛋白质组学中所包含的信息对理解生命活动过程具有至关重要的作用。然而,仅仅通过基因组学、蛋白质组学解密人类生命密码是不够的,例如,同一种基因型可能表现出不同的特征,这是由遗传因素和环境因素两方面导致的。对疾病而言,疾病的发生可能与某个基因的突变有关,也可能与基因在转录、翻译或者其他过程中出现的错误有关。因此,其他的生命组学在人体中的作用仍然不容忽视。转录组学对全基因组转录情况以及转录调控规律进行研究;表型组学对基因组DNA或DNA结合蛋白质的修饰特征进行整体研究;代谢
【技术保护点】
【技术特征摘要】
1.一种基于多角度融合的生物组学数据分析方法,其步骤如下:步骤一、数据预处理对数据集进行预处理过程,主要分为两部分,第一部分是对数据集中的缺失值部分进行处理,处理方法为:删除每类样本上缺失值数量均超过本类样本总数的百分之八十的特征,剩余特征的缺失值填补为同类样本在这个特征上的均值;令F={f1,f2,
…
,f
m
}为特征集合,m表示特征的个数;Y={y
j
:j=1,2}为类标集合;S={s1,s2,
…
,s
n
}为样本集合,n表示样本的个数;第二部分是对数据进行标准化,使用方法为Z
‑
Score方法进行数据标准化,Z
‑
Score标准化的计算公式如(1)所示;其中,f
scaledik
为在样本s
k
上特征f
i
进行Z
‑
Score数据标准化后的取值,f
ik
为样本s
k
上特征f
i
的原始取值,u
i
为特征f
i
在所有样本上的平均值,σ
i
为特征f
i
在所有样本上求得的标准差;从而获得标准化后的特征集合F={f
scaled1
,f
scaled2
,
…
,f
scaledm
};步骤二、多角度确定特征子空间从多角度出发使用ERGS特征选择方法、mRMR特征选择方法和基于Spearman的差异相关性网络的特征选择方法确定三个不同的特征子空间;第一个特征子空间(Subset
‑
ERGS)使用ERGS特征选择方法进行确定,ERGS具体的公式如下:w
i
=1
‑
AC
i
/max{AC
u
:u=1,2}
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)(2)式中:R
ij
为特征f
scaledi
在类别y
j
(j=1,2)中的有效范围;r
+ij
和r
‑
ij
是有效范围R
ij
的上界和下界;u
ij
是y
j
类中特征f
scaledi
的均值;σ
ij
是yj类中特征f
scaledi
的标准差;p
j
是y
j
类的先验概率;系数1.732由切比雪夫不等式确定,确保有效范围至少包含2/3的样本;(3)式中:w
i
为特征f
scaledi
的权重值;(4)式中:OA
i
为不同的类别间特征f
scaledi
的有效范围的重叠面积;AC
i
为计算w
i
的中间值,表示有效范围的重叠面积占比;ERGS方法最终选取权重值w
i
高的特征;第二个特征子空间(Subset
‑
mRMR)使用mRMR特征选择方法进行确定,mRMR方法的具体
公式如下:(5)式中:w
i
是mRMR方法计算特征f
scaledi
的最终得分;I(f
iscaled
;y
j
)表示为特征f
scaledi
与类标y
j
的互信息值;I(f
iscaled
;x)为特征f
scaledi
与已选特征x的互信息值,X表示已选特征集;mRMR特征选择方法根据最终计算的得分w进行特征选择,选取得分高的特征;第三个特征子空间(Subset
‑
Spearman)使用基于Spearman的差异相关性网络的特征选择方法进行确定,计算特征间的Spearman相关性系数并建立差异相关性网络进行特征的筛选从而完成特征子空间的确定,该方法涉及的具体方式为:首先,根据类标集合Y={y
j
;j=1,2}将整体样本分为两类,分别在...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。