一种基于多角度融合的生物组学数据分析方法技术

技术编号：36543046 阅读：25 留言：0更新日期：2023-02-01 16:47

一种基于多角度融合的生物组学数据分析方法，从多个角度系统性的分析基因组学、代谢组学等组学数据与疾病的关联，构建了多个富含生物信息的特征子空间，保证了信息丰富度。为解决生物组学数据的样本量小，维度高对分析方法有效性的影响，考虑到生物体内各成分特征间关系的多样性，从多角度融合的角度出发，使用三种不同角度的特征选择方法，从不同角度构建出三种具有代表性且富含生物信息的特征子空间，并在其基础上建立融合分类模型进行数据分析。基于多个不同组学的公共数据集结果表明，通过所提出的多角度融合的数据分析方法，分析结果有效，分类性能更加优越，为基因组学、代谢组学和蛋白质组学等多种生物组学数据的研究提供切实有效的数据分析手段，具有较强的应用价值。价值。价值。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于多角度融合的生物组学数据分析方法

[0001]本专利技术属于生物组学数据分析
，涉及一种基于多角度融合的生物组学数据分析方法。

技术介绍

[0002]随着科技的蓬勃发展，组学技术的不断进步，海量的生物组学数据在不断地涌出。常见的组学数据包括：基因组学数据、转录组学数据、蛋白质组学数据和代谢组学数据等。在这些组学数据中，基因组学指的是对生物体所有基因进行集体表征和定量研究，并比较不同基因之间的差异，是目前最为成熟的生物组学领域。基因组学所关注的是整个基因组的研究，而不是传统遗传学领域所关注的少数或单个基因。基因组学为破译遗传信息、研究复杂疾病和特定的遗传变异提供了可靠的保证。基因经过转录、翻译等过程成为生命的体现者——蛋白质，它与细胞内的各种生化反应过程都密切相关。因此，在基因组学之后，蛋白质组学受到了研究人员的广泛关注。蛋白质组学是研究蛋白质表达水平、翻译后修饰以及蛋白质相互作用的学科。人体中的蛋白质会经历动态变化过程，具有天然的复杂性，解析蛋白质组学中所包含的信息对理解生命活动过程具有至关重要的作用。然而，仅仅通过基因组学、蛋白质组学解密人类生命密码是不够的，例如，同一种基因型可能表现出不同的特征，这是由遗传因素和环境因素两方面导致的。对疾病而言，疾病的发生可能与某个基因的突变有关，也可能与基因在转录、翻译或者其他过程中出现的错误有关。因此，其他的生命组学在人体中的作用仍然不容忽视。转录组学对全基因组转录情况以及转录调控规律进行研究；表型组学对基因组DNA或DNA结合蛋白质的修饰特征进行整体研究；代谢

【技术保护点】

【技术特征摘要】
1.一种基于多角度融合的生物组学数据分析方法，其步骤如下：步骤一、数据预处理对数据集进行预处理过程，主要分为两部分，第一部分是对数据集中的缺失值部分进行处理，处理方法为：删除每类样本上缺失值数量均超过本类样本总数的百分之八十的特征，剩余特征的缺失值填补为同类样本在这个特征上的均值；令F＝{f1,f2,
…
,f
m
}为特征集合，m表示特征的个数；Y＝{y
j
:j＝1,2}为类标集合；S＝{s1,s2,
…
,s
n
}为样本集合，n表示样本的个数；第二部分是对数据进行标准化，使用方法为Z
‑
Score方法进行数据标准化，Z
‑
Score标准化的计算公式如(1)所示；其中，f
scaledik
为在样本s
k
上特征f
i
进行Z
‑
Score数据标准化后的取值，f
ik
为样本s
k
上特征f
i
的原始取值，u
i
为特征f
i
在所有样本上的平均值，σ
i
为特征f
i
在所有样本上求得的标准差；从而获得标准化后的特征集合F＝{f
scaled1
,f
scaled2
,
…
,f
scaledm
}；步骤二、多角度确定特征子空间从多角度出发使用ERGS特征选择方法、mRMR特征选择方法和基于Spearman的差异相关性网络的特征选择方法确定三个不同的特征子空间；第一个特征子空间(Subset
‑
ERGS)使用ERGS特征选择方法进行确定，ERGS具体的公式如下：w
i
＝1
‑
AC
i
/max{AC
u
:u＝1,2}
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)(2)式中：R
ij
为特征f
scaledi
在类别y
j
(j＝1,2)中的有效范围；r
+ij
和r
‑
ij
是有效范围R
ij
的上界和下界；u
ij
是y
j
类中特征f
scaledi
的均值；σ
ij
是yj类中特征f
scaledi
的标准差；p
j
是y
j
类的先验概率；系数1.732由切比雪夫不等式确定，确保有效范围至少包含2/3的样本；(3)式中：w
i
为特征f
scaledi
的权重值；(4)式中：OA
i
为不同的类别间特征f
scaledi
的有效范围的重叠面积；AC
i
为计算w
i
的中间值，表示有效范围的重叠面积占比；ERGS方法最终选取权重值w
i
高的特征；第二个特征子空间(Subset
‑
mRMR)使用mRMR特征选择方法进行确定，mRMR方法的具体
公式如下：(5)式中：w
i
是mRMR方法计算特征f
scaledi
的最终得分；I(f
iscaled
；y
j
)表示为特征f
scaledi
与类标y
j
的互信息值；I(f
iscaled
；x)为特征f
scaledi
与已选特征x的互信息值，X表示已选特征集；mRMR特征选择方法根据最终计算的得分w进行特征选择，选取得分高的特征；第三个特征子空间(Subset
‑
Spearman)使用基于Spearman的差异相关性网络的特征选择方法进行确定，计算特征间的Spearman相关性系数并建立差异相关性网络进行特征的筛选从而完成特征子空间的确定，该方法涉及的具体方式为：首先，根据类标集合Y＝{y
j
；j＝1,2}将整体样本分为两类，分别在...

【专利技术属性】
技术研发人员：王堃宇，林晓惠，
申请(专利权)人：大连理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人