一种基于多角度融合的生物组学数据分析方法技术

技术编号:36543046 阅读:25 留言:0更新日期:2023-02-01 16:47
一种基于多角度融合的生物组学数据分析方法,从多个角度系统性的分析基因组学、代谢组学等组学数据与疾病的关联,构建了多个富含生物信息的特征子空间,保证了信息丰富度。为解决生物组学数据的样本量小,维度高对分析方法有效性的影响,考虑到生物体内各成分特征间关系的多样性,从多角度融合的角度出发,使用三种不同角度的特征选择方法,从不同角度构建出三种具有代表性且富含生物信息的特征子空间,并在其基础上建立融合分类模型进行数据分析。基于多个不同组学的公共数据集结果表明,通过所提出的多角度融合的数据分析方法,分析结果有效,分类性能更加优越,为基因组学、代谢组学和蛋白质组学等多种生物组学数据的研究提供切实有效的数据分析手段,具有较强的应用价值。价值。价值。

【技术实现步骤摘要】
一种基于多角度融合的生物组学数据分析方法


[0001]本专利技术属于生物组学数据分析
,涉及一种基于多角度融合的生物组学数据分析方法。

技术介绍

[0002]随着科技的蓬勃发展,组学技术的不断进步,海量的生物组学数据在不断地涌出。常见的组学数据包括:基因组学数据、转录组学数据、蛋白质组学数据和代谢组学数据等。在这些组学数据中,基因组学指的是对生物体所有基因进行集体表征和定量研究,并比较不同基因之间的差异,是目前最为成熟的生物组学领域。基因组学所关注的是整个基因组的研究,而不是传统遗传学领域所关注的少数或单个基因。基因组学为破译遗传信息、研究复杂疾病和特定的遗传变异提供了可靠的保证。基因经过转录、翻译等过程成为生命的体现者——蛋白质,它与细胞内的各种生化反应过程都密切相关。因此,在基因组学之后,蛋白质组学受到了研究人员的广泛关注。蛋白质组学是研究蛋白质表达水平、翻译后修饰以及蛋白质相互作用的学科。人体中的蛋白质会经历动态变化过程,具有天然的复杂性,解析蛋白质组学中所包含的信息对理解生命活动过程具有至关重要的作用。然而,仅仅通过基因组学、蛋白质组学解密人类生命密码是不够的,例如,同一种基因型可能表现出不同的特征,这是由遗传因素和环境因素两方面导致的。对疾病而言,疾病的发生可能与某个基因的突变有关,也可能与基因在转录、翻译或者其他过程中出现的错误有关。因此,其他的生命组学在人体中的作用仍然不容忽视。转录组学对全基因组转录情况以及转录调控规律进行研究;表型组学对基因组DNA或DNA结合蛋白质的修饰特征进行整体研究;代谢组学对生物体内所有代谢产物(如氨基酸、脂肪酸、碳水化合物等)进行定量分析,并将代谢产物与对应疾病进行关联。所以,生物组学数据的存在为我们了解生命活动、分析和研究生物体中的现象,寻找富含生物信息的特征,探究疾病的发生发展等具体研究方向具有重要意义。
[0003]但是对于大多数的生物组学数据都存在着一个严重的问题,那就是数据维度高、噪声多和样本数量小的特点,使得研究学者对于生物组学数据进行分析和挖掘的过程中存在着很多局限性,所以如何实现对具有这些特点的生物组学数据进行有效分析和挖掘,在生物学领域中对疾病研究,医疗方法等方向具有重大的生物学意义。
[0004]本专利技术从多角度融合的方向出发,从组学数据特征子空间确定的角度研究,使用三种不同的特征选择方法ERGS、mRMR以及基于Spearman的差异相关性网络的特征选择方法,从三种不同的角度筛选组学数据中富含生物信息的特征,确定反映机体不同生理病理状态的特征子空间,然后在确定的三个特征子空间上建立融合分类器,从而实现对生物组学数据进行有效的分析和挖掘。本专利技术采用从多角度使用三种不同的特征选择方法并建立融合分类器的方式,构建了有效的生物组学数据分析模型,从原有的数据集中筛选出了具有一定判别能力的特征子空间,并获得了对组学数据分析的良好分类性能。

技术实现思路

[0005]本专利技术的目的是基于生物组学数据维度高、样本量小、噪声多且特征间关系复杂多样等特点,从多个角度出发使用三种不同的特征选择方法挖掘生物组学数据中富含生物信息的特征子空间,从而对组学数据进行有效的数据分析。该模型适用于生物组学数据的分析研究,从不同角度挖掘组学数据中的重要信息,可以用于组学数据分析以及精准医疗等领域。该方法的核心技术是基于多角度融合的不同特征子空间的确定。
[0006]为了实现上述目标,本专利技术采用的技术方案如下:
[0007]一种基于多角度融合的生物组学数据分析方法,其步骤如下:
[0008]步骤一、数据预处理
[0009]对数据集进行预处理过程,主要分为两部分,第一部分是对数据集中的缺失值部分进行处理,处理方法为:删除每类样本上缺失值数量均超过本类样本总数的百分之八十的特征,剩余特征的缺失值填补为同类样本在这个特征上的均值;令F={f1,f2,

,f
m
}为特征集合,m表示特征的个数;Y={y
j
:j=1,2}为类标集合;S={s1,s2,

,s
n
}为样本集合,n表示样本的个数。
[0010]第二部分是对数据进行标准化,使用方法为Z

Score方法进行数据标准化,Z

Score标准化的计算公式如(1)所示;
[0011][0012]其中,f
scaledik
为在样本s
k
上特征f
i
进行Z

Score数据标准化后的取值,f
ik
为样本s
k
上特征f
i
的原始取值,u
i
为特征f
i
在所有样本上的平均值,σ
i
为特征f
i
在所有样本上求得的标准差;从而获得标准化后的特征集合F={f
scaled1
,f
scaled2
,

,f
scaledm
}。
[0013]步骤二、多角度确定特征子空间
[0014]从多角度出发使用ERGS特征选择方法、mRMR特征选择方法和基于Spearman的差异相关性网络的特征选择方法确定三个不同的特征子空间;
[0015]第一个特征子空间(Subset

ERGS)使用ERGS特征选择方法进行确定,ERGS具体的公式如下:
[0016][0017]w
i
=1

AC
i
/max{AC
u
:u=1,2}
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)
[0018][0019](2)式中:
[0020]R
ij
为特征f
scaledi
在类别y
j
(j=1,2)中的有效范围;
[0021]r
+ij
和r

ij
是有效范围R
ij
的上界和下界;
[0022]u
ij
是y
j
类中特征f
scaledi
的均值;
[0023]σ
ij
是yj类中特征f
scaledi
的标准差;
[0024]p
j
是y
j
类的先验概率;
[0025]系数1.732由切比雪夫不等式确定,确保有效范围至少包含2/3的样本;
[0026](3)式中:
[0027]w
i
为特征f
scaledi
的权重值;
[0028](4)式中:
[0029]OA
i
为不同的类别间特征f
scaledi
的有效范围的重叠面积;
[0030]AC...

【技术保护点】

【技术特征摘要】
1.一种基于多角度融合的生物组学数据分析方法,其步骤如下:步骤一、数据预处理对数据集进行预处理过程,主要分为两部分,第一部分是对数据集中的缺失值部分进行处理,处理方法为:删除每类样本上缺失值数量均超过本类样本总数的百分之八十的特征,剩余特征的缺失值填补为同类样本在这个特征上的均值;令F={f1,f2,

,f
m
}为特征集合,m表示特征的个数;Y={y
j
:j=1,2}为类标集合;S={s1,s2,

,s
n
}为样本集合,n表示样本的个数;第二部分是对数据进行标准化,使用方法为Z

Score方法进行数据标准化,Z

Score标准化的计算公式如(1)所示;其中,f
scaledik
为在样本s
k
上特征f
i
进行Z

Score数据标准化后的取值,f
ik
为样本s
k
上特征f
i
的原始取值,u
i
为特征f
i
在所有样本上的平均值,σ
i
为特征f
i
在所有样本上求得的标准差;从而获得标准化后的特征集合F={f
scaled1
,f
scaled2
,

,f
scaledm
};步骤二、多角度确定特征子空间从多角度出发使用ERGS特征选择方法、mRMR特征选择方法和基于Spearman的差异相关性网络的特征选择方法确定三个不同的特征子空间;第一个特征子空间(Subset

ERGS)使用ERGS特征选择方法进行确定,ERGS具体的公式如下:w
i
=1

AC
i
/max{AC
u
:u=1,2}
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)(2)式中:R
ij
为特征f
scaledi
在类别y
j
(j=1,2)中的有效范围;r
+ij
和r

ij
是有效范围R
ij
的上界和下界;u
ij
是y
j
类中特征f
scaledi
的均值;σ
ij
是yj类中特征f
scaledi
的标准差;p
j
是y
j
类的先验概率;系数1.732由切比雪夫不等式确定,确保有效范围至少包含2/3的样本;(3)式中:w
i
为特征f
scaledi
的权重值;(4)式中:OA
i
为不同的类别间特征f
scaledi
的有效范围的重叠面积;AC
i
为计算w
i
的中间值,表示有效范围的重叠面积占比;ERGS方法最终选取权重值w
i
高的特征;第二个特征子空间(Subset

mRMR)使用mRMR特征选择方法进行确定,mRMR方法的具体
公式如下:(5)式中:w
i
是mRMR方法计算特征f
scaledi
的最终得分;I(f
iscaled
;y
j
)表示为特征f
scaledi
与类标y
j
的互信息值;I(f
iscaled
;x)为特征f
scaledi
与已选特征x的互信息值,X表示已选特征集;mRMR特征选择方法根据最终计算的得分w进行特征选择,选取得分高的特征;第三个特征子空间(Subset

Spearman)使用基于Spearman的差异相关性网络的特征选择方法进行确定,计算特征间的Spearman相关性系数并建立差异相关性网络进行特征的筛选从而完成特征子空间的确定,该方法涉及的具体方式为:首先,根据类标集合Y={y
j
;j=1,2}将整体样本分为两类,分别在...

【专利技术属性】
技术研发人员:王堃宇林晓惠
申请(专利权)人:大连理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1