生物边标识系统的建立方法和系统技术方案

技术编号:15109428 阅读:80 留言:0更新日期:2017-04-09 00:42
本发明专利技术公开了一种生物边标识系统的建立方法和系统,可以简单高效的找出关键的相互作用的改变作为疾病发生发展的生物标识。其技术方案为:收集具有双状态的数据;选出相关性符合显著差异条件的基因对;对于相关性符合显著差异条件的基因对,通过矩阵变换,将基因对的表达值数据转化为代表相关性的边数据;应用特征选择算法找出边数据中分类能力最佳的基因对,将分类能力最佳的基因对作为生物边标识,从而建立起生物边标识系统。

【技术实现步骤摘要】

本专利技术涉及计算系统生物学和生物信息学,尤其涉及生物标识的处理方法和系统。
技术介绍
生物标识的研究一直是生物医学领域的重要课题,一个成功的生物标识能帮助医生做出准确的诊断或者提出有效的治疗方案,因此寻找合适的生物标识对攻克疾病特别是复杂疾病具有十分重要的意义。人类复杂疾病是对病因不明确、涉及因素众多、无有效治疗手段的一类疾病的统称,如各类癌症及糖尿病等。20世纪80年代以来,高通量生物技术(如DNB芯片,高通量测序等)的迅猛发展,为人类复杂疾病的研究带来了机遇。如何从这些技术所产生的海量数据中找出有用的生物标识也是当今生物标识研究领域所面临的一大挑战。早期的研究关注于差异表达的基因或者蛋白等生物分子,把具有区分能力的分子作为生物标识,这些方法简单直观,对于一些简单疾病也起到很好的效果,但这些方法没有考虑分子之间存在复杂的相互作用,而很多复杂疾病的发生往往是这些分子之间相互作用的改变导致的,因此这些方法在复杂疾病中的应用效果并不好。正因为如此,许多研究者开始从系统或网络的角度找生物标识,即考虑生物分子间的各种相互作用所组成的网络,把具有区分能力的子网或者边集作为生物标识。目前很少有理想的方法来实现这一目的。
技术实现思路
以下给出一个或多个方面的简要概述以提供对这些方面的基本理解。此概述不是所有构想到的方面的详尽综览,并且既非旨在指认出所有方面的关键性或决定性要素亦非试图界定任何或所有方面的范围。其唯一的目的是要以简化形式给出一个或多个方面的一些概念以为稍后给出的更加详细的描述之序。本专利技术的目的在于提供一种生物边标识系统的建立方法和系统,可以简单高效的找出关键的相互作用的改变作为疾病发生发展的生物标识。本专利技术的技术方案为:本专利技术揭示了一种生物边标识系统的建立方法,包括:收集具有双状态的数据;选出相关性符合显著差异条件的基因对;对于相关性符合显著差异条件的基因对,通过矩阵变换,将基因对的表达值数据转化为代表相关性的边数据;应用特征选择算法找出边数据中分类能力最佳的基因对,将分类能力最佳的基因对作为生物边标识,从而建立起生物边标识系统。根据本专利技术的生物边标识系统的建立方法的一实施例,所述具有双状态的数据包括:正常状态数据和疾病状态数据、转移状态数据和非转移状态数据、有药物抵抗状态的数据和无药物抵抗状态的数据。根据本专利技术的生物边标识系统的建立方法的一实施例,所述具有双状态的数据的数据类型包括基因对的表达谱或丰度谱数据。根据本专利技术的生物边标识系统的建立方法的一实施例,在所述收集具有双状态的数据的步骤之后还包括:对数据进行预处理,去除表达均值低于设定值或变异系数高于设定值的基因。根据本专利技术的生物边标识系统的建立方法的一实施例,在所述选出相关性符合显著差异条件的基因对的步骤中,计算基因对在双状态下的相关系数,根据双状态下的相关系数的差异的绝对值和阈值的比较来确定相关性是否符合显著差异条件。根据本专利技术的生物边标识系统的建立方法的一实施例,在所述对于相关性符合显著差异条件的基因对,通过矩阵变换,将基因对的表达值数据转化为代表相关性的边数据的步骤中,基因对的表达值数据是矩阵形式:Molecile1Molecule2···Moleculekx11···x1my11···y1nx21···x2my21···y2n············xk1···xkmyk1···ykn]]>其中,xij代表生物分子i在所述双状态中的第一状态下第j个样本的表达谱的数值或丰度谱的数值,yij代表生物分子i在所述双状态中的第二状态下第j个样本的表达谱的数值或丰度谱的数值;矩阵转换的过程为:对于给定的基因对u和v,做如下变换:其中,<u,v>N和<u,v>D分别是指基因对u,v在第一状态下和第二状态下的边特征,分别是基因对u和v在第一状态和第二状态下的表达谱的数值或丰度谱的数值的均值,Sxu,Sxv,Syu,Syv分别是基因对u和v在第一状态下和第二状态下的方差,k1,k2为校正系数,所有相关性符合显著差异条件的基因对得到的<u,v>N和<u,v>D所组成的矩阵就是基因对对应的边数据,边数据代表该基因对在不同状态下的相关性,每一个基因对由边数据里的两个对偶的变量或特征所刻画。根据本专利技术的生物边标识系统的建立方法的一实施例,校正系数k1,k2的取值均为1。根据本专利技术的生物边标识系统的建立方法的一实施例,所述特征选择算法包括机器学习中的循环增减法(SequentialForwardFloatingSelection,SFFS)和支持向量机(SupportVectorMachine,SVM)。本专利技术揭示了一种生物边标识系统,包括:信息收集模块,收集具有双状态的数据;基因对选取模块,选出相关性符合显著差异条件的基因对;边数据获取模块,对于相关性符合显著差异条件的基因对,通过矩阵变换,将基因对的表达值数据转化为代表相关性的边数据;生物边标识建立模块,应用特征选择算法找出边数据中分类能力最佳的基因对,将分类能力最佳的基因对作为生物边标识,从而建立起生物边标识系统。根据本专利技术的生物边标识系统的一实施例,所述具有双状态的数据包括:正常状态数据和疾病状态数据、转移状态数据和非转移状态数据、有药物抵抗状态的数据和无药物抵抗状态的数据。根据本专利技术的生物边标识系统的一实施例,所述具有双状态的数据的数据类型包括基因对的表达谱或丰度谱数据。根据本专利技术的生物边标识系统的一实施例,在信息收集模块之后还连接:预处理模块,对数据进行预处理,去除表达均值低于设定值或变异系数高于设定值的基因。根据本专利技术的生物边标识系统的一实施例,在基因对选取模本文档来自技高网...

【技术保护点】
一种生物边标识系统的建立方法,包括:收集具有双状态的数据;选出相关性符合显著差异条件的基因对;对于相关性符合显著差异条件的基因对,通过矩阵变换,将基因对的表达值数据转化为代表相关性的边数据;应用特征选择算法找出边数据中分类能力最佳的基因对,将分类能力最佳的基因对作为生物边标识,从而建立起生物边标识系统。

【技术特征摘要】
1.一种生物边标识系统的建立方法,包括:
收集具有双状态的数据;
选出相关性符合显著差异条件的基因对;
对于相关性符合显著差异条件的基因对,通过矩阵变换,将基因对的表达值
数据转化为代表相关性的边数据;
应用特征选择算法找出边数据中分类能力最佳的基因对,将分类能力最佳的
基因对作为生物边标识,从而建立起生物边标识系统。
2.根据权利要求1所述的生物边标识系统的建立方法,其特征在于,所述具
有双状态的数据包括:正常状态数据和疾病状态数据、转移状态数据和非转移状
态数据、有药物抵抗状态的数据和无药物抵抗状态的数据。
3.根据权利要求1所述的生物边标识系统的建立方法,其特征在于,所述具
有双状态的数据的数据类型包括基因对的表达谱或丰度谱数据。
4.根据权利要求1所述的生物边标识系统的建立方法,其特征在于,在所述
收集具有双状态的数据的步骤之后还包括:
对数据进行预处理,去除表达均值低于设定值或变异系数高于设定值的基因。
5.根据权利要求1所述的生物边标识系统的建立方法,其特征在于,在所述
选出相关性符合显著差异条件的基因对的步骤中,计算基因对在双状态下的相关
系数,根据双状态下的相关系数的差异的绝对值和阈值的比较来确定相关性是否
符合显著差异条件。
6.根据权利要求1所述的生物边标识系统的建立方法,其特征在于,在所述
对于相关性符合显著差异条件的基因对,通过矩阵变换,将基因对的表达值数据
转化为代表相关性的边数据的步骤中,基因对的表达值数据是矩阵形式:
Molecule1Molecule2...Moleculekx11...x1my11...y1nx21...x2my21...y2n............xk1...xkmyk1...ykn]]>其中,xij代表生物分子i在所述双状态中的第一状态下第j个样本的表达谱
的数值或丰度谱的数值,yij代表生物分子i在所述双状态中的第二状态下第j个
样本的表达谱的数值或丰度谱的数值;
矩阵转换的过程为:
对于给定的基因对u和v,做如下变换:
Moleculeu:Moleculev:xu1...xumyu1...yunxv1...xvmyv1...yvn→<u,v>N:<u,v>D:xu1-x‾uk1·Sxu·xv1-x‾vk1·Sxv...xum-x‾uk1·Sxu·xvm-x‾vk1·Sxvyu1-x‾uk1·Sxu·yv1-x‾vk1·Sxv...yun-x‾uk1·Sxu·yvn-x‾vk1·Sxvxu1-y‾uk2·Syu·xv1-y‾vk2·Syv...xum-y‾uk2·Syu·xvm-y‾vk2·Syvyu1-y‾uk2·Syu·yv1-y‾vk2·Syv...yun-y‾uk2·Syu·yvn-y‾vk2·Syv]]>其中,<u,v>N和<u,v>D分别是指基因对u,v在第一状态下和第二状态下的边
特征,分别是基因对u和v在第一状态和第二状态下的表达谱的
数值或丰度谱的数值的均值,Sxu,Sxv,Syu,Syv分别是基因对u和v在第一状态
下和第二状态下的方差,k1,k2为校正系数,所有相关性符合显著差异条件的基
因对得到的<u,v>N和<u,v>D所组成的矩阵就是基因对对应的边数据,边数据代表
该基因对在不同状态下的相关性,每一个基因对由边数据里的两个对偶的变量或
特征所刻画。
7.根据权利要求6所述的生物边标识系统的建立方法,其特征在于,校正系
数k1,k2的取值均为1。
8.根据权利要求1所述的生物边标识系统的建立方法,其特征在于,所述特
征选择算法包括机器学习中的循环增减法(SequentialForwardFloatingSelection,
SFFS)和支持向量机...

【专利技术属性】
技术研发人员:陈洛南张万纬
申请(专利权)人:中国科学院上海生命科学研究院
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1