生物标记提取装置及其方法制造方法及图纸

技术编号:7503916 阅读:146 留言:0更新日期:2012-07-11 03:42
本发明专利技术涉及一种生物信息学技术,尤其涉及一种基于在序列上出现的变异对基因功能导致的危害性的分析,提取可靠性更高的生物标记的装置及其方法。分析在序列上出现的变异对基因功能导致的变化,并提取成为特定疾病的原因的生物标记的生物标记提取装置,其包括:一预处理部,其分析基因试样的序列,提取在基因上定位的变异数据;一危害性预测器,定量由于上述变异数据在上述基因功能上发生的障碍,而求出危害性分数;一模块化部,在基因网络,探索上述危害性分数在所定临界值以上的基因集合的子模块。

【技术实现步骤摘要】
生物标记提取装置及其方法
本专利技术涉及一种生物信息学(Bioinformatics)技术,尤其涉及一种基于在序列上出现的变异对基因功能导致的危害性的分析,提取可靠性更高的生物标记的装置及其方法。
技术介绍
人类基因项目完成后,开始解读人类DNA碱基序列,并开始揭开人类基因的多样的功能。尤其,发现了多样的基因变异,从而揭开了其不仅导致人类性状的差异,而且有可能成为特定疾病的原因,对人类基因的分析研究也进一步加速。然而,要揭开在人类基因中有可能产生的庞大的遗传性变异中哪些变异实际上成为病因,还存在困难。最近,作为解决这种问题的对策,正在研究下一代基因测序技术(NextGenerationSequencing)。通过该技术可以对个别人类的整个基因进行碱基序列化,并且通过疾病群与正常群的碱基序列及变异比较分析方法,可以提取疾病特异性的基因变异。另一方面,与其相反,还在研究不是碱基序列测序,而是通过单核苷酸多态性(singlenucleotidepolymorphism)芯片,依据种群(population)统计分析进行的全基因组关联研究(GenomeWideAssociationStudy)分析技术。根据该技术,通过自数千至数万名中取得的单核苷酸多态性(SNP)数据分析,可以提取在特定疾病群中频繁发生的显著的遗传性变异。然而,即使通过多样的分析技术提取遗传性变异,但要确认包括这种遗传性变异的基因的实际表达以及功能上障碍与否,还需要进一步实验,这在时间以及费用方面造成相当的损失。尤其,仅仅通过个别基因变异信息,不能对引发特定疾病的多样的病因提供足够的说明。为了克服这些问题,还在研究,分析生物学要素的相互作用,并据此解读生物系统的所谓系统生物学的技术。即、由基因表达的生物学功能与其他基因表达的功能一起,为了维持生命而工作,从而在不断改变的外部环境下,仍然维持动态平衡而能够继续生存。这种技术通过生物学要素的网络分析,进行具有各个变异的基因的功能位置以及相互作用的分析,就能够明确遗传性变异对周边要素的影响及该影响如何传播。并且,为说明遗传性变异与公知基因的相互作用、基因调控电路、蛋白质相互作用、代谢,信号传达电路有什么关联性,提供基础。为了正常的细胞活动所需的细胞内多样的流程是,通过所谓功能模块的更小、特殊的蛋白质或基因团,进行工作的。作为对在个别基因中由于个别的非同义单核苷酸多态性(non-synonymousSingleNucleotidePolymorphism)而发生的蛋白质功能的危害性进行预测的一系列方法,有SIFT(SortingTolerantFromIntolerant)、PolyPhen、MAPP(MapAnnotatorandPathwayProfiler)等,然而仅仅使用这些方法,为比较复杂的疾病,找出病因或疾病标记(marker),存在一定限制。并且在通常单核苷酸多态性(SNP)中,对蛋白质功能有危害的单核苷酸多态性(SNP)的比率很低。从而,若利用基因集合富集度分析(Genesetenrichmentanalysis)与单核苷酸多态性(SNP)分析方法,就不区分有可能对蛋白质功能导致危害的单核苷酸多态性(SNP),而利用预测为单核苷酸多态性(SNP)的所有数据,因此有可能误判实际上与特定疾病没有多大关系的生物学途径(pathway)或基因集合为统计上显著。从而有必要开发,基于生物分子网络,分析疾病特异性的基因变异,并对属于发现的生物分子网络的基因的表达模式进行分析,从而能够更为准确找出与特定疾病有关的生物标记的技术。
技术实现思路
本专利技术是鉴于上述问题而提出的,其目的在于,超越以前仅仅利用基因变异或基因表达模式的各一部分,而进行相互作用模块化以及分析的限制,基于在序列上出现的变异对基因功能导致的危害性分析,而提取可靠性更高的生物标记。尤其,本专利技术另一目的在于开发危害性预测技术,其利用多方面方法,对在提取上述生物标记上发挥重要影响的危害性进行定量。本专利技术的技术课题并不限于上面所说的技术课题,本领域的技术人员通过下面的记载,能够明确理解上面没有涉及的其他的技术课题。为实现上述技术课题,根据本专利技术一实施例的生物标记提取装置,其分析在序列上出现的变异对基因功能导致的变化,提取成为特定疾病的原因的生物标记,其包括:一预处理部,其分析基因试样的序列,提取在基因上定位的变异数据;一危害性预测器,定量由于上述变异数据在上述基因功能上发生的障碍,而求出危害性分数;一模块化部,在基因网络,探索上述危害性分数在所定临界值以上的基因集合的子模块。为实现上述技术课题,根据本专利技术一实施例的危害性预测装置,其定量在序列上出现的变异数据影响基因功能导致的障碍,并包括:一危害性计算部,其在多个危害性预测模型上适用上述变异数据,而获得各个危害性后,在上述各个危害性上适用权重值,而计算权重危害性;一重要性计算部,其基于上述变异数据的频率,计算相应基因变异的重要性;一分数计算部,组合上述权重危害性及上述重要性,而计算危害性分数。为实现上述技术课题,根据本专利技术一实施例的生物标记提取方法,分析在序列上出现的变异对基因功能导致的变化,而提取成为特定疾病的原因的生物标记的方法,其包括:定量由于包含在基因的变异数据而在上述基因功能上发生的障碍,而求出危害性分数的步骤;在基因网络中探索上述危害性分数在所定临界值以上的基因集合的子模块的步骤;上述生物标记提取装置决定上述探索的多个子模块之间的先后顺序的步骤。为实现上述技术课题,根据本专利技术一实施例的危害性预测方法,定量在序列上出现的变异数据影响基因功能导致的障碍,其包括:从上述变异数据产生包含多样的要素的特征向量的步骤;在上述产生的特征向量中选出各个预测模型所需要素的步骤;在输入上述选出的要素后,提供在蛋白质序列内个别的分数的步骤;在上述预测模型的输出上,适用权重值进行合计,而计算权重危害性的步骤。根据上述本专利技术可以预测,比较疾病群与正常群而获得的疾病特异性序列的变异对相应基因的功能引发什么变化或障碍,并且并行这种表达模式与网络的分析,而提供个别基因障碍对整个生物系统的相互作用起什么影响的信息,从而能够发掘基于疾病机制的生物标记。这种生物标记能够广泛用于特定疾病的诊断、治疗特定疾病的药物开发、副作用预防。附图说明图1是示出根据本专利技术一实施例的生物标记提取装置的框图。图2是示出图1的预处理部的细部结构的框图。图3是示出图1的危害性预测器的细部结构的框图。图4是示出图3的危害性计算部的细部结构的框图。图5是示出用于危害性计算部的定位函数的一例的图。图6是示出在模块化部执行的子模块探索的具体过程的流程图。图7是示出根据在基因子模块与特定基因集合内同时存在的基因数量,验证显著性的概念的图。主要符号的说明:具体实施方式以下,参照附图详细说明本专利技术的优先实施例。本专利技术的优点、特征以及实施方法可以下的通过参照附图的详细说明将会更加明确。然而,本专利技术并不限于下面揭示的实施例,而可以按互不相同的多样的形式实施,本实施例只是为使本专利技术的公开更加完整,而向具有本专利技术所属
的通常知识的人完整地公开专利技术的范畴,因此本专利技术只按权利要求书的范围下定义。在整个说明书中相同的附图标记表示相同的结构要素。图1是示出根据本文档来自技高网
...
生物标记提取装置及其方法

【技术保护点】

【技术特征摘要】
2010.10.27 KR 10-2010-01055041.一种生物标记提取装置,所述装置分析在序列上出现的变异对基因功能导致的变化,提取成为特定疾病的原因的生物标记,其特征在于,包括:一预处理部,分析基因试样的序列,提取在基因上定位的变异数据;一危害性预测器,定量由于所述变异数据在所述基因功能上发生的障碍,而求出危害性分数;一模块化部,在基因网络,探索所述危害性分数在预定临界值以上的基因集合的子模块,所述危害性预测器还包括:重要性计算部,基于所述变异数据的频率计算相应基因变异的重要性,所述重要性计算部,在获得相应基因变异在疾病群试样中发现的0至1之间的概率之后,通过0和1处的坡度小于0.5处的坡度的定位函数对所述概率进行修正,由此获得所述重要性,所述危害性分数是反映所述重要性而求出。2.根据权利要求1所述的生物标记提取装置,其特征在于,所述预处理部包括:一疾病群比较部,互相比较疾病群变异与正常群变异,在所述分析的基因试样中获取所述疾病群中存在的变异;一变异提取部,参照公知的变异数据库,在所述获取的疾病群变异中提取新变异;一变异定位部,在功能性基因上定位所述提取的新变异。3.根据权利要求2所述的生物标记提取装置,其特征在于,所述变异定位部,在所述提取的新变异中,只提取在表达为蛋白质时氨基酸改变的种类,并在所述功能性基因上进行定位。4.根据权利要求1所述的生物标记提取装置,其特征在于,所述危害性预测器包括危害性计算部,所述危害性计算部在多个危害性预测模型上适用所述变异数据而获得各个危害性后,在所述各个危害性上适用权重值而计算权重危害性。5.根据权利要求4所述的生物标记提取装置,其特征在于,所述危害性计算部包括:一特征向量产生部,其从所述变异数据产生包含多样的要素的特征向量;一适配器,在所述产生的特征向量中选出各个预测模型所需要素;两个以上的预测模型,输入所述选出的要素,就能够在蛋白质序列内发现个别的非同义单核苷酸多态性;一权重值适用部,在所述预测模型的输出上适用权重值进行合计。6.根据权利要求5所述的生物标记提取装置,其特征在于,所述权重值适用部,将所述预测模型的输出正规化为0至1之间的值后,适用所述权重值进行合计,并将所述合计的结果正规化为0至1之间的值。7.根据权利要求5所述的生物标记提取装置,其特征在于,所述特征向量,在定位基因变异的基因及蛋白质的相应位置上氨基酸的各种生物种间的保守性分数、氨基酸取代导致的生物化学性质的变化、蛋白质结构特征的变化、有无内含子切接点位置、5端非翻译区变异位置中,包括两个以上。8.根据权利要求5所述的生物标记提取装置,其特征在于,所述预测模型,在SIFT、PolyPhen、MAPP中,至少包括一个。9.根据权利要求4所述的生物标记提取装置,其特征在于,所述危害性预测器还包括:一分数计算部,组合所述权重危害性及所述重要性,而计算危害性分数。10.根据权利要求9所述的生物标记提取装置,其特征在于,所述分数计算部,在一个基因内基因变异所具有的危害性分数的和,除以所述基因的长度,而求出最终危害性分数。11.根据权利要求1所述的生物标记提取装置,其特征在于,所述模块化部,基于现在的基因节点的集合上合并邻接基因是否显著,而重复进行更新基因网络的过程,而探索所述子模块。12.根据权利要求11所述的生物标记提取装置,其特征在于,所述模块化部,利用在所述危害性分数超过预定临界值的基因数量的超几何分布中获得的概率,判断所述显著性。13.根据权利要求12所述的生物标记提取装置,其特征在于,所述预定临界值以整个基因的危害性分数分布中预定百分位数为准而决定。14.根据权利要求1所述的生物标记提取装置,其特征在于,还包括网络合并部,在公知的蛋白质相互作用数据库中合并从求出所述危害性分数的基因表达...

【专利技术属性】
技术研发人员:尹泓皙宣忠贤朴仁镐
申请(专利权)人:三星SDS株式会社
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术