高通量测序的生物信息分析方法及装置、设备及存储介质制造方法及图纸

技术编号:16779802 阅读:22 留言:0更新日期:2017-12-13 00:01
一种高通量测序的生物信息分析方法、装置、计算机设备及存储介质,一个实施例中的方法包括:获取待测基因序列的高通量测序数据;对所述高通量测序数据进行分析处理,获得所述待测基因序列的基因序列参数;提取获得与所述待测基因序列对应的用户信息参数;通过训练获得的分类模型对包括所述基因序列参数和所述用户信息参数的变量特征进行分类,获得所述待测基因序列的基因分类结果。本实施例方案降低了检测成本,同时也能够校正之前出现的假阳性和假阴性的结果,提高了检测准确率。

Bioinformatics analysis methods and devices, equipment and storage medium for high throughput sequencing

Biological information in a high-throughput sequencing analysis method, apparatus, computer equipment and storage medium, including a method embodiment: obtaining high-throughput sequencing data sequences to be tested; for the high-throughput sequencing data analysis, gene sequence parameters of the gene sequence to be detected; extraction the user information parameter sequence corresponding to the question; the classification model gained by training to classify variables including the sequence parameters and the parameters of user information, gene classification results obtained from the gene sequence to be detected. The implementation scheme reduces the detection cost, and can also correct the false positive and false negative results that appear before, and improves the detection accuracy.

【技术实现步骤摘要】
高通量测序的生物信息分析方法及装置、设备及存储介质
本专利技术涉及生物
,特别涉及高通量测序技术,具体涉及一种高通量测序的生物信息分析方法、一种高通量测序的生物信息分析装置、一种计算机设备及一种计算机存储介质。
技术介绍
随着基因组高通量测序技术的快速发展,极大地推动了生物医学、生命科学等领域的发展。目前基因组高通量测序技术已经应用于临床,譬如家系遗传病遗传学诊断、无创产前检测(non-invasiveprenataltesting,NIPT)、胚胎植入前遗传诊断和肿瘤等复杂疾病个性化医疗等,同时越来越多研究者采用高通量测序来进行科研。目前基于高通量测序法的无创产前检测的生物信息分析方法,基本都是基于比对序列的覆盖深度,经过GC含量(GCcontent,在DNA4种碱基中,鸟嘌呤和胞嘧啶所占的比率)校正后进行Z检验(一种用于大样本平均值差异性检验的方法)来检测可能存在的染色体非整倍体,主要包括21、18和13号染色体,从而预测相关疾病如唐氏综合征(21三体)、爱德华氏综合症(18三体)和帕陶氏综合症(13三体)的风险。这种基于比对序列数据的Z检验数值来评估无创产前筛查风险的方法,通过技术实践发现,一般约有1-10%的临界数值难以判断,这样的结果被划分到“灰度区”,需要重新检测,这就造成效率降低,成本上升,而且有较大的出错概率,造成假阴性和假阳性。
技术实现思路
基于此,本专利技术实施例的目的在于提供一种高通量测序的生物信息分析方法、一种高通量测序的生物信息分析装置、一种计算机设备及一种计算机存储介质,以提高处理效率和准确率。为达到上述目的,本专利技术的一个实施例采用以下技术方案:一种高通量测序的生物信息分析方法,包括步骤:获取待测基因序列的高通量测序数据;对所述高通量测序数据进行分析处理,获得所述待测基因序列的基因序列参数;提取获得与所述待测基因序列对应的用户信息参数;通过训练获得的分类模型对包括所述基因序列参数和所述用户信息参数的变量特征进行分类,获得所述待测基因序列的基因分类结果。一种高通量测序的生物信息分析装置,包括:待测序列数据获取模块,用于获取待测基因序列的高通量测序数据;待测序列基因参数模块,用于对所述高通量测序数据进行分析处理,获得所述待测基因序列的基因序列参数;待测序列用户信息参数模块,用于提取获得与所述待测基因序列对应的用户信息参数;分类模块,用于通过训练获得的分类模型对包括所述基因序列参数和所述用户信息参数的变量特征进行分类,获得所述待测基因序列的基因分类结果。一种计算机设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上所述的方法的步骤。一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上所述的方法的步骤。基于如上所述的实施例的方案,在需要对待测基因序列进行分析时,通过对待测基因序列的高通量测序数据进行分析处理,获得待测基因序列的基因序列参数,并提取与待测基因序列对应的用户信息参数,然后用训练获得的分类模型对包括基因序列参数和用户信息参数的变量特征进行分类,从而获得待测基因序列的基因分类结果。其通过机器分类学习的方法,基于包含基因序列参数和用户信息参数的变量特征,在已知数据的基础上进行训练获得分类模型,并基于分类模型对待测基因序列的变量特征进行分类,据此获得的待测基因序列的基因分类结果准确度高,降低了由于重新读取而增加的检测成本,同时也能够校正之前出现的假阳性和假阴性的结果,提高了检测准确率。附图说明图1是一个实施例中的高通量测序的生物分析方法的流程示意图;图2是一个具体示例中的高通量测序的生物分析方法的原理示意图;图3是应用本实施例方法的一个应用示例的原理示意图;图4是一个实施例中的高通量测序的生物分析装置的结构示意图。具体实施方式为使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步的详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本专利技术,并不限定本专利技术的保护范围。除非另有定义,本文所使用的所有的技术和科学术语与属于本专利技术的
的技术人员通常理解的含义相同。本文中在本专利技术的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本专利技术。本文所使用的术语“或/及”包括一个或多个相关的所列项目的任意的和所有的组合。图1示出了一个实施例中的高通量测序的生物信息分析方法的流程示意图。如图1所示,该实施例中的方法包括步骤S101至步骤S104。步骤S101:获取待测基因序列的高通量测序数据。高通量测序又称下一代测序技术,其可以一次并行地对几十万到几百万条DNA(Deoxyribonucleicacid,脱氧核糖核酸,是一种分子,可组成遗传指令,以引导生物发育与生命机能运作)分子进行序列测定,以能一次并行对几十万到几百万条DNA分子进行序列测定和一般读长较短等为标志。具体的获得待测基因序列的高通量测序数据的方式,可以采用已有的高通量测序技术进行。步骤S102:对所述高通量测序数据进行分析处理,获得所述待测基因序列的基因序列参数。在一个示例中,对所述高通量测序数据进行分析处理,获得所述待测基因序列的基因序列参数时,可以采用下述方式进行:对所述高通量测序数据进行多重校正处理,所述多重校正处理包括:数据总量校正、GC含量校正和缩尾处理,这里的数据总量校正、GC含量校正、缩尾处理的方式,可以采用已有的及以后可能出现的任何方式进行;对所述多重校正处理后的高通量测序数据进行参数计算,获得所述基因序列参数。其中,具体的进行参数计算获得基因序列参数的方式,基于基因序列参数的类型的不同,可以采用与基因序列参数相对应的方式进行。在一个具体示例中,上述基因序列参数可以包括:胎儿DNA含量、序列读长平均值、参照样本基线值的Z检验值(为了与其他的Z检验值区分,在本实施例中称之为第一Z检验值)、参照样本基线阳性预测值的Z检验值(为了与其他的Z检验值区分,在本实施例中称之为第二Z检验值)、染色体内参值的Z检验值(为了与其他的Z检验值区分,在本实施例中称之为第三Z检验值)、染色体内参阳性预测值的Z检验值(为了与其他的Z检验值区分,在本实施例中称之为第四Z检验值)、样本独立基线值的Z检验值(为了与其他的Z检验值区分,在本实施例中称之为第五Z检验值)、以及样本独立基线阳性预测值的Z检验值(为了与其他的Z检验值区分,在本实施例中称之为第六Z检验值)。在计算确定胎儿DNA含量、序列读长平均值、第一Z检验值、第二Z检验值、第三Z检验值、第四Z检验值、第五Z检验值、第六Z检验值时,可以采用任何可能的与该参数相对应的计算方式进行,本实施例中不做具体限定。在一个具体示例中,在上述对所述高通量测序数据进行分析处理,获得所述待测基因序列的基因序列参数之前,还可以包括步骤:对所述高通量测序数据进行序列比对、去重处理和质控校正。从而,在获得待测基因序列的高通量测序数据之后,通过序列比对、去重处理和质控校正,可以在一定程度上减少后续进行分析处理的高通量测序数据的数据量且提高高通量测序数据的准确性,以进一步提高处理效率和准确度。步骤S103:提取获得与所述待测基因序列对应的用户信息参数。在一个具体示例中,本文档来自技高网
...
高通量测序的生物信息分析方法及装置、设备及存储介质

【技术保护点】
一种高通量测序的生物信息分析方法,其特征在于,包括步骤:获取待测基因序列的高通量测序数据;对所述高通量测序数据进行分析处理,获得所述待测基因序列的基因序列参数;提取获得与所述待测基因序列对应的用户信息参数;通过训练获得的分类模型对包括所述基因序列参数和所述用户信息参数的变量特征进行分类,获得所述待测基因序列的基因分类结果。

【技术特征摘要】
1.一种高通量测序的生物信息分析方法,其特征在于,包括步骤:获取待测基因序列的高通量测序数据;对所述高通量测序数据进行分析处理,获得所述待测基因序列的基因序列参数;提取获得与所述待测基因序列对应的用户信息参数;通过训练获得的分类模型对包括所述基因序列参数和所述用户信息参数的变量特征进行分类,获得所述待测基因序列的基因分类结果。2.根据权利要求1所述的高通量测序的生物分析方法,其特征在于,在获取待测基因序列的高通量测序数据之前,还包括步骤:获取各样本基因序列的高通量测序数据;对各样本基因序列的高通量测序数据进行分析处理,获得各样本基因序列的基因序列参数;提取各样本基因序列的用户信息参数,获得各样本基因序列的所述变量特征;获取已确定的各样本基因序列的基因分类类型;将任意一个样本基因序列的变量特征以及对应的基因分类类型作为一条样本数据,对各样本基因序列的样本数据进行训练,获得所述分类模型。3.根据权利要求2所述的高通量测序的生物分析方法,其特征在于,在获得所述待测基因序列的基因分类结果之后,还包括步骤:在所述基因分类结果经过临床验证后,将所述待测基因序列作为一条新的样本基因序列,对各所述样本基因序列进行更新,获得更新后的样本基因序列;对更新后的各样本基因序列的样本数据进行训练,获得更新后的所述分类模型。4.根据权利要求1至3任意一项所述的高通量测序的生物分析方法,其特征在于,对所述高通量测序数据进行分析处理,获得所述待测基因序列的基因序列参数的方式包括:对所述高通量测序数据进行多重校正处理,所述多重校正处理包括:数据总量校正、GC含量校正和缩尾处理;对所述多重校正处理后的高通量测序数据进行参数计算,获得所述基因序列参数。5.根据权利要求1至3任意一项所述的高通量测序的生物分析方法,其特征在于:所述基因序列参数包括:胎儿DNA含量、序列读长平均值、参照样本基线值的第一Z检验值、参照样本基线阳性预测值的第二Z检验值、染色体内参值的第三Z检验...

【专利技术属性】
技术研发人员:杨剑锋丁肖凡朱卫东何火强李清荣马淑雯
申请(专利权)人:广州达安临床检验中心有限公司成都高新达安医学检验有限公司上海达安医学检验所有限公司高新达安健康产业投资有限公司杨剑锋
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1