Biological information in a high-throughput sequencing analysis method, apparatus, computer equipment and storage medium, including a method embodiment: obtaining high-throughput sequencing data sequences to be tested; for the high-throughput sequencing data analysis, gene sequence parameters of the gene sequence to be detected; extraction the user information parameter sequence corresponding to the question; the classification model gained by training to classify variables including the sequence parameters and the parameters of user information, gene classification results obtained from the gene sequence to be detected. The implementation scheme reduces the detection cost, and can also correct the false positive and false negative results that appear before, and improves the detection accuracy.
【技术实现步骤摘要】
高通量测序的生物信息分析方法及装置、设备及存储介质
本专利技术涉及生物
,特别涉及高通量测序技术,具体涉及一种高通量测序的生物信息分析方法、一种高通量测序的生物信息分析装置、一种计算机设备及一种计算机存储介质。
技术介绍
随着基因组高通量测序技术的快速发展,极大地推动了生物医学、生命科学等领域的发展。目前基因组高通量测序技术已经应用于临床,譬如家系遗传病遗传学诊断、无创产前检测(non-invasiveprenataltesting,NIPT)、胚胎植入前遗传诊断和肿瘤等复杂疾病个性化医疗等,同时越来越多研究者采用高通量测序来进行科研。目前基于高通量测序法的无创产前检测的生物信息分析方法,基本都是基于比对序列的覆盖深度,经过GC含量(GCcontent,在DNA4种碱基中,鸟嘌呤和胞嘧啶所占的比率)校正后进行Z检验(一种用于大样本平均值差异性检验的方法)来检测可能存在的染色体非整倍体,主要包括21、18和13号染色体,从而预测相关疾病如唐氏综合征(21三体)、爱德华氏综合症(18三体)和帕陶氏综合症(13三体)的风险。这种基于比对序列数据的Z检验数值来评估无创产前筛查风险的方法,通过技术实践发现,一般约有1-10%的临界数值难以判断,这样的结果被划分到“灰度区”,需要重新检测,这就造成效率降低,成本上升,而且有较大的出错概率,造成假阴性和假阳性。
技术实现思路
基于此,本专利技术实施例的目的在于提供一种高通量测序的生物信息分析方法、一种高通量测序的生物信息分析装置、一种计算机设备及一种计算机存储介质,以提高处理效率和准确率。为达到上述目的,本专利技术的一 ...
【技术保护点】
一种高通量测序的生物信息分析方法,其特征在于,包括步骤:获取待测基因序列的高通量测序数据;对所述高通量测序数据进行分析处理,获得所述待测基因序列的基因序列参数;提取获得与所述待测基因序列对应的用户信息参数;通过训练获得的分类模型对包括所述基因序列参数和所述用户信息参数的变量特征进行分类,获得所述待测基因序列的基因分类结果。
【技术特征摘要】
1.一种高通量测序的生物信息分析方法,其特征在于,包括步骤:获取待测基因序列的高通量测序数据;对所述高通量测序数据进行分析处理,获得所述待测基因序列的基因序列参数;提取获得与所述待测基因序列对应的用户信息参数;通过训练获得的分类模型对包括所述基因序列参数和所述用户信息参数的变量特征进行分类,获得所述待测基因序列的基因分类结果。2.根据权利要求1所述的高通量测序的生物分析方法,其特征在于,在获取待测基因序列的高通量测序数据之前,还包括步骤:获取各样本基因序列的高通量测序数据;对各样本基因序列的高通量测序数据进行分析处理,获得各样本基因序列的基因序列参数;提取各样本基因序列的用户信息参数,获得各样本基因序列的所述变量特征;获取已确定的各样本基因序列的基因分类类型;将任意一个样本基因序列的变量特征以及对应的基因分类类型作为一条样本数据,对各样本基因序列的样本数据进行训练,获得所述分类模型。3.根据权利要求2所述的高通量测序的生物分析方法,其特征在于,在获得所述待测基因序列的基因分类结果之后,还包括步骤:在所述基因分类结果经过临床验证后,将所述待测基因序列作为一条新的样本基因序列,对各所述样本基因序列进行更新,获得更新后的样本基因序列;对更新后的各样本基因序列的样本数据进行训练,获得更新后的所述分类模型。4.根据权利要求1至3任意一项所述的高通量测序的生物分析方法,其特征在于,对所述高通量测序数据进行分析处理,获得所述待测基因序列的基因序列参数的方式包括:对所述高通量测序数据进行多重校正处理,所述多重校正处理包括:数据总量校正、GC含量校正和缩尾处理;对所述多重校正处理后的高通量测序数据进行参数计算,获得所述基因序列参数。5.根据权利要求1至3任意一项所述的高通量测序的生物分析方法,其特征在于:所述基因序列参数包括:胎儿DNA含量、序列读长平均值、参照样本基线值的第一Z检验值、参照样本基线阳性预测值的第二Z检验值、染色体内参值的第三Z检验...
【专利技术属性】
技术研发人员:杨剑锋,丁肖凡,朱卫东,何火强,李清荣,马淑雯,
申请(专利权)人:广州达安临床检验中心有限公司,成都高新达安医学检验有限公司,上海达安医学检验所有限公司,高新达安健康产业投资有限公司,杨剑锋,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。