生物信息数据分析和结果质控自动化方法和系统技术方案

技术编号:27367134 阅读:22 留言:0更新日期:2021-02-19 13:51
本发明专利技术公开一种生物信息数据分析和结果质控自动化方法,包括数据下载,录入或获取标样检测信息,遍历未分析标样,放入系统等待队列,分析标样,分析结果质控,上传分析文件。本发明专利技术还公开一种生物信息数据分析和结果质控自动化系统,包括数据下载单元,检测信息单元,未分析标样单元,等待队列单元,生物信息分析单元,质控单元,上传分析文件单元,备份单元。本发明专利技术能实现生物信息分析流程化管理,生物信息测序数据下载后自动获取检测信息,将合格样本加入等待队列,排除不合格样本分析占用生物信息云节点资源,对分析状态及时更新,可及时发现分析问题,及时更正,分析结果质控,可将不合格分析筛出,分析结果合格标样自动将分析结果上传。果上传。果上传。

【技术实现步骤摘要】
生物信息数据分析和结果质控自动化方法和系统


[0001]本专利技术涉及基于云计算综合型管理
,具体涉及一种生物信息数据分析和结果质控自动化方法和系统。

技术介绍

[0002]随着测序技术的快速进步,基因测序机构、医学科研单位、生物公司生成了海量的生物测序数据。然而这些原始测序数据并不能直接使用,需要使用生物信息学分析技术对这些数据进行计算挖掘处理,才能生成有价值的科学研究信息或疾病治疗药物的关联信息,以及清晰且易于导出结论的结果信息。
[0003]生物信息学是在生命科学的研究中以计算机为主要研究工具对生物学数据进行存储和计算分析,面对高通量测序所产生的海量数据,越来越多的研究人员或公司基于高性能计算机集群通过安装各种生物信息分析软件来进行计算分析。
[0004]生物信息分析涉及多种测序数据,现在技术中,细菌测序数据、真菌测序数据、有参全长转录组测序数据和无参全长转录组测序数据的分析一般分别在单独的生物信息分析平台上进行,分析所有的这些数据需要在计算机上搭建不同的分析平台,每个分析平台又涉及多个分析软件和程序,因为分析软件和程序是内置于各分析平台内的,从而造成分析软件和程序在各分析平台内存在重复安装、资源浪费的问题,并且利用计算机进行数据处理时,不适宜的资源浪费会占用计算机内存空间,降低其运行速度,导致分析过程缓慢,分析效率低下,而且,用户在进行生物信息分析时需要不同的测序数据使用不同的平台,用户使用感较差。
[0005]生物信息分析存在以下流程:分析云节点的分配、标样分析的顺序、分析流程是否完成、分析状态的判断。生物信息分析软件和程序相互关联,由于这些分析软件层出不断、更新迭代,每个分析程序参数、文件格式、运行方式各异,研究人员不断地要去研究新的软件方法并在计算机或集群上安装部署。分析完成还需要对分析结果做质控判断分析结果是否合格,测序数据文件和分析结果的备份。

技术实现思路

[0006]本专利技术的目的是提供一种生物信息数据分析和结果质控自动化方法和系统,以解决现有技术的不足。
[0007]本专利技术采用以下技术方案:
[0008]一种生物信息数据分析和结果质控自动化方法,包括如下步骤:
[0009]S1、数据下载,包括测序公司提供数据或其它来源数据;测序公司提供数据是通过测序公司提供的下载方式将二代测序fq.gz或fastq.gz数据文件下载备份到指定存储位置,同时测序公司数据下载还需提供包括测序数据对应的探针、数据编号、数据是否合格、是否加测、是否重测;其它来源数据需手动上传数据,这种数据没有固定来源,标样信息不完整,需要手动录入包括探针、数据编号、数据是否合格、是否加测、是否重测;系统下载数
据时会将测序数据和测序数据的探针、数据编号、数据是否合格、是否加测、是否重测信息相匹配,并将该标样的分析状态设置为已下载状态;
[0010]S2、录入或获取标样检测信息,检测信息是根据S1中提供的标样探针和标样数据编号,去获取系统中该标样的检测信息,没有固定来源的数据,需要录入标样检测信息,检测信息包括家系编号、探针、数据编号、性别、是否患病、家系关系;获取标样检测信息,得到标样的家系编号,并将该标样的分析状态设置为未分析状态;
[0011]S3、遍历未分析标样,系统会定时循环遍历分析状态为未分析的标样,找到还未分析的标样,根据标样的检测信息得到标样的家系编号,遍历该家系编号下的标样,然后根据S1数据下载时提供的标样数据编号、数据是否合格、是否加测、是否重测判断该标样的数据是否存在、是否合格,如果家系编号下的每个标样都存在且合格,就将该标样的分析状态设置为可分析状态,否则就不改变标样的分析状态;
[0012]S4、放入系统等待队列,系统会定时循环遍历分析状态为可分析的标样,根据标样得到标样的家系编号,生物信息分析以家系为单位,所以把同一家系下的每个标样的检测信息和二代测序数据写入到一个家系信息文件里,家系信息文件在生物信息分析中要使用到,将家系编号放入系统等待队列,并将标样标记为等待分析状态,标样分析按设定顺序进行分析;
[0013]S5、分析标样,当分析云节点出现空闲,会将等待队列中的家系编号按S4中提到的标样分析顺序在分析云节点发起分析,并将标样分析产生的结果目录记录下来;分析过程中会定时循环遍历标样在分析云节点上的运行状态,并及时改变标样状态,在系统页面可以查看标样状态,标样状态包括分析已完成和分析失败;
[0014]S6、分析结果质控,系统会定时循环遍历标样状态,当标样状态是分析已完成时,系统会自动找到S5中记录的标样分析结果目录,读取分析结果的总结文件,获取指定的属性值并判断分析结果是否合格,分析结果合格状态是质控通过,分析结果不合格状态,判断质控失败的原因,并做相应处理;
[0015]S7、上传分析文件,系统会定时循环遍历标样状态,如果状态是质控通过,将分析结果文件上传到指定位置,供解读使用。
[0016]进一步地,S2同一家系的标样使用同一个家系编号,个人标样也存在一个家系编号,生物信息分析以家系编号为单位发起分析;检测信息中的探针、数据编号和S1数据下载中提供的探针、数据编号相对应,系统是根据探针和数据编号来获取检测信息的;性别、是否患病、家系关系这些信息作为生物信息分析流程的先症者变异类型和家系来源的重要判断依据。
[0017]进一步地,S2系统会定时循环遍历分析状态为已下载的标样,根据这些标样的探针和数据编号匹配检测信息中的探针和数据编号,获取标样的检测信息,得到标样的家系编号,并将该标样的分析状态设置为未分析状态。
[0018]进一步地,S4标样分析顺序和放入等待队列的顺序一致,先放入先分析,如果标样分析状态被改成加急状态,该标样会优先分析,如果是加测或补测标样,也会优先分析。
[0019]进一步地,S5标样状态包括分析已完成和分析失败,如果分析失败将会邮件通知生物信息分析人员,生物信息分析人员接到邮件后查找分析失败的原因,修改后重新发起分析该样本;分析已完成的标样需要去质控分析结果。
[0020]进一步地,S6分析结果质控属性值如下:“Exome区覆盖统计”深度值要求>=100;“Exome区深度统计”20X深度Agilent>=90,其他wes要求>=95%;“性别推断”会对比检测信息的性别值;家系标样还会检测变异来源统计中的家系关系值;iWES探针会检测线粒体深度>5000;根据标样的属性值,改变标样的状态,分析结果合格状态是质控通过;分析结果不合格状态:深度不足、20X不足、性别异常、家系异常,深度不足和20X不足需要加测,生成加测的二代测序数据,从S1开始重新分析;性别异常首先确认检测信息中的性别是否录错,如果确认录错,先修改检测信息中的性别,再将标样状态改成分析已完成,系统会再次质控分析结果,如果确认性别录入正确,要确定分析的标样数据是否用错,如果用错修改正确后发起分析,没有用错就通知患者重新测序;家系异常先确定本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种生物信息数据分析和结果质控自动化方法,其特征在于,包括如下步骤:S1、数据下载,包括测序公司提供数据或其它来源数据;测序公司提供数据是通过测序公司提供的下载方式将二代测序fq.gz或fastq.gz数据文件下载备份到指定存储位置,同时测序公司数据下载还需提供包括测序数据对应的探针、数据编号、数据是否合格、是否加测、是否重测;其它来源数据需手动上传数据,这种数据没有固定来源,标样信息不完整,需要手动录入包括探针、数据编号、数据是否合格、是否加测、是否重测;系统下载数据时会将测序数据和测序数据的探针、数据编号、数据是否合格、是否加测、是否重测信息相匹配,并将该标样的分析状态设置为已下载状态;S2、录入或获取标样检测信息,检测信息是根据S1中提供的标样探针和标样数据编号,去获取系统中该标样的检测信息,没有固定来源的数据,需要录入标样检测信息,检测信息包括家系编号、探针、数据编号、性别、是否患病、家系关系;获取标样检测信息,得到标样的家系编号,并将该标样的分析状态设置为未分析状态;S3、遍历未分析标样,系统会定时循环遍历分析状态为未分析的标样,找到还未分析的标样,根据标样的检测信息得到标样的家系编号,遍历该家系编号下的标样,然后根据S1数据下载时提供的标样数据编号、数据是否合格、是否加测、是否重测判断该标样的数据是否存在、是否合格,如果家系编号下的每个标样都存在且合格,就将该标样的分析状态设置为可分析状态,否则就不改变标样的分析状态;S4、放入系统等待队列,系统会定时循环遍历分析状态为可分析的标样,根据标样得到标样的家系编号,生物信息分析以家系为单位,所以把同一家系下的每个标样的检测信息和二代测序数据写入到一个家系信息文件里,家系信息文件在生物信息分析中要使用到,将家系编号放入系统等待队列,并将标样标记为等待分析状态,标样分析按设定顺序进行分析;S5、分析标样,当分析云节点出现空闲,会将等待队列中的家系编号按S4中提到的标样分析顺序在分析云节点发起分析,并将标样分析产生的结果目录记录下来;分析过程中会定时循环遍历标样在分析云节点上的运行状态,并及时改变标样状态,在系统页面可以查看标样状态,标样状态包括分析已完成和分析失败;S6、分析结果质控,系统会定时循环遍历标样状态,当标样状态是分析已完成时,系统会自动找到S5中记录的标样分析结果目录,读取分析结果的总结文件,获取指定的属性值并判断分析结果是否合格,分析结果合格状态是质控通过,分析结果不合格状态,判断质控失败的原因,并做相应处理;S7、上传分析文件,系统会定时循环遍历标样状态,如果状态是质控通过,将分析结果文件上传到指定位置,供解读使用。2.根据权利要求1所述的生物信息数据分析和结果质控自动化方法,其特征在于,S2同一家系的标样使用同一个家系编号,个人标样也存在一个家系编号,生物信息分析以家系编号为单位发起分析;检测信息中的探针、数据编号和S1数据下载中提供的探针、数据编号相对应,系统是根据探针和数据编号来获取检测信息的;性别、是否患病、家系关系这些信息作为生物信息分析流程的先症者变异类型和家系来源的重要判断依据。3.根据权利要求1所述的生物信息数据分析和结果质控自动化方法,其特征在于,S2系统会定时循环遍历分析状态为已下载的标样,根据这些标样的探针和数据编号匹配检测信
息中的探针和数据编号,获取标样的检测信息,得到标样的家系编号,并将该标样的分析状态设置为未分析状态。4.根据权利要求1所述的生物信息数据分析和结果质控自动化方法,其特征在于,S4标样分析顺序和放入等待队列的顺序一致,先放入先分析,如果标样分析状态被改成加急状态,该标样会优先分析,如果是加测或补测标样,也会优先分析。5.根据权利要求1所述的生物信息数据分析和结果质控自动化方法,其特征在于,S5标样状态包括分析已完成和分析失败,如果分析失败将会邮件通知生物信息分析人员,生物信息分析人员接到邮件后查找分析失败的原因,修改后重新发起分析该样本;分析已完成的标样需要去质控分析结果。6.根据权利要求1所述的生物信息数据分析和结果质控自动化方法,其特征在于,S6分析结果质控属性值如下:“Exome区覆盖统计”深度值要求>=100;“Exome区深度统计”20X深度Agilent>=90,其他wes要求>=95%;“性别推断”会对比检测信息的性别值;家系标样还会检测变异来源统计中的家系关系值;iWES探针会检测线粒体深度>5000;根据标样的属性值,改变标样的状态,分析结果合格状态是质控通过;分析结果不合格状态:深度不足、20X不足、性别异常、...

【专利技术属性】
技术研发人员:余伟师梁萌萌邢发元谢欣徐文强
申请(专利权)人:赛福解码北京基因科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1