基因组序列和注释信息的评估方法、装置、设备及介质制造方法及图纸

技术编号:38461178 阅读:9 留言:0更新日期:2023-08-11 14:38
本申请提供了一种基因组序列和注释信息的评估方法、装置、设备及介质,该方法包括:获取待评估基因组序列及待评估注释信息的输入文件;响应信息提取命令执行操作,对输入文件进行信息提取,从输入文件中获取不同类型的待评估文件,并将待评估文件和预设的测试文件分别输入到评估工具中,得到评估工具输出的第一评估结果和测试结果;使追加评估标准对待评估文件进行再次评估,得到第二评估结果;根据第一评估结果和第二评估结果生成待评估基因组序列及待评估注释信息质量的目标评估结果。本申请使用现有的评估工具对待评估基因组序列及待评估注释信息进行评估的同时,还对评估工具的不足地方进行了弥补,能够得到更加准确、完善的结果。完善的结果。完善的结果。

【技术实现步骤摘要】
基因组序列和注释信息的评估方法、装置、设备及介质


[0001]本申请涉及基因生物
,具体而言,涉及一种基因组序列和注释信息的评估方法、装置、设备及介质。

技术介绍

[0002]基因组序列和基因组注释是基因组学相关研究的基础资源,基因组注释是建立从未知功能的基因组序列到该物种生物学研究的桥梁,且基因组注释的质量决定着基因组的价值。
[0003]随着基因组数据量逐年增加,高质量的基因组学数据是实现数据共享,推动科学研究必不可少的条件之一,是基因组数据获取、传播、再利用中重要的前提和基础。当积累的基因组学数据越来越多,如何严格把控高质量的基因组序列和注释信息是科学研究关注的重点。当前大量基因组组装数据缺乏基因组注释信息,已有的基因组注释信息质量参差不齐,大大限制了基因组组装数据的科学价值。高质量的基因组注释信息,可以为组学相关分析和研究提供帮助,同时提升数据使用价值,为组学分析、比较基因组分析、分子育种和病毒溯源等研究提供重要数据资源。

技术实现思路

[0004]有鉴于此,本申请的目的在于提供一种基因组序列和注释信息的评估方法、装置、电子设备及存储介质,以克服现有技术中的问题。
[0005]第一方面,本申请实施例提供了一种基因组序列和注释信息的评估方法,所述方法包括:
[0006]获取待评估基因组序列及待评估注释信息的输入文件;所述输入文件包括基因组序列文件、注释信息文件和填写信息文件;
[0007]响应信息提取命令执行操作,对输入文件进行信息提取,从所述输入文件中获取不同类型的待评估文件,并将所述待评估文件和预设的测试文件分别输入到评估工具中,得到评估工具输出的第一评估结果和测试结果;
[0008]使追加评估标准对所述待评估文件进行再次评估,得到第二评估结果;所述追加评估标准是根据对所述测试结果分析得到的待追加项生成的;
[0009]根据所述第一评估结果和所述第二评估结果生成所述待评估基因组序列及待评估注释信息质量的目标评估结果。
[0010]在本申请一些技术方案中,上述待评估文件包括待评估核苷酸序列文件,所述方法通过以下方式得到所述待评估核苷酸序列文件:
[0011]对预设格式的所述基因组序列文件进行文件解压处理和信息剔除处理,得到初始核苷酸序列文件;
[0012]从所述初始核苷酸序列文件中选出带有预设结尾标识的文件作为中间核苷酸序列文件;
[0013]使用所述填写信息文件中包含的信息对所述中间核苷酸序列文件进行信息补充,得到信息补充后的待评估核苷酸序列文件。
[0014]在本申请一些技术方案中,上述方法通过以下方式对所述待评估核苷酸序列文件进行再次评估:
[0015]通过对所述测试结果进行分析,得到所述待评估核苷酸序列文件对应的追加评估标准为定义行的序列标识标准;
[0016]使用定义行的序列标识标准对所述待评估核苷酸序列文件进行再次评估,得到待评估核苷酸序列文件的第二评估结果。
[0017]在本申请一些技术方案中,上述待评估文件包括待评估注释信息文件,所述方法通过以下方式得到所述待评估注释信息文件:
[0018]从所述注释信息文件中,选出预设文件后缀的目标注释信息文件;
[0019]对所述目标注释信息文件进行解压处理,得到所述待评估注释信息文件。
[0020]在本申请一些技术方案中,上述方法还包括:
[0021]根据所述待评估注释信息文件的文件格式,将所述待评估注释信息文件分为不同类型;其中,不同类型包括第一类型和第二类型;
[0022]所述方法通过以下方式对所述待评估注释信息文件进行再次评估:
[0023]通过对所述测试结果进行分析,得到第一类型的所述待评估注释信息文件对应的追加评估标准为信息数量标准和第一信息内容标准;
[0024]使用信息数量标准和第一信息内容标准对第一类型的所述待评估注释信息文件进行再次评估,得到第一类型的所述待评估注释信息文件的第二评估结果;
[0025]通过对所述测试结果进行分析,得到第二类型的所述待评估注释信息文件对应的追加评估标准为第二信息内容标准和信息格式标准;
[0026]使用第二信息内容标准和信息格式标准对第二类型的所述待评估注释信息文件进行再次评估,得到第二类型的所述待评估注释信息文件的第二评估结果。
[0027]在本申请一些技术方案中,上述待评估文件包括待评估模板文件、待评估样本元信息文件和待评估基因组组装信息文件,所述方法通过以下方式得到所述待评估模板文件、待评估样本元信息文件和待评估基因组组装信息文件:
[0028]响应信息填写操作,根据所述信息填写操作对应的填写信息生成对应的填写信息文件;
[0029]提取所述填写信息文件中的填写信息,并对所述填写信息进行分类处理得到模板信息、样本元信息和基因组组装信息;
[0030]根据所述模板信息、样本元信息和基因组组装信息和预设的格式要求,生成所述待评估模板文件、待评估样本元信息文件和待评估基因组组装信息文件。
[0031]在本申请一些技术方案中,上述方法待评估文件包括待评估核苷酸序列文件和待评估注释信息文件,所述方法通过以下方式对所述待评估核苷酸序列文件和待评估注释信息文件进行再次评估:
[0032]通过对所述测试结果进行分析,得到所述待评估核苷酸序列文件和待评估注释信息文件对应的追加评估标准为一致性标准、基因组污染标准和基因组大小标准;
[0033]使用所述一致性标准、基因组污染标准和基因组大小标准对所述待评估核苷酸序
列文件和待评估注释信息文件进行再次评估,得到所述待评估核苷酸序列文件和待评估注释信息文件进行再次评估的第二评估结果。
[0034]第二方面,本申请实施例提供了一种基因组序列和注释信息的评估装置,所述装置包括:
[0035]获取模块,用于获取待评估基因组序列及待评估注释信息的输入文件;所述输入文件包括基因组序列文件、注释信息文件和填写信息文件;
[0036]第一评估模块,用于响应信息提取命令执行操作,对输入文件进行信息提取,从所述输入文件中获取不同类型的待评估文件,并将所述待评估文件和预设的测试文件分别输入到评估工具中,得到评估工具输出的第一评估结果和测试结果;
[0037]第二评估模块,用于使追加评估标准对所述待评估文件进行再次评估,得到第二评估结果;所述追加评估标准是根据对所述测试结果分析得到的待追加项生成的;
[0038]生成模块,用于根据所述第一评估结果和所述第二评估结果生成所述待评估基因组序列及待评估注释信息质量的目标评估结果。
[0039]第三方面,本申请实施例提供了一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述的基因组序列和注释信息的评估方法的步骤。
[0040]第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基因组序列和注释信息的评估方法,其特征在于,所述方法包括:获取待评估基因组序列及待评估注释信息的输入文件;所述输入文件包括基因组序列文件、注释信息文件和填写信息文件;响应信息提取命令执行操作,对输入文件进行信息提取,从所述输入文件中获取不同类型的待评估文件,并将所述待评估文件和预设的测试文件分别输入到评估工具中,得到评估工具输出的第一评估结果和测试结果;使追加评估标准对所述待评估文件进行再次评估,得到第二评估结果;所述追加评估标准是根据对所述测试结果分析得到的待追加项生成的;根据所述第一评估结果和所述第二评估结果生成所述待评估基因组序列及待评估注释信息质量的目标评估结果。2.根据权利要求1所述的方法,其特征在于,所述待评估文件包括待评估核苷酸序列文件,所述方法通过以下方式得到所述待评估核苷酸序列文件:对预设格式的所述基因组序列文件进行文件解压处理和信息剔除处理,得到初始核苷酸序列文件;从所述初始核苷酸序列文件中选出带有预设结尾标识的文件作为中间核苷酸序列文件;使用所述填写信息文件中包含的信息对所述中间核苷酸序列文件进行信息补充,得到信息补充后的待评估核苷酸序列文件。3.根据权利要求2所述的方法,其特征在于,所述方法通过以下方式对所述待评估核苷酸序列文件进行再次评估:通过对所述测试结果进行分析,得到所述待评估核苷酸序列文件对应的追加评估标准为定义行的序列标识标准;使用定义行的序列标识标准对所述待评估核苷酸序列文件进行再次评估,得到待评估核苷酸序列文件的第二评估结果。4.根据权利要求1所述的方法,其特征在于,所述待评估文件包括待评估注释信息文件,所述方法通过以下方式得到所述待评估注释信息文件:从所述注释信息文件中,选出预设文件后缀的目标注释信息文件;对所述目标注释信息文件进行解压处理,得到所述待评估注释信息文件。5.根据权利要求4所述的方法,其特征在于,所述方法还包括:根据所述待评估注释信息文件的文件格式,将所述待评估注释信息文件分为不同类型;其中,不同类型包括第一类型和第二类型;所述方法通过以下方式对所述待评估注释信息文件进行再次评估:通过对所述测试结果进行分析,得到第一类型的所述待评估注释信息文件对应的追加评估标准为信息数量标准和第一信息内容标准;使用信息数量标准和第一信息内容标准对第一类型的所述待评估注释信息文件进行再次评估,得到第一类型的所述待评估注释信息文件的第二评估结果;通过对所述测试结果进行分析,得到第二类型的所述待评估注释信息文件对应的追加评估标准为第二信息内容标准和信息格式标准;使用第二信息内容标准和信息格式标准对第二类型的所述待评估注释信息文件进行

【专利技术属性】
技术研发人员:赵学彤陈梅丽鲍一明
申请(专利权)人:中国科学院北京基因组研究所国家生物信息中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1