基因组注释方法、装置、可视化平台和存储介质制造方法及图纸

技术编号:28678560 阅读:21 留言:0更新日期:2021-06-02 02:56
本申请提供了一种基因组注释方法、装置、可视化平台和存储介质,包括获取待注释的测序数据,将测序数据根据基因染色体字段进行拆分,得到多个子测序数据;然后将每一个子测序数据映射到对应的子单元基因数据库中进行查找分析,从而得到注释结果,其中子单元基因数据库是对已知的基因数据库根据基因染色体字段进行拆分得到的;该基因组注释方法将百亿级数据的基因数据库拆分成数据量较少的子单元基因数据库,然后将待注释的测序数据拆分成与子单元基因数据库大小其类型相同的子测序数据,在进行注释时只需要将子测序数据与其对应的子单元基因数据库进行比较即可,从而大大减少了缩小了查询范围,节约了计算的时间和计算量。

【技术实现步骤摘要】
基因组注释方法、装置、可视化平台和存储介质
本申请涉及生物信息学
,具体涉及一种基因组注释方法、装置、可视化平台和计算机可读存储介质。
技术介绍
基因数据在测序完成后,通常需要经过配套的分析软件进行变异检出分析。其中变异检出分析是指将测序后基因组数据通过与参考基因组进行比较,从而得到与参考序列不一致的碱基位置与变化信息(即变异位点的基础信息)。然而变异位点的基础信息往往不足以进行位点致病性判定来确定致病位点。因此,需要对变异信息进行基因组注释(genomeannotation),达成辅助致病性判定的目的。然而,人类全基因组含有约30亿DNA碱基对,而待注释的内容不仅包含单碱基突变(SNP),还包括小的插入缺失突变(Indel),各数据库中的信息记录十分庞大,并且基因检测具有大样本量并行进行基因组注释的特点,资源消耗大且注释时间久,多样本并行注释效率低下。申请内容有鉴于此,本申请实施例中提供了一种基因组注释方法、装置、可视化平台和计算机可读存储介质,以克服现有技术的基因组注释方法资源消耗大且注释时间久、注释效率低下的问题。第一方面,本申请实施例提供了一种基因组注释方法,该方法包括:获取待注释的测序数据,将所述测序数据根据基因染色体字段进行拆分,得到多个子测序数据;将每一个所述子测序数据映射到对应的子单元基因数据库中进行查找分析,得到注释结果;其中所述子单元基因数据库是对已知的基因数据库根据基因染色体字段进行拆分得到的。第二方面,本申请实施例提供了一种基因组注释装置,该装置包括:测序数据获取模块,用于获取待注释的测序数据;测序数据拆分模块,用于将所述测序数据根据基因染色体字段进行拆分,得到多个子测序数据;映射模块,用于将每一个所述子测序数据映射到对应的子单元基因数据库中进行查找分析,得到注释结果;其中所述子单元基因数据库是对已知的基因数据库根据基因染色体字段进行拆分得到的。第三方面,本申请实施例提供了一种可视化平台,包括:一个或多个客户端;一个或多个服务器,与所述存储器耦接;一个或多个应用程序,其中,一个或多个应用程序被存储在存储器中并被配置为由一个或多个服务器执行,一个或多个应用程序配置用于执行上述第一方面提供的基因组注释方法。第四方面,本申请实施例提供了一种计算机可读取存储介质,计算机可读取存储介质中存储有程序代码,程序代码可被处理器调用执行上述第一方面提供的基因组注释方法。本申请实施例提供的基因组注释方法、装置、可视化平台和计算机可读存储介质,包括获取待注释的测序数据,将测序数据根据基因染色体字段进行拆分,得到多个子测序数据;然后将每一个子测序数据映射到对应的子单元基因数据库中进行查找分析,从而得到注释结果,其中子单元基因数据库是对已知的基因数据库根据基因染色体字段进行拆分得到的;该基因组注释方法将百亿级数据的基因数据库拆分成数据量较少的子单元基因数据库,然后将待注释的测序数据拆分成与子单元基因数据库大小其类型相同的子测序数据,在进行注释时只需要将子测序数据与其对应的子单元基因数据库进行比较即可,从而大大减少了缩小了查询范围,节约了计算的时间和计算量。附图说明为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。图1为本申请实施例提供的基因组注释方法的应用场景示意图;图2为本申请一个实施例提供的基因组注释方法的流程示意图;图3为本申请一个实施例中提供的映射查找数据的结构示意图;图4为本申请一个实施例中提供的基因组注释装置的结构示意图;图5为本申请一个实施例中提供的可视化平台的结构示意图;图6为本申请一个实施例中提供的计算机可读存储介质的结构示意图。具体实施方式下面将对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。名词解释:1.高通量测序:(英语:High-throughputsequencing),又称“下一代”测序技术("Next-generation"sequencingtechnology),以能一次并行对几十万到几百万条DNA分子进行序列测定和一般读长较短等为标志。其中测序是指分析特定DNA片段的碱基序列,也就是腺嘌呤(A)、胸腺嘧啶(T)、胞嘧啶(C)与鸟嘌呤(G)的排列方式。快速的DNA测序方法的出现极大地推动了生物学和医学的研究和发现。2.散列函数:(英语:Hashfunction)又称散列算法、哈希函数,是一种从任何一种数据中创建小的数字“指纹”的方法。散列函数把消息或数据压缩成摘要,使得数据量变小,将数据的格式固定下来。该函数将数据打乱混合,重新创建一个叫做散列值(hashvalues,hashcodes,hashsums,或hashes)的指纹。散列值通常用一个短的随机字母和数字组成的字符串来代表。好的散列函数在输入域中很少出现散列冲突。在散列表和数据处理中,不抑制冲突来区别数据,会使得数据库记录更难找到。3.基因组:在分子生物学和遗传学领域,基因组是指生物体所有遗传物质的总和。这些遗传物质包括DNA或RNA(病毒RNA)。基因组包括编码DNA和非编码DNA、线粒体DNA和叶绿体DNA4.基因突变:(Mutation,即突变)在生物学上的含义是指细胞中的遗传基因(通常指存在于细胞核中的去氧核糖核酸)发生的改变。它包括单个碱基改变所引起的点突变,或多个碱基的缺失、重复和插入。原因可以是细胞分裂时遗传基因的复制发生错误、或受化学物质、基因毒性、辐射或病毒的影响。5.点突变:(pointmutation)是突变的一种类型,在遗传材料DNA或RNA中,会使单一个碱基核苷酸替换成另一种核苷酸。通常这个术语也包括只有作用于单一碱基对的插入或删除。6.基础信息注释:如:变异位置、基因、转录本编号、碱基变化、氨基酸变化等;7.预测软件结果注释:通过生物信息学相关算法,对变异进行功能危害性预测。预测和通路分析有助于发现潜在的新基因和位点。8.人群变异频率注释:作为重要参考工具,通过公开权威的数据库中记录可以用于获取某变异在大规模人群中的发生频率。9.突变相关疾病注释:将变异、临床表型、实证数据以及功能注解与分析等四个方面的信息,通过专家评审,形成的遗传变异-临床表型相关的数据库。为了更详细说明本申请,下面结合附图对本申请提供的一种基因组注释方法、装置、终端设备和计算机存储介质,进行具体地描述。请参考图1,图1示出了本申请实施例提供的基因组注释方法的应用场景的示意图,该应用场景包括本申请实本文档来自技高网...

【技术保护点】
1.一种基因组注释方法,其特征在于,所述方法包括:/n获取待注释的测序数据,将所述测序数据根据基因染色体字段进行拆分,得到多个子测序数据;/n将每一个所述子测序数据映射到对应的子单元基因数据库中进行查找分析,得到注释结果;其中所述子单元基因数据库是对已知的基因数据库根据基因染色体字段进行拆分得到的。/n

【技术特征摘要】
1.一种基因组注释方法,其特征在于,所述方法包括:
获取待注释的测序数据,将所述测序数据根据基因染色体字段进行拆分,得到多个子测序数据;
将每一个所述子测序数据映射到对应的子单元基因数据库中进行查找分析,得到注释结果;其中所述子单元基因数据库是对已知的基因数据库根据基因染色体字段进行拆分得到的。


2.根据权利要求1所述的方法,其特征在于,所述子单元基因数据库通过以下方式获得:
获取已知的基因组数据库、基因染色体字段和子单元数据量参数;
根据所述基因染色体字段和所述子单元数据量参数对每一个所述基因组数据库进行拆分,得到所述子单元基因数据库。


3.根据权利要求2所述的方法,其特征在于,所述子单元基因数据库通过以下公式计算得到:



其中,Ga1,Ga2,Ga3,……Gan分别表示子单元基因数据库;X表示基因染色体字段;P表示子单元数据量参数,用于调整所述子单元基因数据库的大小。


4.根据权利要求3所述的方法,其特征在于,所述待注释的测序数据包括多个vcf文件,所述子测序数据包括子单元vcf文件;在将所述测序数据根据基因染色体字段进行拆分,得到多个子测序数据的步骤中,包括:
对每一个所述vcf文件根据文件变量参数进行拆分,得到多个子vcf文件;
根据所述基因染色体字段和所述子单元数据量参数对每一个所述子vcf文件进行拆分,得到多个所述子单元vcf文件。


5.根据权利要求4所述的方法,其特征在于,所述子vcf文件通过以下公式获得:



其中,V...

【专利技术属性】
技术研发人员:董玥贺增泉徐则洋李悦郑大鹏
申请(专利权)人:深圳华大基因科技服务有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1