一种基因测序数据智能结构化存储及提取方法技术

技术编号:31804778 阅读:14 留言:0更新日期:2022-01-08 11:06
本发明专利技术公开了一种基因测序数据智能结构化存储及提取方法,建立一个非关系数据库,将各个基因测序位点存入数据库;针对生物信息/基因测序突变位点的特殊性,对数据进行优化,把突变位点的数据优化到或修改格式到能够方便的存进非关系数据库;利用数据库里存储的突变位点、表达谱、ChIP、甲基化等数据信息,对照已知的突变位点、表达谱、ChIP、甲基化等信息,结合表型信息进行生物学意义分析;设置快速增量统计方法来对数据进行统计,从而将新增加的基因相关数据快速录入到数据库内并进行批量统计。本发明专利技术能够采用非关系数据库,能够存储大量的基因突变、表达谱、ChIP、甲基化等基因相关信息,且不会发生卡顿现象,并且利用快速增量统计方法来对新录入的基因相关数据进行统计。计。计。

【技术实现步骤摘要】
一种基因测序数据智能结构化存储及提取方法


[0001]本专利技术涉及基因数据存储或提取领域,具体为一种基因测序数据智能结构化存储及提取方法。

技术介绍

[0002]近年来,基因数据的分析研究在不断深入,人们也充分意识到了研究基因信息的重要性,由于基因数据庞大、具有不完全性且随机性强,一个样本有几万个基因表达情况,十几万个甲基化和转录因子结合位点,几十万到几百万个突变位点。当样本量上升到数十万个体时,数据量将进一步上升,达到万亿级别。将这些信息快速存入数据库并进行高速查询是一个挑战。传统数据库如mySQL数据库等,超过200万

300万条记录就会出现性能问题。为解决上述问题,我们对此做出改进,提出一种基因测序数据智能结构化存储及提取方法。

技术实现思路

[0003]为了解决上述技术问题,本专利技术提供了如下的技术方案:
[0004]本专利技术提出了一种基因测序数据智能结构化存储及提取方法,包括以下几个步骤
[0005]步骤1、建立一个列式数据库,将突变位点、表达谱、ChIP、甲基化等基因相关数据存在数据库;
[0006]步骤2、针对生物信息/基因测序信息的特殊性,对数据进行的优化,把基因数据优化到或修改格式到能够方便的存进非关系数据库;
[0007]步骤3、利用数据库里存储的突变位点、表达谱、ChIP、甲基化等基因相关数据信息,对照已知信息,结合表型信息进行生物学意义分析;
[0008]步骤4、设置快速增量统计方法来对数据进行统计,从而将新增加的基因相关数据快速录入到数据库内并进行批量统计。
[0009]作为本专利技术的一种优选技术方案,所述的步骤2中突变位点信息同时记录了一个位点的覆盖度和突变信息,且同时记录了一个位点的覆盖度和突变信息的方法是,对于一个样本的基因组位点,如果该位点没有检测到覆盖情况,就不考虑该位点,数据库也不进行记录,如果该基因位点检测到覆盖但是没有突变,则表明该位点无突变,数据库中记录该位点的覆盖情况且标记为无突变,如果该位点有突变且覆盖深度足够,则在数据库中记录该位点的突变信息及对应的覆盖情况,后续进行统计计算。对于表达谱数据,所述步骤2中分样本记录了某个基因的表达。对于该基因表达量的统计,按照表达量从低到高划分出若干区段,并统计每个区域中有多少样本的基因的表达值落在该去榆中。对于ChIP和甲基化数据而言,所述步骤2中分样本记录了染色体的结合区段和显著性。
[0010]作为本专利技术的一种优选技术方案,所述的设置快速增量统计方法来对数据进行统计的方法是,将当需要统计的录取样本数量达到设定的数值M时,则对录取样本内的数据进行录取,首先获得非关系数据库内的现有统计值以及原始样本的数量,并获得待录取样本内的录取数据个数,则数据库内某个统计量指标变为f(现有统计量,现有样本数量,新录入
数据统计量,新录入样本量)。
[0011]作为本专利技术的一种优选技术方案,所述的建立一个非关系的数据库的方法是通过列式数据库建立新的数据库。
[0012]作为本专利技术的一种优选技术方案,所述的修改格式到能够方便的存进列式数据库里的方法是,通过基因变异文件格式进行存储得到数据格式,把基因变异文件中的位点作为记录进行优化后存入列式数据库中。
[0013]本专利技术的有益效果是:1、该种基因测序数据智能结构化存储及提取方法,建立一个非关系数据库,将各个基因测序位点存进数据库里;针对生物信息/基因测序突变位点的特殊性,对数据进行的优化,把基因相关数据优化到或修改格式到能够方便的存进非关系数据库;利用数据库里存储的基因相关数据信息,对照已知信息,结合表型信息进行生物学意义分析;设置快速增量统计方法来对数据进行统计,从而将数据录入到数据库内,该方法采用非关系数据库,能够存储大量的信息且不会发生卡顿现象,利用快速增量统计方法来对数据进行统计,即不对现有样本进行重新整合统计,仅对新样本进行统计并获得统计量,随后与现有统计量进行合并,保证计算资源的消耗处于较小范围内。
附图说明
[0014]附图用来提供对本专利技术的进一步理解,并且构成说明书的一部分,与本专利技术的实施例一并用于解释本专利技术,并不构成对本专利技术的限制。在附图中:
[0015]图1是本专利技术一种基因测序数据智能结构化存储及提取方法的流程图。
具体实施方式
[0016]以下结合附图对本专利技术的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本专利技术,并不用于限定本专利技术。
[0017]实施例:如图1所示,本专利技术一种基因测序数据智能结构化存储及提取方法,包括以下几个步骤
[0018]步骤1、建立一个列式数据库,将各个基因测序位点存进数据库;
[0019]步骤2、针对生物信息/基因测序突变位点的特殊性,对数据进行的优化,把我们的突变位点的数据优化到或修改格式到能够方便的存进非关系数据库;
[0020]步骤3、利用数据库里存储的突变位点等数据信息,对照已知的突变位点信息,结合表型信息进行生物学意义分析;
[0021]步骤4、设置快速增量统计方法来对数据进行统计,并将数据录入到数据库内。
[0022]所述的步骤2中同时记录了一个位点的覆盖度和突变信息,且同时记录了一个位点的覆盖度和突变信息的方法是,对于一个样本的基因组位点,如果该位点没有检测到覆盖情况,就不考虑该位点,数据库也不进行记录,如果该基因位点检测到覆盖但是没有突变,则表明该位点无突变,数据库中记录该位点的覆盖情况且标记为无突变,如果该位点有突变且覆盖深度足够,则在数据库中记录该位点的突变信息及对应的覆盖情况,后续进行统计计算。对于表达谱数据,所述步骤2中分样本记录了某个基因的表达。对于该基因表达量的统计,按照表达量从低到高划分出若干区段,并统计每个区域中有多少样本的基因的表达值落在该去榆中。对于ChIP和甲基化数据而言,所述步骤2中分样本记录了染色体的结
合区段和显著性。
[0023]所述的设置快速增量统计方法来对数据进行统计的方法是,将当需要统计的录取样本数量达到设定的数值M时,则对录取样本内的数据进行录取,首先获得非关系数据库内的现有统计值以及原始样本的数量,并获得待录取样本内的录取数据个数,则数据库内某个统计量指标变为f(现有统计量,现有样本数量,新录入数据统计量,新录入样本量)。
[0024]在做单细胞测序分析时,经常会对单细胞样本进行标准化,目前的标准化需要将全部样本都引入。如库中有1000个样本,需要新录入1000个样本,此时需要把库中原有1000个样本和新的1000个样本合并,总计2000个样本全部标准化,资源消耗巨大。若后续再录入1000或更多样本,为了标准化这些新样本则需要把原有样本取出全部重新标准化。因此我们设计了增量统计和增量标准化模式,即原有样本不变,仅获取原有样本的统计量,只对新样本进行统计,依赖原有样本参数对新样本进行标准化,并获得新样本统计量,然后将新老样本的统计量进行合并。这样每100个新样本进行统计,内存就会保存在一本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基因测序数据智能结构化存储及提取方法,其特征在于:包括以下几个步骤步骤1、建立一个非关系数据库,将基因的突变位点存入数据库;步骤2、针对生物信息/基因测序突变位点的特殊性,对数据进行的优化,把突变位点、表达谱、ChIP、甲基化等基因相关的数据优化到或修改格式到能够方便的存进非关系数据库;步骤3、利用数据库里存储的突变位点、表达谱、ChIP、甲基化等基因相关等数据信息,对照已知数据库的相关信息,结合表型信息进行生物学意义分析;步骤4、设置快速增量统计方法来对数据进行统计,从而快速将新增数据进行批量统计,并和现有库中的统计结果合并。2.根据权利要求1所述的一种基因测序数据智能结构化存储及提取方法,其特征在于,对于基因突变位点而言,所述的步骤2中同时记录了一个位点的覆盖度和突变信息;具体方法是:对于一个样本的基因组位点,如果该位点没有检测到覆盖情况,就不考虑该位点,数据库也不进行记录,如果该基因位点检测到覆盖但是没有突变,则表明该位点无突变,数据库中记录该位点的覆盖情况且标记为无突变,如果该位点有突变且覆盖深度足够,则在数据库中记录该位点的突变信息及对应的覆盖情况,...

【专利技术属性】
技术研发人员:陈岱宗杰
申请(专利权)人:上海烈冰生物医药科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1