一种基因测序数据智能结构化存储及提取方法技术

技术编号：31804778 阅读：14 留言：0更新日期：2022-01-08 11:06

本发明专利技术公开了一种基因测序数据智能结构化存储及提取方法，建立一个非关系数据库，将各个基因测序位点存入数据库；针对生物信息/基因测序突变位点的特殊性，对数据进行优化，把突变位点的数据优化到或修改格式到能够方便的存进非关系数据库；利用数据库里存储的突变位点、表达谱、ChIP、甲基化等数据信息，对照已知的突变位点、表达谱、ChIP、甲基化等信息，结合表型信息进行生物学意义分析；设置快速增量统计方法来对数据进行统计，从而将新增加的基因相关数据快速录入到数据库内并进行批量统计。本发明专利技术能够采用非关系数据库，能够存储大量的基因突变、表达谱、ChIP、甲基化等基因相关信息，且不会发生卡顿现象，并且利用快速增量统计方法来对新录入的基因相关数据进行统计。计。计。

全部详细技术资料下载

【技术实现步骤摘要】
一种基因测序数据智能结构化存储及提取方法

[0001]本专利技术涉及基因数据存储或提取领域，具体为一种基因测序数据智能结构化存储及提取方法。

技术介绍

[0002]近年来，基因数据的分析研究在不断深入，人们也充分意识到了研究基因信息的重要性，由于基因数据庞大、具有不完全性且随机性强，一个样本有几万个基因表达情况，十几万个甲基化和转录因子结合位点，几十万到几百万个突变位点。当样本量上升到数十万个体时，数据量将进一步上升，达到万亿级别。将这些信息快速存入数据库并进行高速查询是一个挑战。传统数据库如mySQL数据库等，超过200万
‑
300万条记录就会出现性能问题。为解决上述问题，我们对此做出改进，提出一种基因测序数据智能结构化存储及提取方法。

技术实现思路

[0003]为了解决上述技术问题，本专利技术提供了如下的技术方案：
[0004]本专利技术提出了一种基因测序数据智能结构化存储及提取方法，包括以下几个步骤
[0005]步骤1、建立一个列式数据库，将突变位点、表达谱、ChIP、甲基化等基因相关数据存在数据库；
[0006]步骤2、针对生物信息/基因测序信息的特殊性，对数据进行的优化，把基因数据优化到或修改格式到能够方便的存进非关系数据库；
[0007]步骤3、利用数据库里存储的突变位点、表达谱、ChIP、甲基化等基因相关数据信息，对照已知信息，结合表型信息进行生物学意义分析；
[0008]步骤4、设置快速增量统计方法来对数据进行统计，从而将新增加...

【技术保护点】

【技术特征摘要】
1.一种基因测序数据智能结构化存储及提取方法，其特征在于：包括以下几个步骤步骤1、建立一个非关系数据库，将基因的突变位点存入数据库；步骤2、针对生物信息/基因测序突变位点的特殊性，对数据进行的优化，把突变位点、表达谱、ChIP、甲基化等基因相关的数据优化到或修改格式到能够方便的存进非关系数据库；步骤3、利用数据库里存储的突变位点、表达谱、ChIP、甲基化等基因相关等数据信息，对照已知数据库的相关信息，结合表型信息进行生物学意义分析；步骤4、设置快速增量统计方法来对数据进行统计，从而快速将新增数据进行批量统计，并和现有库中的统计结果合并。2.根据权利要求1所述的一种基因测序数据智能结构化存储及提取方法，其特征在于，对于基因突变位点而言，所述的步骤2中同时记录了一个位点的覆盖度和突变信息；具体方法是：对于一个样本的基因组位点，如果该位点没有检测到覆盖情况，就不考虑该位点，数据库也不进行记录，如果该基因位点检测到覆盖但是没有突变，则表明该位点无突变，数据库中记录该位点的覆盖情况且标记为无突变，如果该位点有突变且覆盖深度足够，则在数据库中记录该位点的突变信息及对应的覆盖情况，...

【专利技术属性】
技术研发人员：陈岱，宗杰，
申请(专利权)人：上海烈冰生物医药科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人