The invention provides a DNA methylation data detection method and device based on seed sequence information. The method includes: constructing the index database, obtaining the sequence data of the target sample and dividing the sequence data according to the predetermined seed sequence length to get the segmentation of the sequence information of the seed. The system evaluation of the candidate location information is systematically evaluated, and the results of the system evaluation are obtained, and the DNA methylation sites of the target samples are determined according to the results of the system evaluation. The invention greatly shortens the most time-consuming comparison operation in data analysis. It greatly improves the utilization, efficiency and accuracy of data on the basis of ensuring the integrity of the loci of the methylation detection region. It has brought a great deal to the researchers in the field of life science for further research on the DNA base modification. It is.
【技术实现步骤摘要】
基于种子序列信息的DNA甲基化数据检测方法及其装置
本专利技术涉及生物信息
,更具体地说,涉及一种基于种子序列信息的DNA甲基化数据检测方法及其装置。
技术介绍
DNA碱基修饰近年来一直是生命科学领域研究的热点之一,其中胞嘧啶第五位碳原子上的甲基化动态修饰(5mC)研究的较为深入。5mC是在DNA甲基化转移酶的作用下,将甲基选择性地添加到胞嘧啶形成5-甲基胞嘧啶的过程,被发现时被定义为第五种碱基,实际上它是一种重要的表观遗传学标记,在调控基因表达、维持染色质结构、基因印记、X染色体失活以及胚胎发育等生物学过程中发挥重要的作用。DNA甲基化作为一种可遗传的表观遗传修饰,在体细胞增殖过程中通过依赖于DNA复制的DNA甲基转移酶稳定地传递给子细胞,对胚胎正常发育和等位基因的选择表达至关重要。因此准确定位DNA甲基化位点具有重要的科研和临床意义。近年来众多研究机构构建了各种各样的数据库来存储世界各大实验室和科研机构产生的DNA甲基化数据,各种各样的算法软件相继被开发用于处理这些数据。常见的基于短序列匹配专门处理亚硫酸氢盐法产生的序列软件包括MethTools、QUMA、BISMA、CyMATE、BRAT、Bismark、BSMAP、BSSeeker、CpGPatternFinder、MethMarker、RRBS和BiQAnalyzerHT等。但是,现有对于DNA甲基化位点进行定位的工具及算法在实际使用过程中存在如下的缺陷:进行DNA碱基序列比对时,精度不高,数据量较大运行导致运算时间长效率严重不足,甲基化检测区域位点存在缺失的问题,为生命科学领域的科研工作 ...
【技术保护点】
1.一种基于种子序列信息的DNA甲基化数据检测方法,其特征在于,包括:构建索引数据库;获取目标样品的测序数据,并根据预设种子序列长度将所述测序数据分割,得到分割种子序列信息;基于所述索引数据库,确定每个所述分割种子序列信息的比对候选位置信息;对每个所述比对候选位置信息进行系统评估,得到系统评估结果,并根据所述系统评估结果确定所述目标样品的DNA甲基化位点。
【技术特征摘要】
1.一种基于种子序列信息的DNA甲基化数据检测方法,其特征在于,包括:构建索引数据库;获取目标样品的测序数据,并根据预设种子序列长度将所述测序数据分割,得到分割种子序列信息;基于所述索引数据库,确定每个所述分割种子序列信息的比对候选位置信息;对每个所述比对候选位置信息进行系统评估,得到系统评估结果,并根据所述系统评估结果确定所述目标样品的DNA甲基化位点。2.如权利要求1所述基于种子序列信息的DNA甲基化数据检测方法,其特征在于,所述“构建索引数据库”,包括:获取所述目标样品的所属物种的参考基因序列;根据所述预设种子序列长度对所述参考基因序列进行分割,得到参考种子序列;根据所述参考种子序列建立比对候选位置信息的数组,构建索引数据库。3.如权利要求1所述基于种子序列信息的DNA甲基化数据检测方法,其特征在于,所述“获取目标样品的测序数据,并根据预设种子序列长度将所述测序数据分割,得到分割种子序列信息”,包括:对所述目标样品进行测序,得到所述目标样品测序数据;根据所述预设种子序列长度,对所述目标样品测序数据由起始位置逐段进行分割;若所述目标样品测序数据按照所述预设种子序列长度能被平均分配,则生成互相不重叠的所述分割种子序列信息;若所述目标样品测序数据按照所述预设种子序列长度不能被平均分配,则从所述目标样品测序数据最后一个字符起反向取预设种子序列长度的字符进行补充,生成所述分割种子序列信息。4.如权利要求2所述基于种子序列信息的DNA甲基化数据检测方法,其特征在于,所述“基于所述索引数据库,确定每个所述分割种子序列信息的比对候选位置信息”,包括:将所述分割种子序列信息进行数据编码转换,得到数值数据;将所述数值数据与索引数据库中的所述转换数值进行匹配,获得匹配结果信息,根据所述匹配结果信息获得所述分割种子序列信息的比对候选位置信息。5.如权利要求4所述基于种子序列信息的DNA甲基化数据检测方法,其特征在于,所述“将所述分割种子序列信息进行数据编码转换,得到数值数据”,包括:将所述分割种子序列信息依据A=0,G=1,C=2,T=2的规则转换为三进制数据;将所述三进制数据转换为十进制作为所述数值数据。6.如...
【专利技术属性】
技术研发人员:晏光荣,朱卉芳,韩悦,
申请(专利权)人:广州医科大学附属第三医院广州重症孕产妇救治中心,广州柔济医院,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。