基于种子序列信息的DNA甲基化数据检测方法及其装置制造方法及图纸

技术编号:18256788 阅读:52 留言:0更新日期:2018-06-20 08:28
本发明专利技术提供了一种基于种子序列信息的DNA甲基化数据检测方法及其装置。其中,所述方法包括:构建索引数据库;获取目标样品的测序数据,并根据预设种子序列长度将所述测序数据分割,得到分割种子序列信息;基于所述索引数据库,确定每个所述分割种子序列信息的比对候选位置信息;对每个所述比对候选位置信息进行系统评估,得到系统评估结果,并根据所述系统评估结果确定所述目标样品的DNA甲基化位点。本发明专利技术极大地缩短了数据分析中最为耗时的比对运算,在保证甲基化检测区域位点完整的基础上大幅度提高了数据的利用率、运算效率和准确率,为生命科学领域的科研工作者对于DNA碱基修饰信息的进一步研究带来了极大的方便。

DNA methylation data detection method and device based on seed sequence information

The invention provides a DNA methylation data detection method and device based on seed sequence information. The method includes: constructing the index database, obtaining the sequence data of the target sample and dividing the sequence data according to the predetermined seed sequence length to get the segmentation of the sequence information of the seed. The system evaluation of the candidate location information is systematically evaluated, and the results of the system evaluation are obtained, and the DNA methylation sites of the target samples are determined according to the results of the system evaluation. The invention greatly shortens the most time-consuming comparison operation in data analysis. It greatly improves the utilization, efficiency and accuracy of data on the basis of ensuring the integrity of the loci of the methylation detection region. It has brought a great deal to the researchers in the field of life science for further research on the DNA base modification. It is.

【技术实现步骤摘要】
基于种子序列信息的DNA甲基化数据检测方法及其装置
本专利技术涉及生物信息
,更具体地说,涉及一种基于种子序列信息的DNA甲基化数据检测方法及其装置。
技术介绍
DNA碱基修饰近年来一直是生命科学领域研究的热点之一,其中胞嘧啶第五位碳原子上的甲基化动态修饰(5mC)研究的较为深入。5mC是在DNA甲基化转移酶的作用下,将甲基选择性地添加到胞嘧啶形成5-甲基胞嘧啶的过程,被发现时被定义为第五种碱基,实际上它是一种重要的表观遗传学标记,在调控基因表达、维持染色质结构、基因印记、X染色体失活以及胚胎发育等生物学过程中发挥重要的作用。DNA甲基化作为一种可遗传的表观遗传修饰,在体细胞增殖过程中通过依赖于DNA复制的DNA甲基转移酶稳定地传递给子细胞,对胚胎正常发育和等位基因的选择表达至关重要。因此准确定位DNA甲基化位点具有重要的科研和临床意义。近年来众多研究机构构建了各种各样的数据库来存储世界各大实验室和科研机构产生的DNA甲基化数据,各种各样的算法软件相继被开发用于处理这些数据。常见的基于短序列匹配专门处理亚硫酸氢盐法产生的序列软件包括MethTools、QUMA、BISMA、CyMATE、BRAT、Bismark、BSMAP、BSSeeker、CpGPatternFinder、MethMarker、RRBS和BiQAnalyzerHT等。但是,现有对于DNA甲基化位点进行定位的工具及算法在实际使用过程中存在如下的缺陷:进行DNA碱基序列比对时,精度不高,数据量较大运行导致运算时间长效率严重不足,甲基化检测区域位点存在缺失的问题,为生命科学领域的科研工作者对于DNA碱基修饰信息的进一步研究带来了极大的不便。
技术实现思路
有鉴于此,本专利技术提供一种基于种子序列信息的DNA甲基化数据检测方法及其装置以解决现有技术的不足。为解决上述问题,本专利技术提供一种基于种子序列信息的DNA甲基化数据检测方法,包括:构建索引数据库;获取目标样品的测序数据,并根据预设种子序列长度将所述测序数据分割,得到分割种子序列信息;基于所述索引数据库,确定每个所述分割种子序列信息的比对候选位置信息;对每个所述比对候选位置信息进行系统评估,得到系统评估结果,并根据所述系统评估结果确定所述目标样品的DNA甲基化位点。优选地,所述“构建索引数据库”,包括:获取所述目标样品的所属物种的参考基因序列;根据所述预设种子序列长度对所述参考基因序列进行分割,得到参考种子序列;根据所述参考种子序列建立比对候选位置信息的数组,构建索引数据库。优选地,所述“获取目标样品的测序数据,并根据预设种子序列长度将所述测序数据分割,得到分割种子序列信息”,包括:对所述目标样品进行测序,得到所述目标样品测序数据;根据所述预设种子序列长度,对所述目标样品测序数据由起始位置逐段进行分割;若所述目标样品测序数据按照所述预设种子序列长度能被平均分配,则生成互相不重叠的所述分割种子序列信息;若所述目标样品测序数据按照所述预设种子序列长度不能被平均分配,则从所述目标样品测序数据最后一个字符起反向取预设种子序列长度的字符进行补充,生成所述分割种子序列信息。优选地,所述“基于所述索引数据库,确定每个所述分割种子序列信息的比对候选位置信息”,包括:将所述分割种子序列信息进行数据编码转换,得到数值数据;将所述数值数据与索引数据库中的所述转换数值进行匹配,获得匹配结果信息,根据所述匹配结果信息获得所述分割种子序列信息的比对候选位置信息。优选地,所述“将所述分割种子序列信息进行数据编码转换,得到数值数据”,包括:将所述分割种子序列信息依据A=0,G=1,C=2,T=2的规则转换为三进制数据;将所述三进制数据转换为十进制作为所述数值数据。优选地,所述“对每个所述比对候选位置信息进行系统评估,得到系统评估结果,并根据所述系统评估结果确定目标样品的DNA序列的比对位置信息”,包括:构建系统评估数组,根据所述系统评估数组对所述比对候选位置信息中的候选位置进行打分评价,得出系统评价结果;选出所述系统评价结果中打分评价最高的所述候选位置,记为所述目标样品的所述DNA序列比对位置。优选地,所述“构建系统评估数组,根据所述系统评估数组对所述比对候选位置信息中的候选位置进行打分评价,得出系统评估结果”,包括:构建系统评估数组;其中,所述系统评估数组包括存储候选位置列表的第一数组和存储位置打分评价的第二数组;将所述比对候选位置信息写入所述第一数组;建立打分评价规则,基于所述打分评价规则,通过所述第一数组和所述第二数组对所述比对候选位置信息中的候选位置进行打分评价,得出系统评价结果。此外,为解决上述问题,本专利技术还提供一种种子序列信息的DNA甲基化数据检测装置,包括构建模块、分割模块、定位模块和评价模块;所述构建模块,用于构建索引数据库;所述分割模块,用于获取目标样品的测序数据,并根据预设种子序列长度将所述测序数据分割,得到分割种子序列信息;所述定位模块,用于基于所述索引数据库,确定每个所述分割种子序列信息的比对候选位置信息;所述评价模块,用于对每个所述比对候选位置信息进行系统评价,得到系统评价结果,并根据所述系统评价结果确定所述目标样品的DNA甲基化位点。此外,为解决上述问题,本专利技术还提供一种用户终端,包括存储器以及处理器,所述存储器用于存储种子序列信息的DNA甲基化数据检测程序,所述处理器运行所述种子序列信息的DNA甲基化数据检测程序以使所述用户终端执行如权利要求1-7中任一项所述的种子序列信息的DNA甲基化数据检测方法。此外,为解决上述问题,本专利技术还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有种子序列信息的DNA甲基化数据检测程序,所述种子序列信息的DNA甲基化数据检测程序被处理器执行时实现如权利要求1-7任一项所述种子序列信息的DNA甲基化数据检测方法。本专利技术提供的一种基于种子序列信息的DNA甲基化数据检测方法。其中,所述方法通过将目标样品测序数据根据预设种子序列长度进行分割,再对分割后的每个分割种子序列信息根据索引数据库确定甲基候选位置,再通过系统评价最终确定甲基化的位点,从而快速完成序列的比对,准确分析和系统评估基因组中存在的甲基化位点,极大地缩短了数据分析中最为耗时的比对运算,在保证甲基化检测区域位点完整的基础上大幅度提高了数据的利用率、运算效率和准确率,为生命科学领域的科研工作者对于DNA碱基修饰信息的进一步研究带来了极大的方便。附图说明图1为本专利技术种子序列信息的DNA甲基化数据检测方法实施例方案涉及的硬件运行环境的结构示意图;图2为本专利技术种子序列信息的DNA甲基化数据检测方法第一实施例的流程示意图;图3为本专利技术种子序列信息的DNA甲基化数据检测方法第二实施例的流程示意图;图4为本专利技术种子序列信息的DNA甲基化数据检测方法第三实施例的流程示意图;图5为本专利技术种子序列信息的DNA甲基化数据检测方法第四实施例的流程示意图;图6为本专利技术种子序列信息的DNA甲基化数据检测方法第四实施例中包括步骤S310的细化步骤的流程示意图;图7为本专利技术种子序列信息的DNA甲基化数据检测方法第五实施例的流程示意图;图8为本专利技术种子序列信息的DNA甲基化数据检测方法第五实施例中包括步骤S410的细化步骤的本文档来自技高网
...
基于种子序列信息的DNA甲基化数据检测方法及其装置

【技术保护点】
1.一种基于种子序列信息的DNA甲基化数据检测方法,其特征在于,包括:构建索引数据库;获取目标样品的测序数据,并根据预设种子序列长度将所述测序数据分割,得到分割种子序列信息;基于所述索引数据库,确定每个所述分割种子序列信息的比对候选位置信息;对每个所述比对候选位置信息进行系统评估,得到系统评估结果,并根据所述系统评估结果确定所述目标样品的DNA甲基化位点。

【技术特征摘要】
1.一种基于种子序列信息的DNA甲基化数据检测方法,其特征在于,包括:构建索引数据库;获取目标样品的测序数据,并根据预设种子序列长度将所述测序数据分割,得到分割种子序列信息;基于所述索引数据库,确定每个所述分割种子序列信息的比对候选位置信息;对每个所述比对候选位置信息进行系统评估,得到系统评估结果,并根据所述系统评估结果确定所述目标样品的DNA甲基化位点。2.如权利要求1所述基于种子序列信息的DNA甲基化数据检测方法,其特征在于,所述“构建索引数据库”,包括:获取所述目标样品的所属物种的参考基因序列;根据所述预设种子序列长度对所述参考基因序列进行分割,得到参考种子序列;根据所述参考种子序列建立比对候选位置信息的数组,构建索引数据库。3.如权利要求1所述基于种子序列信息的DNA甲基化数据检测方法,其特征在于,所述“获取目标样品的测序数据,并根据预设种子序列长度将所述测序数据分割,得到分割种子序列信息”,包括:对所述目标样品进行测序,得到所述目标样品测序数据;根据所述预设种子序列长度,对所述目标样品测序数据由起始位置逐段进行分割;若所述目标样品测序数据按照所述预设种子序列长度能被平均分配,则生成互相不重叠的所述分割种子序列信息;若所述目标样品测序数据按照所述预设种子序列长度不能被平均分配,则从所述目标样品测序数据最后一个字符起反向取预设种子序列长度的字符进行补充,生成所述分割种子序列信息。4.如权利要求2所述基于种子序列信息的DNA甲基化数据检测方法,其特征在于,所述“基于所述索引数据库,确定每个所述分割种子序列信息的比对候选位置信息”,包括:将所述分割种子序列信息进行数据编码转换,得到数值数据;将所述数值数据与索引数据库中的所述转换数值进行匹配,获得匹配结果信息,根据所述匹配结果信息获得所述分割种子序列信息的比对候选位置信息。5.如权利要求4所述基于种子序列信息的DNA甲基化数据检测方法,其特征在于,所述“将所述分割种子序列信息进行数据编码转换,得到数值数据”,包括:将所述分割种子序列信息依据A=0,G=1,C=2,T=2的规则转换为三进制数据;将所述三进制数据转换为十进制作为所述数值数据。6.如...

【专利技术属性】
技术研发人员:晏光荣朱卉芳韩悦
申请(专利权)人:广州医科大学附属第三医院广州重症孕产妇救治中心广州柔济医院
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1