一种基于位点映射的基因组测序数据快速注释方法和系统技术方案

技术编号:35920313 阅读:23 留言:0更新日期:2022-12-10 11:04
本发明专利技术公开了一种基于位点映射的基因组测序数据快速注释方法和系统,属于生物信息技术领域。本发明专利技术首先将所有功能组件的起始位点和终止位点构建映射值,并利用该映射值建立索引文件,针对待注释位点,同样获得映射值,进一步在索引文件中搜索映射值,若落在某一功能组件的起始位点映射值和终止位点映射值中间,进一步判断所有待注释位点是否落在该功能组件的起始位点和终止位点之间,从而进行注释。利用本发明专利技术,可以大大提高搜索注释的效率,降低注释的时间成本和计算成本。注释的时间成本和计算成本。注释的时间成本和计算成本。

【技术实现步骤摘要】
一种基于位点映射的基因组测序数据快速注释方法和系统


[0001]本专利技术属于生物信息
,具体地,涉及一种基于位点映射的基因组测序数据快速注释方法和系统。

技术介绍

[0002]下一代测序(Next

generation sequencing,NGS)又称为高通量测序(High

throughput sequencing),是基于PCR和基因芯片发展而来的边合成边测序技术。高通量测序技术的特点主要有:测序读长短,通量高,准确度高。高通量测序相比一代测序大幅降低了成本,同时保持了较高准确性,并且大幅降低了测序时间,目前高通量测序已经在全组学得到广泛应用。比如:有参转录组测序,重测序,DNA甲基化测序,m6A甲基化测序,单细胞测序等。
[0003]DNA甲基化是表观遗传修饰的主要方式,能在不改变DNA序列的前提下,改变遗传表现,在调控基因表达和染色质构象等方面发挥着重要作用。DNA甲基化主要形成5-甲基胞嘧啶(5

mC)和少量的N6

甲基嘌呤(N6

mA)及7-甲基鸟嘌呤(7

mG)等。通常地,甲基化DNA主要指5

甲基胞嘧啶(5mC)。哺乳动物细胞中甲基化主要发生在CG二核苷酸的胞嘧啶上,植物细胞中则存在很大比例的non

CG(CHH、CHG,H代表A、C、T)甲基化。5-甲基胞嘧啶(5

mC)由DNA甲基转移酶(DNA methyl

transferase,DNMT)催化S

腺苷甲硫氨酸(S

adenosylmethionine,SAM)作为甲基供体,将胞嘧啶转变为5

甲基胞嘧啶(mC)。
[0004]全基因组甲基化测序(whole

genome bisulphite sequencing,WGBS)结合亚硫酸氢盐转化(bisulfite conversion)方法与二代测序技术,可在单碱基分辨率水平上高效地检测全基因组DNA甲基化状态。亚硫酸氢盐处理可以使DNA中未发生甲基化的胞嘧啶脱氨基转变成尿嘧啶,而甲基化的胞嘧啶保持不变;PCR扩增所需片段,则尿嘧啶全部转化成胸腺嘧啶。对PCR产物进行高通量测序,与参考序列比对,即可判断CpG/CHG/CHH位点是否发生甲基化。全基因组甲基化测序可全面、精确地检测全基因组DNA甲基化状态,为更深入的表观遗传调控分析奠定基础。
[0005]基因启动子区CpG Island通常为去甲基化状态,促进基因转录,而异常甲基化会导致转录的失活。一般而言,CpG Island甲基化会导致基因沉默。DNA甲基化在基因组印记方面有重要作用,在双等位基因中的一个发生高甲基化会导致单等位基因表达。
[0006]目前的生物信息软件对于DNA甲基化测序数据在启动子区(promoter),外显子区(exonic),内含子区(intronic)和基因间区(intergenic)等基因结构区域的注释和CpG Island区域的注释没有一致和快速的注释方法。

技术实现思路

[0007]为了解决上述技术问题中的至少一个,本专利技术采取的技术方案如下:
[0008]本专利技术第一方面提供一种基于位点映射的基因组测序数据快速注释方法,包括以下步骤:
[0009]S1,建立索引文件:
[0010]获得测序样本来源物种的功能组件区的起始位点和终止位点,对于每一个位点,利用公式(1)获得映射值:
[0011][0012]其中,G
i
代表第i个位点的映射值,INT表示取整运算,S
i
代表第i个位点数值,N为根据所述来源物种染色体长度确定的值,L
i
代表第i个位点的位数,若L
i
≤N则L
i

N=1,
[0013]由此获得所有功能组件区的起始位点和终止位点的映射值,按下列格式构建索引文件:
[0014]Chr S E s e function
[0015]其中,Chr代表功能组件区所在染色体位置信息,S代表功能组件区起始位点映射值,E代表功能组件区终止位点映射值,s代表功能组件区起始位点,E代表功能组件区终止位点,function代表功能组件区的类别;
[0016]S2,获得待注释位点的映射值:其位点数值为Q,同样利用公式(1)获得待注释位点的映射值G;
[0017]S3,将步骤S2获得的映射值G在所述索引文件的第2列和第3列进行搜索,若对于某一功能组件区j,G满足S
j
≤G≤E
j
,进一步判断Q是否满足s
j
≤Q≤e
j
,若满足,则所述待注释位点可注释位于第j个功能组件区。
[0018]在本专利技术中,所述功能组件与功能元件具有等同的含义。
[0019]在本专利技术中,所述索引值与映射值具有等同的含义。
[0020]在本专利技术的一些实施方案中,所述N的确定方法具体如下:
[0021](1)获得每条染色体的长度CL及基因数目GN,并计算CL/GN;
[0022](2)获得所有染色体CL/GN的代表数MN,除以数值q,MN/q结果的整数位数即为N值,其中q=1~100。。
[0023]在这里,N值的获得是本专利技术意外发现可以使得处理后注释效率更高的选取方法,本领域技术人员也可以利用其他方式选取N值,只要不违背本专利技术的核心思想,都应视为落入本专利技术的保护范围。
[0024]例如,本专利技术可以获得所有染色体长度的代表数,取该代表数的平方根,得到结果的整数位数作为N值。
[0025]在本专利技术的一些实施方案中,所述代表数选自中位数、众数、平均数中的一种。
[0026]在本专利技术的一些实施方案中,所述来源物种为哺乳动物。优选地,所述来源物种为人。
[0027]在本专利技术的一些实施方案中,所述基因测序数据是指DNA甲基化测序数据。
[0028]在本专利技术的一些实施方案中,所述功能组件区包括启动子区、外显子区、内含子区、promoter CGIs、intragenic CGIs、3'transcript CGIs、intergenic CGIs、重复区和miRNA区。
[0029]其中,promoter CGIs、intragenic CGIs、3'transcript CGIs、intergenic CGIs是根据CGI所属的基因位置进行定义的:
[0030]promoter CGIs

1000bp TSS to+300bp TSS
intragenic CGIs+300bp TSS to+300bp TES3'transcript CGIs

300bp TES to+300bp TES本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于位点映射的基因组测序数据快速注释方法,其特征在于,包括以下步骤:S1,建立索引文件:获得测序样本来源物种的功能组件区的起始位点和终止位点,对于每一个位点,利用公式(1)获得映射值:其中,G
i
代表第i个位点的映射值,INT表示取整运算,S
i
代表第i个位点数值,N为根据所述来源物种染色体长度确定的值,L
i
代表第i个位点的位数,若L
i
≤N则L
i

N=1,由此获得所有功能组件区的起始位点和终止位点的映射值,按下列格式构建索引文件:Chr S E s e function其中,Chr代表功能组件区所在染色体位置信息,S代表功能组件区起始位点映射值,E代表功能组件区终止位点映射值,s代表功能组件区起始位点,E代表功能组件区终止位点,function代表功能组件区的类别;S2,获得待注释位点的映射值:其位点数值为Q,同样利用公式(1)获得待注释位点的映射值G;S3,将步骤S2获得的映射值G在所述索引文件的第2列和第3列进行搜索,若对于某一功能组件区j,G满足S
j
≤G≤E
j
,进一步判断Q是否满足s
j
≤Q≤e
j
,若满足,则所述待注释位点可注释位于第j个功能组件区。2.根据权利要求1所述的基因组测序数据快速注释方法,其特征在于,所述N的确定方法具体如下:(1)获得每条染色体的长度CL及基因数目GN,并计算CL/GN;(2)获得所有染色体CL/GN的代表数MN,除以数值q,MN/q结果的整数位数即为N值,其中q=1~100。3.根据权利要求2所述的基因组测序数据快速注释方法,其特征在于,所述代表数选自中位数、众数、平均数中的一种。4.根据权利要求1所述的基因组测序数据快速注释方法,其特征在于,所述来源物种为哺乳动物。5.根据权利要求4所述的基因组测序数据快速注释方法,其特征在于,所述功能组件区包括启动子区、外显子区、内含子区、promoter CGIs、intragenic CGIs、3'transcript CGIs、intergenic CGIs、重复区和miRNA区。6.一种基于位点映射的基因组测序数据快速注释系统,其特征在于,包括以...

【专利技术属性】
技术研发人员:方超郎秋蕾陈志锋
申请(专利权)人:杭州联川生物技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1