一种基于状态转移模型的新一代测序拷贝数变异仿真方法技术

技术编号:15391955 阅读:90 留言:0更新日期:2017-05-19 05:02
本发明专利技术公开了一种基于状态转移模型的新一代测序拷贝数变异仿真方法,采用拷贝数变异仿真算法;在仿真算法中增加状态转移模型,在变异仿真之后增加序列生成部分;拷贝数变异包括生殖细胞拷贝数变异和体细胞拷贝数变异;基于Illumina测序平台的Profile文件的生成;将fq文件的reads说明部分的ASCii码转换成碱基的quality value,相应方法是对应字符的ASCii码减去33;将变异仿真后的fa文件和生成的profile文件作为输入,设置read length,利用多线程和序列生成算法,生成并输出最终的fq文件。本发明专利技术使得生物变异的仿真更加具有可信度,功能完整,数据真实。

A new generation of sequential copy number variation simulation method based on state transition model

The invention discloses a copy number variation simulation method of state transfer model based on next-generation sequencing, the copy number variation simulation algorithm; increase state transfer model in the simulation algorithm, the increase in variation after the simulation sequence generation part; copy number variation including germ cells and somatic copy number variation in copy number variation; generation Illumina sequencing platform based on Profile file; the FQ file of the reads part of the ASCii code into the quality base value, the corresponding method is corresponding to the ASCii character code minus 33; variation after FA simulation files and generate profile file as input, set the read length, using multithreading and sequence generation algorithm to generate and output the final FQ file. The invention makes the simulation of biological variation more credible, complete in function and authentic in data.

【技术实现步骤摘要】
一种基于状态转移模型的新一代测序拷贝数变异仿真方法
本专利技术属于拷贝数变异
,尤其涉及一种基于状态转移模型的新一代测序拷贝数变异仿真方法。
技术介绍
拷贝数变异是由基因组发生重排而导致的,一般指长度为1kb以上的基因组大片段的拷贝数增加或者减少,主要表现为亚显微水平的缺失(deletion)和重复(insertion)。拷贝数变异是基因组结构变异(Structuralvariation,SV)的重要组成部分,它的位点突变率远高于SNP(Singlenucleotidepolymorphism),是人类疾病的重要致病因素之一。按照发生场所的不同,可以将拷贝数变异分为生殖细胞拷贝数变异(Copynumbervariation,CNV)和体细胞拷贝数变异(Copynumberalternation,CNA),顾名思义就是他们的发生场所分别为生殖细胞和体细胞。CNV具有遗传效应,CNA没有遗传效应,这是由它们所处细胞的机制所决定的。拷贝数变异的仿真就是设计仿真算法,用程序对拷贝数变异的过程进行模拟。近年来,基因组测序领域发展迅速,这非常有助于对许多生物系统的理解。在过去的五年中,计算机生物学家和生物信息学专家针对发现、分析和解释不同的基因组变异的高通量测序数据,提出了新的、更好的和更有效的检测拷贝数变异的工具。在使用检测工具时,可靠的模拟数据集是必不可少的,模拟数据的获得是测试新开发检测工具的第一步。虽然目前已经有很多可用的拷贝数变异仿真工具,但是这些工具的功能都不是很全面,要么就是只可以模拟CNV和CNA中的一个功能,要么就是没有一个可信的状态转移模型,要么就是只有序列生成部分。因此,开发一个有效的关于CNV和CNA的模拟器和序列生成器是必要的,它要能够模拟拷贝数变异且考虑到真实生物样品的错误率。不同的下一代测序仪所生成的reads的length和errorprofile也不同,目前最流行的测序数据是从Illumina测序平台所产生的,它采用了化学方法来进行序列合成并生成reads,要开发的高效模拟器正是基于Illumina测序平台的。正是由于Illumina平台产生的数据受欢迎且应用广泛这个特点,任何其它的测序平台通过提供一个特定的错误配置文件就可以对其进行使用。目前可用的仿真软件可以生成基于特定平台的相关错误配置文件的reads,也可以跨平台生成reads。已经存在的一些仿真软件都有各自的优点,但是同时它们也存在着一些缺陷。现有的仿真软件最大的缺陷是不能能同时仿真CNV和CNA,下面针对一些仿真软件的性质和功能分别加以说明。SInc是用C语言开发的一款仿真软件,它是开源的,拥有CLI接口,也有自己的errormodel,但是它存在的问题没有仿真CNA变异;MetaSim是用JAVA语言开发的一款仿真软件,它拥有CLI和GUI接口,不是开源的,可以仿真pair-end数据,它的缺陷是只有序列生成部分而没有变异仿真部分,即没有将qualityvalue赋值给reads;FlowSim是用Haskell语言编写的,它拥有CLI接口,是一款开源仿真软件,它的缺陷是没有变异仿真部分且不能仿真Illumina平台的数据,即不能仿真paie-end数据;GenFrag仿真软件是开源的,有CLI接口,它的缺点是没有变异仿真部分且它的erroemodel过分简单;DwgSim仿真软件是由变异仿真和序列生成两个部分构成的,它有CLI接口且是开源的,它的缺陷是不能模拟真实数据。当然,这些仿真软件共有的一个缺陷是不能仿真CNA变异。现有拷贝数变异仿真软件的实现方法存在存在以下问题:没有将生殖细胞和体细胞的两种拷贝数变异集成在一起,即只可以仿真单个的CNV,不能同时仿真CNA,这就导致了仿真软件的功能不全面,仿真出来的数据比较片面,不是完整的拷贝数变异后的数据,限制了用户的使用;没有合适的model来确定拷贝数变异的各个状态,因为拷贝数变异中各个状态之间的转换是符合某种转换机制的,要是没有相应的model的话,仿真出来的数据和真实数据的差异较大,仿真结果的可信度将受到影响;没有将拷贝数变异的两种形式变异仿真和序列生成集成在一块,一般存在这种问题的仿真软件大都只有序列生成的部分,没有变异仿真的部分,即它能生成最终的fq文件,但是将生物变异的部分省略,这样显然是不符合实际情况的,因为拿到的真实样本不一定是完全没有发生拷贝数变异的,相反发生变异的比例还很大,所以加上变异仿真这一步是相当有必要的。
技术实现思路
本专利技术的目的在于提供一种基于状态转移模型的新一代测序拷贝数变异仿真方法,旨在解决为拷贝数变异检测提供合适的模拟数据的问题。本专利技术是这样实现的,一种基于状态转移模型的新一代测序拷贝数变异仿真方法,所述基于状态转移模型的新一代测序拷贝数变异仿真方法采用拷贝数变异仿真算法;在仿真算法中增加状态转移模型和序列生成部分;所述拷贝数变异包括CNV和CNA;基于Illumina测序平台的Profile文件的生成,核心步骤是将fq文件的reads说明部分的ASCii码转换成碱基的qualityvalue,相应方法是对应字符的ASCii码减去33;将仿变异真后的fa文件和生成的profile文件作为输入,设置readlength,利用多线程和序列生成算法,生成并输出最终的fq文件。进一步,所述CNV仿真算法和包括:(a)确定发生CNV变异的位置、尺寸、类型;(b)根据a中确定的CNV变异的参数执行CNV变异,并打印变异参数的记录文件和变异后的fa文件。进一步,所述CNV状态转移模型为:Normal:Paa=PaPnn=PnPdd=PdPa=Paa*Pnn*Pdd/(2-Paa*Pnn*Pdd)Pd=(1-Pa)*PnnPn=1-Pa-PdInsertion:Paa=PaPnn=PnPdd=PdPd=Paa*Pnn*Pdd/(2-Paa*Pnn*Pdd)Pd=(1-Pd)*PaaPa=1-Pn-PdDeletion:Paa=PaPnn=PnPdd=PdPn=Paa*Pnn*Pdd/(2-Paa*Pnn*Pdd)Pd=(1-Pn)*PddPd=1-Pa-Pn。进一步,所述CNA仿真算法包括:(a)确定发生CNA变异的位置、尺寸、类型;(b)根据a中确定的CNA变异的参数,执行CNA变异,并打印变异参数的记录文件和变异后的fa文件。进一步,所述CNA状态转移模型为:Normal:Paa=PaPnn=PnPdd=PdPa=Paa*Pnn*Pdd/(2-Paa*Pnn*Pdd)Pd=(1-Pa)*PnnPn=1-Pa-PdInsertion:Paa=PaPnn=PnPdd=PdPd=Paa*Pnn*Pdd/(2-Paa*Pnn*Pdd)Pd=(1-Pd)*PaaPa=1-Pn-PdDeletion:Paa=PaPnn=PnPdd=PdPn=Paa*Pnn*Pdd/(2-Paa*Pnn*Pdd)Pd=(1-Pn)*PddPd=1-Pa-Pn。本专利技术的另一目的在于提供一种应用所述基于状态转移模型的新一代测序拷贝数变异仿真方法的CNV和CNA模拟器。本专利技术的另一目的在于提供一种应用所述基于状态转移模型的新一代测序拷贝数变异仿真方法的CNV和CNA序本文档来自技高网
...
一种基于状态转移模型的新一代测序拷贝数变异仿真方法

【技术保护点】
一种基于状态转移模型的新一代测序拷贝数变异仿真方法,其特征在于,所述基于状态转移模型的新一代测序拷贝数变异仿真方法采用拷贝数变异仿真算法,在仿真算法的基础上增加状态转移模型和序列生成部分;所述拷贝数变异包括生殖细胞拷贝数变异和体细胞拷贝数变异;基于Illumina测序平台的Profile文件的生成,核心步骤是将fq文件的reads说明部分的ASCii码转换成碱基的quality value,相应方法是对应字符的ASCii码减去33;将变异仿真后的fa文件和生成的profile文件作为输入,设置read length,利用多线程和序列生成算法,生成并输出最终的fq文件。

【技术特征摘要】
1.一种基于状态转移模型的新一代测序拷贝数变异仿真方法,其特征在于,所述基于状态转移模型的新一代测序拷贝数变异仿真方法采用拷贝数变异仿真算法,在仿真算法的基础上增加状态转移模型和序列生成部分;所述拷贝数变异包括生殖细胞拷贝数变异和体细胞拷贝数变异;基于Illumina测序平台的Profile文件的生成,核心步骤是将fq文件的reads说明部分的ASCii码转换成碱基的qualityvalue,相应方法是对应字符的ASCii码减去33;将变异仿真后的fa文件和生成的profile文件作为输入,设置readlength,利用多线程和序列生成算法,生成并输出最终的fq文件。2.如权利要求1所述的基于状态转移模型的新一代测序拷贝数变异仿真方法,其特征在于,所述生殖细胞拷贝数变异仿真算法和包括:(a)确定发生生殖细胞拷贝数变异的位置、尺寸、类型;(b)根据a中确定的生殖细胞拷贝数变异的参数执行生殖细胞拷贝数变异,并打印变异参数的记录文件和变异后的fa文件。3.如权利要求1所述的基于状态转移模型的新一代测序拷贝数变异仿真方法,其特征在于,所述生殖细胞拷贝数变异状态转移模型为:Normal:Paa=PaPnn=PnPdd=PdPa=Paa*Pnn*Pdd/(2-Paa*Pnn*Pdd)Pd=(1-Pa)*PnnPn=1-Pa-PdInsertion:Paa=PaPnn=PnPdd=PdPd=Paa*Pnn*Pdd/(2-Paa*Pnn*Pdd)Pd=(1-Pd)*PaaPa=1-Pn-PdD...

【专利技术属性】
技术研发人员:高美虹袁细国张军英杨利英李杰白俊
申请(专利权)人:西安电子科技大学
类型:发明
国别省市:陕西,61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1