The invention discloses a copy number variation simulation method of state transfer model based on next-generation sequencing, the copy number variation simulation algorithm; increase state transfer model in the simulation algorithm, the increase in variation after the simulation sequence generation part; copy number variation including germ cells and somatic copy number variation in copy number variation; generation Illumina sequencing platform based on Profile file; the FQ file of the reads part of the ASCii code into the quality base value, the corresponding method is corresponding to the ASCii character code minus 33; variation after FA simulation files and generate profile file as input, set the read length, using multithreading and sequence generation algorithm to generate and output the final FQ file. The invention makes the simulation of biological variation more credible, complete in function and authentic in data.
【技术实现步骤摘要】
一种基于状态转移模型的新一代测序拷贝数变异仿真方法
本专利技术属于拷贝数变异
,尤其涉及一种基于状态转移模型的新一代测序拷贝数变异仿真方法。
技术介绍
拷贝数变异是由基因组发生重排而导致的,一般指长度为1kb以上的基因组大片段的拷贝数增加或者减少,主要表现为亚显微水平的缺失(deletion)和重复(insertion)。拷贝数变异是基因组结构变异(Structuralvariation,SV)的重要组成部分,它的位点突变率远高于SNP(Singlenucleotidepolymorphism),是人类疾病的重要致病因素之一。按照发生场所的不同,可以将拷贝数变异分为生殖细胞拷贝数变异(Copynumbervariation,CNV)和体细胞拷贝数变异(Copynumberalternation,CNA),顾名思义就是他们的发生场所分别为生殖细胞和体细胞。CNV具有遗传效应,CNA没有遗传效应,这是由它们所处细胞的机制所决定的。拷贝数变异的仿真就是设计仿真算法,用程序对拷贝数变异的过程进行模拟。近年来,基因组测序领域发展迅速,这非常有助于对许多生物系统的理解。在过去的五年中,计算机生物学家和生物信息学专家针对发现、分析和解释不同的基因组变异的高通量测序数据,提出了新的、更好的和更有效的检测拷贝数变异的工具。在使用检测工具时,可靠的模拟数据集是必不可少的,模拟数据的获得是测试新开发检测工具的第一步。虽然目前已经有很多可用的拷贝数变异仿真工具,但是这些工具的功能都不是很全面,要么就是只可以模拟CNV和CNA中的一个功能,要么就是没有一个可信的状态转移模型, ...
【技术保护点】
一种基于状态转移模型的新一代测序拷贝数变异仿真方法,其特征在于,所述基于状态转移模型的新一代测序拷贝数变异仿真方法采用拷贝数变异仿真算法,在仿真算法的基础上增加状态转移模型和序列生成部分;所述拷贝数变异包括生殖细胞拷贝数变异和体细胞拷贝数变异;基于Illumina测序平台的Profile文件的生成,核心步骤是将fq文件的reads说明部分的ASCii码转换成碱基的quality value,相应方法是对应字符的ASCii码减去33;将变异仿真后的fa文件和生成的profile文件作为输入,设置read length,利用多线程和序列生成算法,生成并输出最终的fq文件。
【技术特征摘要】
1.一种基于状态转移模型的新一代测序拷贝数变异仿真方法,其特征在于,所述基于状态转移模型的新一代测序拷贝数变异仿真方法采用拷贝数变异仿真算法,在仿真算法的基础上增加状态转移模型和序列生成部分;所述拷贝数变异包括生殖细胞拷贝数变异和体细胞拷贝数变异;基于Illumina测序平台的Profile文件的生成,核心步骤是将fq文件的reads说明部分的ASCii码转换成碱基的qualityvalue,相应方法是对应字符的ASCii码减去33;将变异仿真后的fa文件和生成的profile文件作为输入,设置readlength,利用多线程和序列生成算法,生成并输出最终的fq文件。2.如权利要求1所述的基于状态转移模型的新一代测序拷贝数变异仿真方法,其特征在于,所述生殖细胞拷贝数变异仿真算法和包括:(a)确定发生生殖细胞拷贝数变异的位置、尺寸、类型;(b)根据a中确定的生殖细胞拷贝数变异的参数执行生殖细胞拷贝数变异,并打印变异参数的记录文件和变异后的fa文件。3.如权利要求1所述的基于状态转移模型的新一代测序拷贝数变异仿真方法,其特征在于,所述生殖细胞拷贝数变异状态转移模型为:Normal:Paa=PaPnn=PnPdd=PdPa=Paa*Pnn*Pdd/(2-Paa*Pnn*Pdd)Pd=(1-Pa)*PnnPn=1-Pa-PdInsertion:Paa=PaPnn=PnPdd=PdPd=Paa*Pnn*Pdd/(2-Paa*Pnn*Pdd)Pd=(1-Pd)*PaaPa=1-Pn-PdD...
【专利技术属性】
技术研发人员:高美虹,袁细国,张军英,杨利英,李杰,白俊,
申请(专利权)人:西安电子科技大学,
类型:发明
国别省市:陕西,61
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。