【技术实现步骤摘要】
一种制作模拟变异数据的方法、装置、计算机可读存储介质及应用
[0001]本专利技术属于生物信息学
,涉及一种制作模拟变异数据的方法
、
装置
、
计算机可读存储介质及应用,尤其涉及一种制作基于杂交捕获的高通量测序模拟数据的方法
、
装置
、
计算机可读存储介质及应用
。
技术介绍
[0002]采用新一代测序
(NGS)
技术进行临床分子诊断,包括全基因组测序
(WGS)、
全外显子组测序和靶向基因测序等,已成为癌症诊断和治疗的重要工具
。
然而从
NGS
原始下机数据检测变异时,不同生物信息学流程的检测结果还达不到令人满意的稳定性和标准化,因此在生物信息学流程被用于临床样本的检测前,有必要先检测生物信息学流程的性能
。
但是,目前缺少可以用于评估生物信息学流程的标准化数据
。
[0003]除去基因组的结构变异基因组的变异,基因组变异分为单碱基变异
(SNV)、
小片段插入缺失
(InDel)、
多碱基变异
(MNV)、
复杂变异
(Complex deletion
‑
insertion)。
目前的主流模拟数据软件,都只能对基因组变异的部分形式进行模拟,并且目前还没有软件可以模拟多碱基变异和复杂变异
。
采用读取并编辑原始测序读段的策略有
BA
【技术保护点】
【技术特征摘要】 【专利技术属性】
1.
一种制作模拟变异数据的方法,其特征在于,所述方法包括以下步骤:
(1)
读取输入的
bed
文件,提取
bed
文件覆盖的基因列表和基因的基因组坐标;
(2)
读取输入的变异位点,获取基因组水平的变异信息,包括染色体
、
开始和结束坐标,突变序列;
(3)
根据
bed
文件覆盖的基因列表和基因的基因组坐标
、
突变位点在基因组水平的信息,制作野生型的模拟基因组
FASTA
文件和突变型的模拟基因组
FASTA
文件;
(4)
从野生型的模拟基因组
FASTA
文件和突变型的模拟基因组
FASTA
文件截取
FASTQ
文件;
(5)
利用比对软件将野生型的
FASTQ
文件和突变型的
FASTQ
文件与参考基因组进行比对,得到初始的野生型的
BAM
文件和突变型的
BAM
文件,提取初始的野生型的
BAM
文件和突变型的
BAM
文件中
bed
文件区域的部分,得到野生型的
BAM
文件和突变型的
BAM
文件;
(6)
读取突变位点目标的突变频率,将野生型的
BAM
文件和突变型的
BAM
文件进行混合,生成模拟变异数据的
BAM
文件
。2.
根据权利要求1所述的制作模拟变异数据的方法,其特征在于,步骤
(1)
具体包括:利用第一数据库对
bed
文件进行注释,提取
bed
文件覆盖到的基因列表,及基因列表中每个基因在基因组上对应的所有转录本的染色体
、
开始和结束坐标;在第二数据库中提取每个基因优选的唯一的转录本,并由此得到每个基因唯一对应的在基因组对应的染色体
、
开始和结束坐标;优选地,所述第一数据库包括
refGene
数据库或
ensemble
数据库;优选地,所述第二数据库包括
HGNC
数据库
。3.
根据权利要求1或2所述的制作模拟变异数据的方法,其特征在于,步骤
(2)
具体包括:
(2
‑
1)
读取输入的变异位点,判断输入的变异位点的注释形式,利用
Transvar
软件将输入的变异位点进行转化,提取其中基因组水平的注释;
(2
‑
2)
根据
Transvar
软件注释结果中基因组水平的注释,得到基因组水平的变异信息,并从基因组水平的变异信息中获取染色体
、
突变开始坐标
、
突变终止坐标和突变序列;
(2
‑2‑
1)
基因组水平注释信息中包含的“chr”字符串后的数字,即为突变位点所在的染色体;
(2
‑2‑
2)
若基因组水平注释信息中包含1个数字,则判断该数字同时为突变初始和结束坐标,继续读取数字后跟着的字符串,若字符串中存在“delins”,则突变开始坐标在突变初始坐标基础上减1,突变结束坐标在突变初始结束坐标加1,突变序列为“delins”后的序列串;若字符串中存在“del”,则突变开始坐标在突变初始坐标基础上减1,突变结束坐标在突变初始结束坐标加1,突变序列为
“”
;若字符串中存在“dup”,则突变开始坐标即为突变初始坐标,突变结束坐标在突变初始结束坐标加1,突变序列为“dup”后的序列串;若字符串中存在“>”,则突变开始坐标在突变初始坐标基础上减1,突变结束坐标在突变初始结束坐标加1,突变序列为“>”后的序列串;
(2
‑2‑
3)
若基因组水平注释信息中包含2个数字,且数字间用“_”分隔开,则判断第一个数字为突变初始开始坐标,第二个数字为突变初始结束坐标;继续读取数字后跟着的字符串,若字符串中存在“delins”,则突变开始坐标在突变初始坐标基础上减1,突变结束坐标
在突变初始结束坐标加1,突变序列为“delins”后的序列串;若字符串中存在“del”,则突变开始坐标在突变初始坐标基础上减1,突变结束坐标在突变初始结束坐标加1,突变序列为
“”
;若字符串中存在“dup”,则突变开始坐标即为突变初始坐标,突变结束坐标在突变初始结束坐标加1,突变序列为“dup”后的序列串;若字符串中存在“ins”,则突变开始坐标即为突变初始坐标,突变结束坐标即为突变初始结束坐标,突变序列为“ins”后的序列串
。4.
根据权利要求1‑3任一项所述的制作模拟变异数据的方法,其特征在于,步骤
(3)
具体包括:
(3
‑
1)
遍历
bed
文件覆盖到的基因列表,若基因中不包含需要模拟的突变位点,则根据基因的染色体坐标,利用截取软件从基因组上截取该基因的序列信息,分别输出到野生型的模拟基因组
FASTA
文件和突变型的模拟基因组
FASTA
文件中;
(3
‑
2)
若基因中包含需要模拟的突变位点,首先根据基因的染色体坐标,利用截取软件从基因组上截取该基因的序列信息,输出到野生型的模拟基因组
FASTA
文件;其次根据基因在基因组上的开始坐标和突变位点的开始坐标,从基因组上截取第一段序列,把突变位点的突变序列作为第二段序列,根据基因突变位点的结束坐标和在基因组上的结束坐标,从基因组上截取第三段序列,将第一段
、
第二段和第三段序列合并在一起,输出到突变型的模拟基因组
FASTA
文件中;
(3
‑
3)
对野生型的模拟基因组
FASTA
文件和突变型的模拟基因组
FASTA
文件进行处理,使得文件中的序列部分每行的碱基数相等
。5.
根据权利要求4所述的制作模拟变异数据的方法,其特征在于,所述截取软件包括
samtools
软件或
twoBitToFa
软件;优选地,调整
FASTA
文件每行碱基数的软件包括
Picard
软件
。6.
根据权利要求1‑5任一项所述的制作模拟变异数据的方法,其特征在于,步骤
(4)
具体包括:
(4
‑
1)
读取输入的模拟数据的目标平均深度,根据
bed
文件覆盖到的基因列表中所有基因的起止坐标,计算所有基因起止坐标的差值的总和,平均深度与差值总和相乘得到需要的数据量;
(4
‑
2)
分别从野生型的模拟基因组
FASTA
文件和突变型的模拟基因组
FASTA
文件截取需要数据量的野生型的
FASTQ
文件和突变型的
FASTQ
文件
。7.
一种制作模拟变异数据的装置,其特征在于,所述装置用于执行权利要求1‑6任一项所述的制作模拟变异数据的方法中的步骤,所述装置包括:读取
bed
文件模块,用于执行包括:读取输入的
bed
技术研发人员:单光宇,高司航,姬晓勇,伍启熹,赵汗青,王建伟,
申请(专利权)人:北京优迅医疗器械有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。