一种制作模拟变异数据的方法技术

技术编号:39814137 阅读:4 留言:0更新日期:2023-12-22 19:31
本发明专利技术公开了一种制作模拟变异数据的方法

【技术实现步骤摘要】
一种制作模拟变异数据的方法、装置、计算机可读存储介质及应用


[0001]本专利技术属于生物信息学
,涉及一种制作模拟变异数据的方法

装置

计算机可读存储介质及应用,尤其涉及一种制作基于杂交捕获的高通量测序模拟数据的方法

装置

计算机可读存储介质及应用


技术介绍

[0002]采用新一代测序
(NGS)
技术进行临床分子诊断,包括全基因组测序
(WGS)、
全外显子组测序和靶向基因测序等,已成为癌症诊断和治疗的重要工具

然而从
NGS
原始下机数据检测变异时,不同生物信息学流程的检测结果还达不到令人满意的稳定性和标准化,因此在生物信息学流程被用于临床样本的检测前,有必要先检测生物信息学流程的性能

但是,目前缺少可以用于评估生物信息学流程的标准化数据

[0003]除去基因组的结构变异基因组的变异,基因组变异分为单碱基变异
(SNV)、
小片段插入缺失
(InDel)、
多碱基变异
(MNV)、
复杂变异
(Complex deletion

insertion)。
目前的主流模拟数据软件,都只能对基因组变异的部分形式进行模拟,并且目前还没有软件可以模拟多碱基变异和复杂变异

采用读取并编辑原始测序读段的策略有
BAMSurgen、insiM

MutationMaker
,这些软件都需要在现有测序数据的基础上对数据进行编辑和修改,不适合使用者没有现成可供修改的下机数据时使用;采用从头合成策略的有
VarSim、SVEngine、Wessim
,然而这些软件只能模拟单碱基变异
(SNVs)
和小片段的插入缺失
(InDels)。
另外,肿瘤中常见的变异
(EGFR L858R、BRAF V600E

)
习惯性的以氨基酸的变化进行表示,而目前这些软件都需要输入变异在基因组水平上的改变形式,均不能直接读取变异在
RNA
或氨基酸水平的改变形式并输出相应的模拟数据

[0004]综上所述,如何开发新型构建模拟变异数据的方法,以满足评估生物信息学流程的需求,是目前仅诊断领域亟需解决的问题之一


技术实现思路

[0005]针对现有技术的不足和实际需求,本专利技术提供一种制作模拟变异数据的方法

装置

计算机可读存储介质及应用,以满足目前评估生物信息学流程需求

[0006]为达上述目的,本专利技术采用以下技术方案:
[0007]第一方面,本专利技术提供一种制作模拟变异数据的方法,所述方法包括以下步骤:
[0008](1)
读取输入的
bed
文件,提取
bed
文件覆盖的基因列表和基因的基因组坐标;
[0009](2)
读取输入的变异位点,获取基因组水平的变异信息,包括染色体

开始和结束坐标,突变序列;
[0010](3)
根据
bed
文件覆盖的基因列表和基因的基因组坐标

突变位点在基因组水平的信息,制作野生型的模拟基因组
FASTA
文件和突变型的模拟基因组
FASTA
文件;
[0011](4)
从野生型的模拟基因组
FASTA
文件和突变型的模拟基因组
FASTA
文件截取
FASTQ
文件;
[0012](5)
利用比对软件将野生型的
FASTQ
文件和突变型的
FASTQ
文件与参考基因组进行比对,得到初始的野生型的
BAM
文件和突变型的
BAM
文件,提取初始的野生型的
BAM
文件和突变型的
BAM
文件中
bed
文件区域的部分,得到野生型的
BAM
文件和突变型的
BAM
文件;
[0013](6)
读取突变位点目标的突变频率,按照突变频率将野生型的
BAM
文件和突变型的
BAM
文件进行混合,生成模拟变异数据的
BAM
文件

[0014]本专利技术中,针对目前模拟方法中无法读取变异在
RNA
或氨基酸水平的改变形式并输出相应的模拟数据,以及无法模拟基因组变异的多碱基变异和复杂变异等问题,采取从头合成策略,设计制作模拟变异数据的方法,可以直接读取变异在基因组
、RNA
或氨基酸上的
HGVS
格式的改变形式,模拟所有基因组变异形式,并输出相应的
BAM
文件

[0015]本专利技术中,
bed
文件指一种文本文件的格式,文件中至少包含3列,染色体

开始坐标和结束坐标;
HGVS
格式注释规则:人类基因组变异协会
(HGVS

Human Genome Variation Society)
制定的目前学术界所公认的突变命名规则;
FASTA
格式:在生物信息学中,
FASTA
格式
(
又称为
Pearson
格式
)
,是一种基于文本用于表示核苷酸序列或氨基酸序列的格式

序列文件的第一行是由大于号
">"
或分号
"

"
打头的任意文字说明
(
习惯常用
">"
作为起始
)
,用于序列标记

从第二行开始为序列本身,只允许使用既定的核苷酸或氨基酸编码符号

通常核苷酸符号大小写均可,而氨基酸常用大写字母;
FASTQ
格式:
FASTQ
是一种存储了生物序列
(
通常是核酸序列
)
以及相应的质量评价的文本格式
。FASTQ
格式是序列格式中常见的一种,
FASTQ
格式的序列一般都包含有四行,第一行由
'@'
开始,后面跟着序列的描述信息,这点跟
FASTA
格式是一样的,第二行是序列,第三行由
'+'
开始,后面也可以跟着序列的描述信息

第四行是第二行序列的质量评价...

【技术保护点】

【技术特征摘要】
1.
一种制作模拟变异数据的方法,其特征在于,所述方法包括以下步骤:
(1)
读取输入的
bed
文件,提取
bed
文件覆盖的基因列表和基因的基因组坐标;
(2)
读取输入的变异位点,获取基因组水平的变异信息,包括染色体

开始和结束坐标,突变序列;
(3)
根据
bed
文件覆盖的基因列表和基因的基因组坐标

突变位点在基因组水平的信息,制作野生型的模拟基因组
FASTA
文件和突变型的模拟基因组
FASTA
文件;
(4)
从野生型的模拟基因组
FASTA
文件和突变型的模拟基因组
FASTA
文件截取
FASTQ
文件;
(5)
利用比对软件将野生型的
FASTQ
文件和突变型的
FASTQ
文件与参考基因组进行比对,得到初始的野生型的
BAM
文件和突变型的
BAM
文件,提取初始的野生型的
BAM
文件和突变型的
BAM
文件中
bed
文件区域的部分,得到野生型的
BAM
文件和突变型的
BAM
文件;
(6)
读取突变位点目标的突变频率,将野生型的
BAM
文件和突变型的
BAM
文件进行混合,生成模拟变异数据的
BAM
文件
。2.
根据权利要求1所述的制作模拟变异数据的方法,其特征在于,步骤
(1)
具体包括:利用第一数据库对
bed
文件进行注释,提取
bed
文件覆盖到的基因列表,及基因列表中每个基因在基因组上对应的所有转录本的染色体

开始和结束坐标;在第二数据库中提取每个基因优选的唯一的转录本,并由此得到每个基因唯一对应的在基因组对应的染色体

开始和结束坐标;优选地,所述第一数据库包括
refGene
数据库或
ensemble
数据库;优选地,所述第二数据库包括
HGNC
数据库
。3.
根据权利要求1或2所述的制作模拟变异数据的方法,其特征在于,步骤
(2)
具体包括:
(2

1)
读取输入的变异位点,判断输入的变异位点的注释形式,利用
Transvar
软件将输入的变异位点进行转化,提取其中基因组水平的注释;
(2

2)
根据
Transvar
软件注释结果中基因组水平的注释,得到基因组水平的变异信息,并从基因组水平的变异信息中获取染色体

突变开始坐标

突变终止坐标和突变序列;
(2
‑2‑
1)
基因组水平注释信息中包含的“chr”字符串后的数字,即为突变位点所在的染色体;
(2
‑2‑
2)
若基因组水平注释信息中包含1个数字,则判断该数字同时为突变初始和结束坐标,继续读取数字后跟着的字符串,若字符串中存在“delins”,则突变开始坐标在突变初始坐标基础上减1,突变结束坐标在突变初始结束坐标加1,突变序列为“delins”后的序列串;若字符串中存在“del”,则突变开始坐标在突变初始坐标基础上减1,突变结束坐标在突变初始结束坐标加1,突变序列为
“”
;若字符串中存在“dup”,则突变开始坐标即为突变初始坐标,突变结束坐标在突变初始结束坐标加1,突变序列为“dup”后的序列串;若字符串中存在“>”,则突变开始坐标在突变初始坐标基础上减1,突变结束坐标在突变初始结束坐标加1,突变序列为“>”后的序列串;
(2
‑2‑
3)
若基因组水平注释信息中包含2个数字,且数字间用“_”分隔开,则判断第一个数字为突变初始开始坐标,第二个数字为突变初始结束坐标;继续读取数字后跟着的字符串,若字符串中存在“delins”,则突变开始坐标在突变初始坐标基础上减1,突变结束坐标
在突变初始结束坐标加1,突变序列为“delins”后的序列串;若字符串中存在“del”,则突变开始坐标在突变初始坐标基础上减1,突变结束坐标在突变初始结束坐标加1,突变序列为
“”
;若字符串中存在“dup”,则突变开始坐标即为突变初始坐标,突变结束坐标在突变初始结束坐标加1,突变序列为“dup”后的序列串;若字符串中存在“ins”,则突变开始坐标即为突变初始坐标,突变结束坐标即为突变初始结束坐标,突变序列为“ins”后的序列串
。4.
根据权利要求1‑3任一项所述的制作模拟变异数据的方法,其特征在于,步骤
(3)
具体包括:
(3

1)
遍历
bed
文件覆盖到的基因列表,若基因中不包含需要模拟的突变位点,则根据基因的染色体坐标,利用截取软件从基因组上截取该基因的序列信息,分别输出到野生型的模拟基因组
FASTA
文件和突变型的模拟基因组
FASTA
文件中;
(3

2)
若基因中包含需要模拟的突变位点,首先根据基因的染色体坐标,利用截取软件从基因组上截取该基因的序列信息,输出到野生型的模拟基因组
FASTA
文件;其次根据基因在基因组上的开始坐标和突变位点的开始坐标,从基因组上截取第一段序列,把突变位点的突变序列作为第二段序列,根据基因突变位点的结束坐标和在基因组上的结束坐标,从基因组上截取第三段序列,将第一段

第二段和第三段序列合并在一起,输出到突变型的模拟基因组
FASTA
文件中;
(3

3)
对野生型的模拟基因组
FASTA
文件和突变型的模拟基因组
FASTA
文件进行处理,使得文件中的序列部分每行的碱基数相等
。5.
根据权利要求4所述的制作模拟变异数据的方法,其特征在于,所述截取软件包括
samtools
软件或
twoBitToFa
软件;优选地,调整
FASTA
文件每行碱基数的软件包括
Picard
软件
。6.
根据权利要求1‑5任一项所述的制作模拟变异数据的方法,其特征在于,步骤
(4)
具体包括:
(4

1)
读取输入的模拟数据的目标平均深度,根据
bed
文件覆盖到的基因列表中所有基因的起止坐标,计算所有基因起止坐标的差值的总和,平均深度与差值总和相乘得到需要的数据量;
(4

2)
分别从野生型的模拟基因组
FASTA
文件和突变型的模拟基因组
FASTA
文件截取需要数据量的野生型的
FASTQ
文件和突变型的
FASTQ
文件
。7.
一种制作模拟变异数据的装置,其特征在于,所述装置用于执行权利要求1‑6任一项所述的制作模拟变异数据的方法中的步骤,所述装置包括:读取
bed
文件模块,用于执行包括:读取输入的
bed

【专利技术属性】
技术研发人员:单光宇高司航姬晓勇伍启熹赵汗青王建伟
申请(专利权)人:北京优迅医疗器械有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1