模拟目标疾病仿真测序文库的方法及其应用技术

技术编号:21118101 阅读:39 留言:0更新日期:2019-05-16 09:43
本发明专利技术公开了模拟目标疾病仿真测序文库的方法及其应用,其中,该模拟目标疾病仿真测序文库的方法能根据需要得到不同体系和胚系变异特征、杂合/纯合比例和不同患病序列纯度,有针对性地模拟出了捕获测序条件下的下机数据。并且,该方法既能模拟全基因组下机数据,也能模拟捕获测序下机数据,适用范围广。同时,该方法运行速度快,能够在较短的时间内生成所需的模拟序列,并且模拟得到的序列的仿真程度高。

【技术实现步骤摘要】
模拟目标疾病仿真测序文库的方法及其应用
本专利技术涉及生物
,具体地,涉及模拟目标疾病仿真测序文库的方法及其应用。
技术介绍
在基因测序领域,从一代、二代到三代甚至四代,测序技术在短时间内有了飞跃的发展。随着高通量测序的普及以及相应技术的快速更新迭代,诞生了许多全新的检测方法和流程。它们大多还不够完善,性能和适用范围等也缺少准确而清晰的定位,这些都需要通过测试去确定。一般来说,测试(“benchmarking”)会检测真实的测序下机数据,在检出变异之后还需要后续相应的实验验证,这导致该方法费时费力且费钱。数据模拟的方法可以很好地避开这些缺点,既不需要真实的下机数据,也不需要后续繁琐的实验验证步骤,迅速、高效且效费比高。目前可用于变异模拟的软件有很多,但多针对全基因组,无法模拟捕获测序下机数据,并且能模拟的变异类型有限,同时,模拟的算法服从,处理速度慢。由此,同时能用于模拟全基因组和捕获测序下机数据的方法有待进一步研究。
技术实现思路
本专利技术旨在至少解决现有技术中存在的技术问题之一。为此,本专利技术的一个目的在于提出一种模拟目标疾病仿真测序文库的方法,既能模拟全基因组下机数据,也本文档来自技高网...

【技术保护点】
1.一种模拟目标疾病仿真测序文库的方法,其特征在于,包括:获取碱基序列;基于胚系变异数据库,在所述碱基序列上添加胚系变异模拟生成胚系变异序列;基于目标疾病的体系变异数据库,在所述胚系变异序列的基础上迭代添加体系变异生成至少一条含有胚系和体系变异的序列;从所述胚系变异序列和所述含有胚系和体系变异的序列中选取部分变异作为纯合变异,分别以所述胚系变异序列和所述含有胚系和体系变异的序列为模板,得到胚系变异二倍体和含有胚系和体系变异的二倍体;将所述胚系变异二倍体和所述含有胚系和体系变异的二倍体转换为下机序列,以便得到胚系下机序列集和含有胚系和体系变异的下机序列集;以及按预定比例从所述胚系下机序列集和含有...

【技术特征摘要】
2018.12.29 CN 20181163523141.一种模拟目标疾病仿真测序文库的方法,其特征在于,包括:获取碱基序列;基于胚系变异数据库,在所述碱基序列上添加胚系变异模拟生成胚系变异序列;基于目标疾病的体系变异数据库,在所述胚系变异序列的基础上迭代添加体系变异生成至少一条含有胚系和体系变异的序列;从所述胚系变异序列和所述含有胚系和体系变异的序列中选取部分变异作为纯合变异,分别以所述胚系变异序列和所述含有胚系和体系变异的序列为模板,得到胚系变异二倍体和含有胚系和体系变异的二倍体;将所述胚系变异二倍体和所述含有胚系和体系变异的二倍体转换为下机序列,以便得到胚系下机序列集和含有胚系和体系变异的下机序列集;以及按预定比例从所述胚系下机序列集和含有胚系和体系变异的下机序列集选取部分胚系下机序列和部分含有胚系和体系变异的下机序列,所述部分胚系下机序列和部分含有胚系和体系变异的下机序列构成所述目标疾病仿真测序文库。2.根据权利要求1所述的方法,其特征在于,所述获取碱基序列是通过在基因组上截取序列片段得到的,任选地,所述碱基序列为捕获测序序列。3.根据权利要求1所述的方法,其特征在于,所述模拟生成胚系变异序列的方法包括:将所述碱基序列进行胚系变异状态标记,以便得到胚系变异标记后的特征串;选取待添加的胚系变异;将所述待添加的胚系变异整合至所述胚系变异标记后的特征串上,以便得到添加胚系变异后的特征串和胚系变异信息;以及将所述添加胚系变异后的特征串进行碱基还原,以便得到胚系变异序列。4.根据权利要求1所述的方法,其特征在于,生成所述含有胚系和体系变异的序列包括:将所述添加胚系变异后的特征串进行体系变异状态标记,以便得到体系标记后的特征串;选取待添加的体系变异;将所述待添加的体系变异整合至所述体系标记后的特征串上,以便得到添加体变异后的特征串和体系变异信息;以及将所述添加体系变异后的特征串进行碱基还原,以便得到所述含有胚系和体系变异的序列。5.根据权利要求3或4所述的方法,其特征在于,所述胚系变异状态标记和所述体系变异状态标记均包括:将所述碱基序列上的碱基赋予若干标记位,每个变异类型特异对应至少一个标记位;通过有和无对所述字符的各所述标记位进行变异类型的设置,以便得到设置后的标记位;将所述设置后的标记位进行数值转换,以便得到数值化的所述碱基的变异类型标记,任选地,所述变异类型的设置以二进制数值表示所述有和无,以便得到二进制表示的所述设置后的标记位;所述数值转换包括将所述二进制表示的所述设置后的标记位转换成十进制数字,所述十进制数字为所述碱基的变异类型标记。6.根据权利要求1所述的方法,其特征在于,所述胚系变异和所述体系变异的类型为选自单核苷酸位点变异、删除、插入、连续重复、倒置、易位和拷贝数变异中的至少一种,任选地,所述体系变异含有目标疾病的变异,任选地,所述胚系变异包括指定胚系变异和随机胚系变异,所述体系变异包括指定体系变异和随机体系变异。7.根据权利要求3所述的方法,其特征在于,在所述得到胚系变异二倍体和含有胚系和体系变异的二倍体前,进一步包括:对所述含有胚系和体系变异的序列和所述胚系变异序列进行变异校验,以便得到校验后的含有胚系和体系变异的序列和校验后的胚系变异序列,任选地,所述变异校验的方法包括:顺序读取变异序列,所述变异序列为所述含有胚系和体系变异的序列和所述胚系变异序列;基于所述体系变异信息和所述胚系变异信息确定所述变异序列上的每一变异区域;基于所述每一变异区域确定所述变异序列中交替排列的对应于非变异区域的非变异字符串和对应于变异区域的变异字符串;按照所述变异序列的读取顺序,对于所述非变异字符串和所述变异字符串,交替地基于所述原始序列和所述变异信息校验所述待校验序列,包括:对于所述非变异字符串,对所述原始序列与所述待校验序列进行第一比对,以及对于所述变异字符串,基于所述变异区域的所述变异信息和所述原始序列生成模拟变异段,并对所述模拟变异段和所述待校验序列进行第二比对,任选地,所述第一比对和所述第二比对均是以字符串为单位进行的,任选地,所述转换为下机序列是利用ART软件进行的。8.一种模拟目标疾病仿真测序文库的系统,其特征在于,包括:碱基序列获取装置,用于获取碱基序列;胚系变异序列生成装置,所述胚系变异序列生成装置与所述碱基序列获取装置相连,基于胚系变异数据库,用于在所述碱基序列上添加胚系变异模拟生成胚系变异序列;体系变异序列生成装置,所述体系变异序列生成装置与所述胚系变异序列生成装置相...

【专利技术属性】
技术研发人员:荆瑞琳谢张冬周淼杨梦成杜洋李大为玄兆伶王海良王娟肖飞
申请(专利权)人:浙江安诺优达生物科技有限公司安诺优达义乌医学检验有限公司安诺优达基因科技北京有限公司
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1