基于Nanopore测序技术识别辐射损伤中嘧啶二聚体的模型构建方法技术

技术编号:19425789 阅读:69 留言:0更新日期:2018-11-14 10:42
本发明专利技术公开了一种基于Nanopore测序技术识别辐射损伤中嘧啶二聚体的模型构建方法,涉及基因测序技术领域。该模型构建方法通过将阳性样本训练集合P和阴性样本训练集合N作为机器学习输入,构建目标训练模型。通过该识别模型,可以对辐射损伤引起的嘧啶二聚体进行识别,该识别模型可用于Nanopore测序技术,对DNA序列发生变化例如TT二聚体进行预测。

【技术实现步骤摘要】
基于Nanopore测序技术识别辐射损伤中嘧啶二聚体的模型构建方法
本专利技术涉及基因测序
,具体而言,涉及一种基于Nanopore测序技术识别辐射损伤中嘧啶二聚体的模型构建方法。
技术介绍
Nanopore测序技术,一种单分子实时测序的新一代测序方法,其以单分子DNA(RNA)通过生物纳米孔的电信号变化,由于不同的碱基带来的电信号变化是不同的,因此,应用通过机器学习得到的电信号识别模型可以推测其碱基组成,进而实现测序。紫外线可以造成DNA的损伤,将DNA分子中的胸腺嘧啶以环丁基环形成二聚体,称为胸腺嘧啶二聚体(TTdimer)。这种变化在DNA链上相邻近的胸苷酸容易发生。二聚形成后,RNA引物的合成将停止在二聚体处,DNA的合成也受阻。但目前来说,在Nanopore测序技术中使用的电信号识别模型针对的都是未经修饰的单分子DNA序列,缺乏针对经修饰(例如嘧啶二聚体、组蛋白修饰、甲基化修饰等)的DNA序列发生变化的电信号识别模型。因此,如果针对特定生物学问题如对于DNA辐射损伤中DNA序列改变的问题等展开分析研究,采用Nanopore测序技术进行测序的容易导致测序结果不准确。鉴于此,特提出本专利技术。
技术实现思路
本专利技术的目的在于提供一种基于Nanopore测序技术识别辐射损伤中嘧啶二聚体的模型构建方法,通过该构建方法,可以得到针对辐射损伤中嘧啶二聚体的识别模型,该识别模型可用于DNA损伤例如TT二聚体进行预测。本专利技术是这样实现的:一种基于Nanopore测序技术识别辐射损伤中嘧啶二聚体的模型构建方法,其包括如下步骤:步骤(1):提供目标测序序列及其对应的目标测序序列电信号,所述目标测序序列由Nanopore测序技术对UV照射后的酵母细胞进行测序得到;步骤(2):将所述目标测序序列与参考序列比对,获得比对准确的具有连续两个TT以上的位点的连续TT集合S,其中,所述参考序列为酵母基因组序列;需要说明的是,连续两个TT以上的位点包括连续两个TT、连续三个TT的位点、连续四个TT的位点、连续五个TT的位点、连续六个TT的位点、连续七个TT的位点、连续八个TT的位点、连续九个TT的位点、连续十个TT的位点、连续十一个TT等以上的位点,这些位点都均被纳入连续TT集合S。步骤(3):以所述连续TT集合S与预先设置的TT二聚体集合B的交集作为机器学习的阳性样本训练集合P,以所述连续TT集合S与所述预先设置的TT二聚体集合B的的差集作为机器学习的阴性样本训练集合N;步骤(4):分别将阳性样本训练集合P和阴性样本训练集合N中的连续TT位点向其上下游各拓展4bp,得到覆盖TT二聚体位点的10bp碱基序列,根据步骤(1)中的所述目标测序序列电信号获取每个10bp碱基序列相对应的电信号特征;以得到与所述阳性样本集合P对应的阳性样本碱基序列集和阳性样本电信号特征集,以及与所述阴性样本集合N对应的阴性样本碱基序列集和阴性样本电信号特征集;步骤(5):将步骤(4)的阳性样本训练集合P和阴性样本训练集合N作为机器学习输入,构建目标训练模型。进一步地,在本专利技术的一些实施方案中,在步骤(3)中:获得所述预先设置的TT二聚体集合B的步骤,包括:统计现有文献报道的经过UV照射后的酵母中存在的所有TT二聚体位点,作为真阳性TT二聚体集合A;统计现有文献报道的未经过UV照射的酵母中存在的所有TT二聚体位点,作为假阳性TT二聚体集合A’;去除真阳性TT二聚体集合A1中同时包含在假阳性TT二聚体集合A’的TT二聚体位点后,得到真阳性TT二聚体集合A2,并在该真阳性TT二聚体集合A2中去除测序深度小于10的所有位点和所有的具有连续10个T的位点,得到所述预先设置的TT二聚体集合B。进一步地,在本专利技术的一些实施方案中,步骤(4)中,所述构成目标训练模型的步骤包括:依据SVM算法及RNN算法训练初始模型,以得到目标训练模型。进一步地,在本专利技术的一些实施方案中,步骤(4)中,所述电信号特征包括:电信号强度、标准差和电信号持续时间。进一步地,在本专利技术的一些实施方案中,步骤(1)中的照射时间为1小时。通过本专利技术提供的构建方法,所得到的识别模型可以用于Nanopore测序技术,对由Nanopore测序技术测定的电信号进行识别,从而对由辐射损伤引起的嘧啶二聚体进行预测,为针对特定生物学问题如对于DNA辐射损伤中DNA序列改变的问题提供的依据;当然,本专利技术提供的构建方法不仅适用于由辐射损伤引起的嘧啶二聚体进行预测,也同样可以适用于对其他DNA修饰例如组蛋白修饰、甲基化修饰等的识别模型的构建。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本专利技术的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。图1为本专利技术实施例中UV照射后TT二聚体训练集的构建流程示意图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将对本专利技术实施例中的技术方案进行清楚、完整地描述。实施例中未注明具体条件者,按照常规条件或制造商建议的条件进行。所用试剂或仪器未注明生产厂商者,均为可以通过市售购买获得的常规产品。以下结合实施例对本专利技术的特征和性能作进一步的详细描述。实施例1基于Nanopore测序技术识别辐射损伤中嘧啶二聚体的模型构建方法,步骤如下:(1)首先采用实验手段,对酵母细胞进行UV照射,获得照射后1hr的酵母细胞。当然,照射的时间可以根据实际情况确定,其不限于1hr,所照射的时间长短尽量以能够促使其基因组序列发生TT二聚体的时间为宜。且,所用的酵母细胞也并不限于酵母细胞,可以根据实际情况更换处理对象,例如大肠杆菌等。(2)采用Nanopore测序技术对UV照射后的酵母细胞进行测序,得到的照射后1hr的酵母细胞的基因组序列及其基于Nanopore测序技术的电信号,将其作为目标测序序列及其对应的目标测序序列电信号。(3)使用BWA软件将目标测序序列比对到正常的酵母基因组序列,使用perl脚本获得比对准确的具有连续两个TT以上的位点,将这些位点全部作为连续TT集合S。连续TT集合S中的连续两个TT以上的位点中包括有TT二聚体位点;这些TT二聚体位点包括自然存在的即未经UV照射就存在于酵母基因组上的TT二聚体位点,也包括由UV照射后引起的TT二聚体位点。(4)获得TT二聚体集合B统计现有文献(ChromosomallandscapeofUVdamageformationandrepairatsingle-nucleotideresolution)报道的经过UV照射后的酵母中存在的所有TT二聚体位点,作为真阳性TT二聚体集合A1;统计上述现有文献报道的不是经过UV照射的酵母中的存在的所有TT二聚体位点,作为假阳性TT二聚体集合A’;去除真阳性TT二聚体集合A1中同时包含在假阳性TT二聚体集合A’的TT二聚体位点后,得到真阳性TT二聚体集合A2,并在该真阳性TT二聚体集合A2中去除测序深度小于10的所有位点和所有的具有连续10个T的位点,得到所述预先设置的TT二聚体集合B。(5)以所述连续TT集合S与预先设置的TT二聚体本文档来自技高网...

【技术保护点】
1.一种基于Nanopore测序技术识别辐射损伤中嘧啶二聚体的模型构建方法,其特征在于,其包括如下步骤:步骤(1):提供目标测序序列及其对应的目标测序序列电信号,所述目标测序序列由Nanopore测序技术对UV照射后的酵母细胞进行测序得到;步骤(2):将所述目标测序序列与参考序列比对,获得比对准确的具有连续两个TT以上的位点的连续TT集合S,其中,所述参考序列为酵母基因组序列;步骤(3):以所述连续TT集合S与预先设置的TT二聚体集合B的交集作为机器学习的阳性样本训练集合P,以所述连续TT集合S与所述预先设置的TT二聚体集合B的的差集作为机器学习的阴性样本训练集合N;步骤(4):分别将阳性样本训练集合P和阴性样本训练集合N中的连续TT位点向其上下游各拓展4bp,得到覆盖TT二聚体位点的10bp碱基序列,根据步骤(1)中的所述目标测序序列电信号获取每个10bp碱基序列相对应的电信号特征;以得到与所述阳性样本集合P对应的阳性样本碱基序列集和阳性样本电信号特征集,以及与所述阴性样本集合N对应的阴性样本碱基序列集和阴性样本电信号特征集;步骤(5):将步骤(4)的阳性样本训练集合P和阴性样本训练集合N作为机器学习输入,构建目标训练模型。...

【技术特征摘要】
1.一种基于Nanopore测序技术识别辐射损伤中嘧啶二聚体的模型构建方法,其特征在于,其包括如下步骤:步骤(1):提供目标测序序列及其对应的目标测序序列电信号,所述目标测序序列由Nanopore测序技术对UV照射后的酵母细胞进行测序得到;步骤(2):将所述目标测序序列与参考序列比对,获得比对准确的具有连续两个TT以上的位点的连续TT集合S,其中,所述参考序列为酵母基因组序列;步骤(3):以所述连续TT集合S与预先设置的TT二聚体集合B的交集作为机器学习的阳性样本训练集合P,以所述连续TT集合S与所述预先设置的TT二聚体集合B的的差集作为机器学习的阴性样本训练集合N;步骤(4):分别将阳性样本训练集合P和阴性样本训练集合N中的连续TT位点向其上下游各拓展4bp,得到覆盖TT二聚体位点的10bp碱基序列,根据步骤(1)中的所述目标测序序列电信号获取每个10bp碱基序列相对应的电信号特征;以得到与所述阳性样本集合P对应的阳性样本碱基序列集和阳性样本电信号特征集,以及与所述阴性样本集合N对应的阴性样本碱基序列集和阴性样本电信号特征集;步骤(5):将步骤(4)...

【专利技术属性】
技术研发人员:李昊陈河兵洪浩张卓黄昕江帅李睿江李宛莹伯晓晨
申请(专利权)人:中国人民解放军军事科学院军事医学研究院
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1