【技术实现步骤摘要】
基于深度网络快速识别单分子纳米孔测序碱基方法
本专利技术涉及第三代测序碱基
,更具体的,涉及基于深度网络快速识别单分子纳米孔测序碱基方法。
技术介绍
由OxfordNanoporeTechnologies(ONT)公司开发的MinION测序仪是第一款便携式的DNA测序设备。测序仪内部具有嵌入在膜阵列的特殊纳米孔,膜的两端存在电压差,通过纳米孔的单链DNA分子的核苷酸会产生不同的电阻,从而短暂地影响通过纳米孔的电流强度,最后通过检测电流信号随时间的变化可以识别出对应的碱基,测序得到的序列数据也称为读取。将复杂的电流信号转化为对应碱基序列的过程就称为碱基识别。碱基识别过程是影响测序序列质量的关键,对后续的基因组下游分析具有重要的影响。但是,当前纳米孔测序序列依然存在高于10%的较高错误率。这主要来自两个方面的原因,首先是测序原始数据本身存在的噪音信号和随机序列,另一方面则是现有的碱基识别软件准确率的限制。测序时一次性通过孔的通常有5个碱基,因此存在大量的可能状态,而且由于碱基修饰的存在,会导致情况更加复杂,这些都增 ...
【技术保护点】
1.一种基于深度网络快速识别单分子纳米孔测序碱基方法,其特征在于:所述的方法包括步骤如下:/nS1:从测序原始数据中提取电信号序列,对电信号序列进行第一预处理,得到信号矩阵;/nS2:构建深度网络模型,对深度网络模型进行训练,直至损失函数达到设定阈值或迭代次数达到设定步数;其中所述的深度网络模型依次连接有编码器、全连接网络层、连接时序分类解码器;/nS3:将步骤S1中得到的信号矩阵输入编码器中提取高维特征信息,输出特征信息矩阵;/nS4:将步骤S3中得到的特征信息矩阵通过全连接网络层映射生成对应于碱基字符表的概率矩阵;/nS5:采用基于束搜索算法的连接时序分类模块作为解码器 ...
【技术特征摘要】
1.一种基于深度网络快速识别单分子纳米孔测序碱基方法,其特征在于:所述的方法包括步骤如下:
S1:从测序原始数据中提取电信号序列,对电信号序列进行第一预处理,得到信号矩阵;
S2:构建深度网络模型,对深度网络模型进行训练,直至损失函数达到设定阈值或迭代次数达到设定步数;其中所述的深度网络模型依次连接有编码器、全连接网络层、连接时序分类解码器;
S3:将步骤S1中得到的信号矩阵输入编码器中提取高维特征信息,输出特征信息矩阵;
S4:将步骤S3中得到的特征信息矩阵通过全连接网络层映射生成对应于碱基字符表的概率矩阵;
S5:采用基于束搜索算法的连接时序分类模块作为解码器对步骤S4得到的概率矩阵进行束搜索,得到若干个碱基序列,选择其中得分最高的碱基序列作为输出结果。
2.根据权利要求1所述的基于深度网络快速识别单分子纳米孔测序碱基方法,其特征在于:步骤S1中,对测序原始数据提取的电信号序列进行第一预处理,具体过程包括:
S101:纳米孔测序原始文件以fast5形式存储,提取每个fast5文件中的电信号序列进行绝对中位差标准化:
S102:将标准化处理后的电信号序列按照大小为2048的滑动窗口切成信号片段,得到由若干信号片段组成的信号矩阵,矩阵中每一行向量即为一个长为2048的信号片段,若长度不足2048,则用-10补足。
3.根据权利要求1所述的基于深度网络快速识别单分子纳米孔测序碱基方法,其特征在于:步骤S2中,训练深度网络模型的步骤包括:
S201:对训练数据进行第二预处理,获取信号矩阵和标签矩阵;
S202:采用数据并行策略,根据可用GPU的数量n1将训练集划分为不相交的n1个子集,每个GPU独立运行一个进程,对应于一个独立的训练过程;
S203:每个进程处理对应的子集,每一次迭代中各个进程计算CTC损失函数,然后调用各进程的优化器对损失函数求导计算深度网络模型参数的梯度,由0号进程汇总n个进程的梯度,并求梯度均值;然后再由0号进程将得到的梯度均值广播给其他进程,各个进程用该梯度独立地更新参数;
S204:重复步骤S203直至损失函数值低于设定阈值,或迭代次数达到设定步数。
4.根据权利要求3所述的基于深度网络快速识别单分子纳米孔测序碱基方法,其特征在于:步骤S201,对训练数据进行第二预处理的步骤包括:
D1:对纳米孔测序得到的原始fast5文件,基于电信号对其两端进行修剪,去掉两端低方差的开孔信号,然后再从读取序列的头部和尾部分别去除2000个信号值,丢弃信号数少于50000的短读序列;
D2:对修剪过的电信号进行识别,得到初始的错误率较高的读取;
D3:将步骤D2得到的读取与对应的参考基因组序列进行比对,根据比对的结果进一步过滤掉低质量的读取;所述的低质量的读取是指读取识别得到的碱基数少于5000,或其中不匹配的碱基数超过30,或插入缺失的比例超过0.8;
D4:对过滤后剩余的读取进行处理,纠正不匹配的碱基,从fast5文件中重新提取信号序列和对应的碱基序列,并将碱基序列作为标签序列;
D5:将步骤D4中提取得到的信号序列按照大小为2048的信号窗口切片,和标签序列按照大小为300的标签窗口切片,得到信号矩阵和标签矩阵。
5.根据权利要求4所述的基于深度网络快速识别单分子纳米孔测序碱基方法,其特征在于:信号矩阵中若标签片段的实际长度不足2048,则用-10补足;标签矩阵中,每个信号片段中的碱基字符根据字典{′A′:1,′T′:2,′C′:3,′G′:4}转化为对应的数字,若标签片段实际长度不足300,则用5补足。
6.根据权利要求5所述的基于深度网络快速识别单分子纳米孔测序碱基方法,其特征在于:所述的编码器包括下采样模块、长短距离注意力模块、扁平化前馈网络层;其中所述的下采样模块包括卷积层;所述的长短距离注意力模块包括动态分组卷积层、多头注意力层。
7.根据权利要求6所述的基于深度网络快速识别单分子纳米孔测序碱基方法,其特征在于:步骤...
【专利技术属性】
技术研发人员:杨跃东,卢宇彤,陈志广,肖侬,
申请(专利权)人:中山大学,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。