拼接错误检测方法和系统技术方案

技术编号:7786656 阅读:163 留言:0更新日期:2012-09-21 07:53
本公开涉及拼接错误检测方法和系统。一种检测基因序列拼接中的错误的方法,该方法包括:定义一系列基因数据的拼接(A),把读取段数据收集到读取段库(L)中,绘制读取段大小与每个大小的读取段的数目的直方图,利用覆盖度C使分布(D)标准化,从而获得具有平均值(μ)和标准偏差(σ)的D′,并保留未用于获得D′的位置(i),利用A和D′收集读取段的子集利用Si计算平均值(μi)和标准偏差并且在显示器上把结果输出给用户。

【技术实现步骤摘要】

本专利技术涉及脱氧核糖核酸(DNA)中的拼接错误检测,和核糖核酸(RNA)中的过度表达和表达不足检测。
技术介绍
利用把脱氧核糖核酸(DNA)分成具有呈序列的多个碱基的多个片段或多个段的方法,可以确定DNA基因组序列。每个片段中的碱基序列的确定与片段的顺序的确定相结合,可以用于确定DNA的整个序列。片段顺序的确定可以利用生物信息学拼接方法,借助计算机模拟(in-silico)实现。
技术实现思路
在本专利技术的ー个方面,检测基因序列拼接中的错误的方法包括定义一系列基因 数据的拼接(A),把读取段(read)数据收集到读取段库(L)中,绘制读取段大小与每个大小的读取段的数目的直方图,利用覆盖度C使分布(D)标准化,从而获得具有平均值(μ)和标准偏差(σ)的D',并保留未用于获得D'的位置(i),利用A和D'收集读取段的子集利用Si计算平均值(Ui)和标准偏差(▲ A),在显示器上把结果输出给用户。在本专利技术的另ー个方面,检测基因序列中的错误的系统包括存储器、显示器和处理器,所述处理器操作以定义一系列基因数据的拼接(A),把读取段数据收集到读取段库(L)中,绘制读取段大小与每个大小的读取本文档来自技高网...

【技术保护点】

【技术特征摘要】
2011.01.21 US 13/010,9491.ー种用于检测基因序列拼接中的错误的方法,所述方法包括 定义一系列基因数据的拼接A ; 把读取段数据收集到读取段库L中; 绘制读取段大小与每个大小的读取段的数目的关系的直方图; 利用覆盖度C使分布D标准化,从而获得具有平均值μ和标准偏差σ的D',并保留未用于获得D'的位置i; 利用A和D'收集读取段的子集&匸L ; 利用Si计算平均值μ i和标准偏差·^·Cri; 在显示器上把结果输出给用户。2.按照权利要求I所述的方法,其中,所述方法还包括关于读取段库中的每个位置i,计算Ui相对于μ的偏差。3.按照权利要求I所述的方法,其中,所述方法还包括关于读取段库中的每个位置i,确定だ·OV相对于σ的偏差。4.按照权利要求2所述的方法,其中,所述方法还包括比较所述偏差与阈值,以识别大于或小于阈值的偏差。5.按照权利要求3所述的方法,其中,所述方法还包括比较所述偏差与阈值,以识别大于或小于阈值的偏差。6.按照权利要求4所述的方法,其中,所述方法包括在显示器上,把识别的偏差的位置i输出给用户。7.按照权利要求5所述的方法,其中,所述方法包括在显示器上,把识别的偏差的位置i输出给用户。8.按照权利要求I所述的方法,其中,所述拼接是通过用于序列拼接的计算机模拟生物信息学方法定义的。9.按照权利要求I所述的方法,其中,读取段数据包括脱氧核糖核酸(DNA)片段中的多个碱基的位置和标识符。10.按照权利要求I所述的方法,其中,读取段库包括多个...

【专利技术属性】
技术研发人员:L·P·帕里达N·海米内
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1