【技术实现步骤摘要】
Sanger测序峰图截取标识方法、系统、计算机设备及存储介质
[0001]本专利技术属于基因检测
,具体涉及一种Sanger测序峰图截取标识方法、系统及存储介质。
技术介绍
[0002]PCR
‑
飞行时间质谱法可以利用核苷酸分子量的差异,对设定核酸位点的多态性进行检测,因此可以利用此原理开发基于飞行时间质谱平台的基因检测试剂盒。飞行时间质谱平台和基于该平台的基因检测试剂盒在实际应用于临床前,需要用大量的临床样本来进行检测测试,将检测结果与临床样本的金标准进行对比评价,以此来确认其有效性。
[0003]由于Sanger测序法是临床样本核酸位点多态性检测的金标准方法之一,因此在用飞行时间质谱平台检测核酸位点多态性的临床确认试验过程中,需要用Sanger测序法对相同样本的相同核酸检测位点进行确认。由于Sanger测序技术原因,在检测核酸位点多态性时,需要对该位点前后一共至少150bp的核酸序列进行测序。测序公司返回的测序结果是一份记录每个碱基峰图的ab1文件,需要用特定的软件来打开该测序文件查看碱基 ...
【技术保护点】
【技术特征摘要】
1.一种Sanger测序峰图截取标识方法,其特征在于,包括如下步骤:S1、读取测序文件和配置文件信息,基于所述测序文件导出碱基峰图和碱基序列;S2、处理所述碱基峰图和碱基序列,识别延伸碱基信息;S3、基于识别得到的延伸碱基信息截取并标识延伸碱基序列峰图。2.根据权利要求1所述的Sanger测序峰图截取标识方法,其特征在于,步骤S1中,所述测序文件和配置文件包括:单个或大量压缩后的Sanger测序ab1文件和json配置文件,所述json配置文件中至少包含测序引物名称、检测位点名称和识别序列信息。3.根据权利要求2所述的Sanger测序峰图截取标识方法,其特征在于,步骤S1具体包括:S11、对测序文件中的所有ab1文件按照测序引物名称进行分组;S12、根据识别序列对每组ab1文件进行处理,使用sangerseqR包从ab1文件中导出碱基峰图和碱基序列,其中碱基峰图包括测序全长峰图和包含检测位点在内的20nt碱基长度峰图截图,碱基序列包括primary序列和secondary序列两种序列。4.根据权利要求3所述的Sanger测序峰图截取标识方法,其特征在于,步骤S12中,导出20nt碱基长度峰图截图时,先确定在全长序列5
’
端剪切掉的碱基数量trim5和在全长序列3
’
端剪切掉的碱基数量trim3,确定剪切碱基数量的过程如下:S121、用识别序列识别检测位点位置;S122、当primary序列中的检测位点位置识别成功后,获得不包含分割序列在内的首尾两段碱基序列;S123、当识别序列在检测位点5
’
端时,trim5=首段碱基序列长度+分割序列长度
‑
10,trim3=尾段碱基序列长度
‑
10;当识别序列在检测位点3
’
端时,trim5=首段碱基序列长度
‑
11,trim3=尾段碱基序列长度+分割序列长度
‑
9。5.根据权利要求4所述的Sanger测序峰图截取标识方法,其特征在于,步骤S121中,检测位点位置识别过程如下:用识别序列全长作为对测序序列进行分割的分割序列,若分割序列在测序序列中完全存在,则对测序序列进行分割,否则不能进行分割;若分割序列不能进行分割,则从原分割序列末端剪切掉一个碱基后作为新的分割序列继续进行分割尝试,若仍不能分割,则继续重复该过程,其中,从原分割序列末端剪切掉一个碱基时,标注有
‘3’
的识别序列从3
’
端剪切,反之从5
’
端剪切;若识别序列末端剪切掉5个碱基后仍不能进行分割,或出现分割结果超过两段时,则停止分割,并判定检测位点识别失败,不进行后续处理。6.根据权利要求5所述的Sanger测序峰图截取标识方法,其特征在于,步骤S2具体包括:S21、从导出的碱基序列中识别样本检测基因型;S22、根据检测位点索引值过滤掉检测位点识别错误的样本;S23、识别截图中的碱基序列及每个碱基左右两侧的像素横坐标值;S24、根据纠错序列对识别错误的基因型进行纠错;S25、确定待用红框标识的基因型两个横向像素坐标值,并将上述信息保存至数据库。7.根据权利要求6所述的Sanger测序峰图截取标识方法,其特征在于,步骤S21具体包
括:S211、分别在primary序列和secondary序列两种序列中识别出检测位点位置;S212、当识别序列在检测位点5
’
端且检测位点位置识别成功时,检测位点索引值=分割后首段序列长度+分割序列长度+1,检测位点碱基即为该位置的碱基,纠错序列为与检测位点3
’
端相邻的4个碱基序列;当识别序列在检测位点3
’
端且检测位点位置识别成功时,检测位点索引值=分割后首段序列长度,检测位点碱基即为该位置的碱基,纠错序列为与检测位点5
’
端相邻的4个碱基序列;S213、当primary序列和secondary序列两种序列的检测位点A、T、C、G四种碱基字符相同时,判定基因型为纯合,反之基因型为杂合;S214、将识别出的检测位点索引值、基因型、纠错序列等三种信息存储至数据库。8.根据权利要求7所述的Sanger测序峰图截取标识方法,其特征在于,步骤S22具体包括:S221、从数据库中导出该检测位点所有样本的检测位点索引值;S222、将不在区间[Q1
ꢀ‑ꢀ
IQR * par, Q3 + IQR * par]内的索引值判定为异常值,进而判定该样本检测位点识别错误,不进行后续处理;其中Q1为检测位点索引值数据集的下四分位数,Q3为检测位点索引值数据集的上四分位数,IQR= Q3
‑
Q1,par为预设常数。9.根据权利要求8所述的Sanger测序峰图截取标识方法,其特征在于,步骤S23具体包括:S231、设置截取的峰图图片为576像素高* 2448像素宽,选择距图片上边界垂直向下88像素的一条水平直线作为碱基坐标识别线,该识别线从左向右依次穿过碱基序列;S232、在所述识别线上依次从左向右识别,在图片中依次读取点(88,0)、(88,1)、(88,2)
……
(88,2447)对应的RGB颜色码中的R值、G值和B值进行处理;S233、根据从识别线中输出的RGB颜色码与图片中实际字符的对应关系进行图片字符及坐标识别,图片字符及坐标识别过程如下:
①ꢀ
若出现了RGB颜色码从RGB1:R>100 & G>100 & B>100变化到RGB2:R>100 & G<100 & B<100,再变化到RGB3:R>100 & G>100 & B>100的过程,则在RGB2横向坐标x位置处出现了字母C,字母C左侧边界横坐标L为x+左边界补偿距离l(
‑
2),字母C右侧边界横坐标R为x+右边界补偿距离r(25);
②ꢀ
若出现了RGB颜色码从RGB1:R>100 & G>100 & B>100变化到RGB2:R<100 & G>100 & B<100,再变化到RGB3:R>100 & G>100 & B>100的过程,则在RGB2横向坐标x位置处暂定出现了字母A,字母A左侧边界横坐标L为x+左边界补偿距离l(
‑
8),字母A右侧边界横坐标R为x+右边界补偿距离r(22);
③ꢀ
若出现了RGB颜色码从RGB1:R>100 & G>100 & B>100变化到RGB2:R<100 & G<1...
【专利技术属性】
技术研发人员:陈文拴,郭惠民,张盼,陆文俊,
申请(专利权)人:浙江迪谱诊断技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。