一种基于小样本SNPs线性拟合的测序样本同源性检测方法及系统技术方案

技术编号:36512698 阅读:14 留言:0更新日期:2023-02-01 15:42
本发明专利技术公开了一种基于小样本SNPs线性拟合的测序样本同源性检测方法及系统,属于测序样本检测技术领域。方法包括:获取多个基因文件;根据预定过滤筛选条件分别对多个基因文件中的SNPs进行过滤筛选,获得过滤筛选后SNPs;计算每个过滤筛选后SNPs的突变等位基因频率;基于任意两个样本的突变等位基因频率进行线性拟合并计算第一、第二以及第三线性拟合参数;基于第一、第二及第三线性拟合参数确定测序样本是否同源。还公开了对应的系统,只需两个样本使用相同的测序方法或两样本之间存在大量重叠SNPs,可直接使用NGS标准分析流程产生的VCF文件,根据不同文件自动获取动态SNPs,结合参数评估解决样本同源性分析。结合参数评估解决样本同源性分析。结合参数评估解决样本同源性分析。

【技术实现步骤摘要】
一种基于小样本SNPs线性拟合的测序样本同源性检测方法及系统


[0001]本专利技术涉及测序样本检测
,尤其涉及一种基于小样本SNPs线性拟合的测序样本同源性检测方法及系统。

技术介绍

[0002]常见的高通量测序又称下一代测序技术NGS(Next

generation sequencing technology)数据样本同源性检测方法有以下两种:第一种检测方法是通过比较不同样本特定STR(short tandem repeat,短片段重复序列)的重复数判定样本同源性;根据特定STR的重复数判定两个样本的同源关系具体方法是:计算两个样本数据中多个STR串联重复的次数,重复次数相同表明两个样本来源于同一个个体。该方法存在以下几个缺点:成本高昂,效率欠佳。常见的商业试剂盒捕获区间不包含所有已知的稳定STR区域,计算STR重复数时不仅需要单独设计方案,而且增加设计成本;NGS测序数据的批次和质量问题,导致STR区域未检测到,导致结果出现偏差,影响判断;STR重复数计算分析独立于NGS分析标准流程,每次都需要单独分析,增加分析周期;NGS数据在连续重复区域和高GC含量(鸟嘌呤和胞嘧啶所占的比率)区域容易出现误差,存在于这些区域的STR,会导致结果不准。
[0003]第二种检测方法是通过计算不同样本特定单核苷酸多态性(single nucleotide polymorphisms,SNPs)突变频率的相关性判定样本同源性。根据特定SNPs突变频率相关性判定两个样本的同源关系具体方法是:分别计算两个样本中特定SNPs的突变频率,再计算SNPs突变频率之间的相关性,相关性越强,表明样本之间的同源性越高。该方法存在以下几个缺点:使用的SNPs指定,测序的panel不一定全部覆盖这些SNPs,计算结果不准确;使用范围局限,仅在固定的panel上准确。

技术实现思路

[0004]为了解决现有技术中存在的问题,本专利技术提供了如下技术方案,一种基于小样本SNPs线性拟合的测序样本同源性检测方法及系统,该方法只需要两个样本使用相同的测序方法或两个样本之间存在大量重叠SNPs,就可直接使用NGS标准分析流程产生的VCF(Variant Call Format)文件,根据不同文件自动获取动态SNPs,结合参数评估解决样本同源性分析。
[0005]本专利技术一方面提供了一种基于小样本SNPs线性拟合的测序样本同源性检测方法,包括:S1,获取多个基因文件,所述多个基因文件为VCF格式,所述多个基因文件对应多个样本;S2,根据预定过滤筛选条件分别对多个基因文件中的SNPs进行过滤筛选,获得过滤筛选后SNPs;
S3,计算每个过滤筛选后SNPs的突变等位基因频率(Variant allele frequency,VAF);S4,基于任意两个样本的突变等位基因频率进行线性拟合并计算第一线性拟合参数、第二线性拟合参数以及第三线性拟合参数;S5,基于所述第一线性拟合参数、第二线性拟合参数以及第三线性拟合参数确定所述测序样本是否同源。
[0006]优选的,所述S2中所述预定过滤筛选条件包括:第一条件、第二条件、第三条件和第四条件中的一个或多个,其中所述第一条件为删除测序总深度小于10X的SNPs;所述第二条件为删除性染色体突变的SNPs;所述第三条件为保留杂合突变的SNPs;所述第四条件为保留支持reads数大于5条的SNPs。
[0007]优选的,所述S4中所述第一线性拟合参数为样本的C

index(concordance index,一致性指数);所述第二线性拟合参数为拟合方程的斜率;第三线性拟合参数为逐次拟合的次数。
[0008]优选的,所述S5包括:基于所述样本的C

index值大于或等于0.7,拟合方程的斜率在[0.9,1.1]之间;若逐次拟合停止时总的拟合次数小于4次认为两个样本同源;若进行完第四次拟合后停止拟合,两个样本不是样本同源。
[0009]优选的,还包括计算第四线性拟合参数,所述第四线性拟合参数为拟合方程的线性拟合度R2,所述S5包括:基于所述样本的C

index值大于或等于0.7,拟合方程的斜率在[0.9,1.1]之间;若逐次拟合停止时总的拟合次数小于4次以及所述拟合方程的线性拟合度R2>0.9,认为两个样本同源。
[0010]优选的,还包括基于任意两个样本的突变等位基因频率进行线性拟合前,计算第一判断参数和第二判断参数,所述第一判断参数为未拟合样本的C

index,所述第二判断参数为任意两个样本转换与颠换比的差;若满足所述未拟合样本的C

index≥0.7就进行线性拟合,不满足所述未拟合样本的C

index ≥0.7就不进行线性拟合;以及任意两个样本转换与颠换比的差在小于0.1就进行线性拟合,否则就不进行线性拟合。
[0011]优选的,所述第一判断参数的计算步骤包括:确定有用对子数,包括:若有n个观察个体,则所有的对子数应为C
n2
(组合数),基于排除准则排除两类对子,其中所述排除准则排除所有的对子中观察时间不足导致的没有达到观察终点的对子以及所有的对子中两个个体都没达到观察终点的对子;从而获得剩余的为有用对子;计算所述有用对子的数量为有用对子数;确定有用对子中,预测结果和实际观察到的结果相一致的对子数;其中所述预测结果和实际观察到的结果相一致表示对应个体的实际观察时间大于第一阈值,所述预测结果和实际观察到的结果不一致表示对应的观察个体的实际观察时间小于第一阈值;计算样本的C

index,其中样本的C

index等于预测结果和实际观察到的结果相一致的对子数与有用对子数的商;所述多个基因文件作为多个样本,所述第二判断参数的计算步骤包括:分别计算多个样本的多个转换与颠换比;计算任意两个转换与颠换比之间的差值作为第二判断参数。
[0012]本专利技术的第二方面,提供一种基于小样本SNPs线性拟合的测序样本同源性检测系
统,包括:样本获取模块,用于获取多个基因文件,所述多个基因文件为VCF格式,所述多个基因文件对应多个样本;过滤筛选模块,用于根据预定过滤筛选条件分别对多个基因文件中的SNPs进行过滤筛选,获得过滤筛选后SNPs;计算模块,用于计算每个过滤筛选后SNPs的突变等位基因频率VAF;线性拟合模块,用于基于任意两个样本的突变等位基因频率进行线性拟合并计算第一线性拟合参数、第二线性拟合参数以及第三线性拟合参数;同源判定模块,用于基于所述第一线性拟合参数、第二线性拟合参数以及第三线性拟合参数确定所述测序样本是否同源。
[0013]本专利技术的第三方面提供一种电子设备,包括处理器和存储器,所述存储器存储有多条指令,所述处理器用于读取所述指令并执行如第一方面所述的方法。
[0014]本专利技术的第四方面提供一种计算机可读存储介质,所述计算机可读存储介质存储有多条指令本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于小样本SNPs线性拟合的测序样本同源性检测方法,其特征在于,包括:S1,获取多个基因文件,所述多个基因文件为VCF格式,所述多个基因文件对应多个样本;S2,根据预定过滤筛选条件分别对多个基因文件中的SNPs进行过滤筛选,获得过滤筛选后SNPs;S3,计算每个过滤筛选后SNPs的突变等位基因频率;S4,基于任意两个样本的突变等位基因频率进行线性拟合并计算第一线性拟合参数、第二线性拟合参数以及第三线性拟合参数;S5,基于所述第一线性拟合参数、第二线性拟合参数以及第三线性拟合参数确定所述测序样本是否同源。2.根据权利要求1所述的一种基于小样本SNPs线性拟合的测序样本同源性检测方法,其特征在于,所述S2中所述预定过滤筛选条件包括:第一条件、第二条件、第三条件和第四条件中的一个或多个,其中所述第一条件为删除测序总深度小于10X的SNPs;所述第二条件为删除性染色体突变的SNPs;所述第三条件为保留杂合突变的SNPs;所述第四条件为保留支持reads数大于5条的SNPs。3.根据权利要求2所述的一种基于小样本SNPs线性拟合的测序样本同源性检测方法,其特征在于,所述S4中所述第一线性拟合参数为样本的C

index;所述第二线性拟合参数为拟合方程的斜率;第三线性拟合参数为逐次拟合的次数。4.根据权利要求3所述的一种基于小样本SNPs线性拟合的测序样本同源性检测方法,其特征在于,所述S5包括:基于所述样本的C

index值大于或等于0.7,拟合方程的斜率在[0.9,1.1]之间;若逐次拟合停止时总的拟合次数小于4次认为两个样本同源;若进行完第四次拟合后停止拟合,两个样本不是样本同源。5.根据权利要求4所述的一种基于小样本SNPs线性拟合的测序样本同源性检测方法,其特征在于,还包括计算第四线性拟合参数,所述第四线性拟合参数为拟合方程的线性拟合度R2,所述S5包括:基于所述样本的C

index值大于或等于0.7,拟合方程的斜率在[0.9,1.1]之间;若逐次拟合停止时总的拟合次数小于4次以及所述拟合方程的线性拟合度R2>0.9,认为两个样本同源。6.根据权利要求5所述的一种基于小样本SNPs线性拟合的测序样本同源性检测方法,其特征在于,还包括基于任意两个样本的突变等位基因频率进行线性拟合前,计算第一判断参数和第二判断参数,所述第一判断参数为未拟合样本的C

index,所述第二判断参数为任意两个样本转换与颠换比的差;若满足所述未拟合样本的C
‑<...

【专利技术属性】
技术研发人员:朱燕萍谢剑邦郑晖林健曹野
申请(专利权)人:南京普恩瑞生物科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1