一种基于逻辑回归建模的样本同源性检测校验方法及系统技术方案

技术编号:37248912 阅读:15 留言:0更新日期:2023-04-20 23:27
本发明专利技术公开了一种基于逻辑回归建模的样本同源性检测校验方法及系统,方法包括:获取两个VCF格式的基因文件;根据预定过滤筛选条件分别对两个基因文件中的SNPs进行过滤筛选,获得过滤筛选后的SNPs;计算两个样本的第一关联参数;计算两个基因文件的转换与颠换比和拟合前一致性指数;计算过滤筛选后的SNPs的突变频率;并基于满足第一条件确定对多个过滤筛选后的SNPs的突变频率进行线性拟合后确定多个计算参数,包括样本间突变稳定系数、拟合后一致性指数、拟合斜率、拟合方程的决定系数R2、拟合后皮尔森系数、拟合迭代数、组内相关系数及人群snp库占比;基于多个计算参数进行逻辑回归建模;基于逻辑回归建模预测样本是否同源。基于逻辑回归建模预测样本是否同源。基于逻辑回归建模预测样本是否同源。

【技术实现步骤摘要】
一种基于逻辑回归建模的样本同源性检测校验方法及系统


[0001]本专利技术涉及测序样本检测
,尤其涉及一种基于逻辑回归建模的样本同源性检测校验方法及系统。

技术介绍

[0002]常见的下一代测序技术NGS(Next

generation sequencing technology)数据样本同源性检测方法有以下两种:
[0003]第一种检测方法是通过比较不同样本特定STR(short tandem repeat)的重复数判定样本同源性;根据特定STR的重复数判定两个样本的同源关系具体方法是:计算两个样本数据中多个STR串联重复的次数,重复次数相同表明两个样本来源于同一个个体。该方法存在以下几个缺点:成本高昂,效率欠佳。常见的商业试剂盒捕获区间不包含所有已知的稳定STR区域,计算STR重复数时不仅需要单独设计方案,增加设计成本;NGS测序数据的批次和质量问题,导致STR区域未检测到,导致结果出现偏差,影响判断;STR重复数计算分析独立于NGS分析标准流程,每次都需要单独分析,增加分析周期;NGS数据在连续重复区域和高GC(鸟嘌呤和胞嘧啶所占的比率)含量区域容易出现误差,存在于这些区域的STR,会导致结果不准。
[0004]第二种检测方法是通过计算不同样本特定SNPs(single nucleotide polymorphisms,单核苷酸多态性)突变频率的相关性判定样本同源性。根据特定SNPs突变频率相关性判定两个样本的同源关系具体方法是:分别计算两个样本中特定SNPs的突变频率,再计算SNPs突变频率之间的相关性,相关性越强,表明样本之间的同源性越高。该方法存在以下几个缺点:使用的SNPs指定,测序的panel不一定全部覆盖这些SNPs,计算结果不准确;使用范围局限,仅在固定的panel上准确。

技术实现思路

[0005]为了解决现有技术中存在的问题,本专利技术提供了如下技术方案,一种基于逻辑回归建模的样本同源性检测校验方法及系统,该方法只需要两个样本使用相同的测序方法或两个样本之间存在大量重叠SNPs,就可直接使用NGS标准分析流程产生的VCF(Variant Call Format)文件,根据不同文件自动获取动态SNPs信息,结合参数评估和逻辑回归建模就可以确定样本同源性分析结果。
[0006]本专利技术一方面提供了一种基于逻辑回归建模的样本同源性检测校验方法,其特征在于,包括:
[0007]S1,获取两个基因文件,所述两个基因文件为VCF格式;
[0008]S2,根据预定过滤筛选条件分别对两个基因文件中的SNPs进行过滤筛选,获得过滤筛选后的SNPs;
[0009]S3,基于过滤筛选后的SNPs计算两个基因文件对应样本的第一参数和第二参数,所述第一参数为转换与颠换比,所述第二参数为拟合前一致性指数primary c

index;
[0010]S4,计算过滤筛选后的SNPs的突变频率;并基于转换与颠换比和拟合前一致性指数primary c

index满足第一条件确定对多个过滤筛选后的SNPs的突变频率进行线性拟合,所述线性拟合后确定多个计算参数;所述多个计算参数包括第三参数、第四参数、第五参数、第六参数、第七参数、第八参数、第九参数以及第十参数;所述第三参数为样本间突变稳定系数Mut_c、所述第四参数为拟合后一致性指数fitting c

index,所述第五参数为拟合斜率fitting_slope,所述第六参数为拟合方程的决定系数R2,所述第七参数为拟合后皮尔森系数fitting_pearson,所述第八参数为拟合迭代数iterations,所述第九参数为组内相关系数fitting_ICC,所述第十参数为人群snp库占比common_snps_percentage;
[0011]S5,基于所述多个计算参数进行逻辑回归建模;
[0012]S6,基于逻辑回归建模预测所述样本是否同源。
[0013]优选的,所述S2中所述预定过滤筛选条件包括:第一条件、第二条件、第三条件和第四条件中的一个或多个,其中所述第一条件为删除测序总深度小于10X的SNPs;所述第二条件为删除性染色体突变的SNPs;所述第三条件为保留杂合突变的SNPs;所述第四条件为保留支持reads数大于4条的SNPs。
[0014]优选的,所述S3中所述转换与颠换比的计算步骤包括:
[0015]分别计算两个样本的两个转换与颠换比;
[0016]所述S3中所述拟合前一致性指数(primary c

index)的计算步骤包括:
[0017]确定有用对子数,包括:若有n个观察个体,则所有的对子数应为组合数C
n2
,基于排除准则排除两类对子,其中所述排除准则排除所有的对子中观察时间不足导致的没有达到观察终点的对子、以及所有的对子中两个个体都没达到观察终点的对子;从而获得剩余的有用对子;计算所述有用对子的数量为有用对子数;
[0018]确定有用对子中,预测结果和实际观察到的结果相一致的对子数;其中所述预测结果和实际观察到的结果相一致表示对应个体的实际观察时间大于第一阈值,所述预测结果和实际观察到的结果不一致表示对应的观察个体的实际观察时间小于第一阈值;
[0019]计算所述拟合前一致性指数等于预测结果和实际观察到的结果相一致的对子数与有用对子数的商。
[0020]优选的,所述基于转换与颠换比和拟合前一致性指数(primary c

index)满足第一条件确定对多个过滤筛选后的SNPs的突变频率进行线性拟合包括:若满足所述转换与颠换比值差的绝对值小于0.1则进行线性拟合,否则不进行线性拟合;以及满足所述拟合前一致性指数primary c

index≥0.7则进行线性拟合,否则不进行线性拟合。
[0021]所述对多个过滤筛选后的SNPs的突变频率进行线性拟合包括:
[0022]S41,对于两个基因文件作为第一样本和第二样本,提取两个样本的数据并统计SNPs的突变频率,如果一样本存在某一SNP,而在另一样本不存在某一SNP,则所述某一SNP的突变频率记为0;
[0023]S42,选定某一SNP,在两个样本中分别记录该SNP的突变频率为x、y,利用最小二乘法进行线性拟合,拟合后获得所述拟合斜率fitting_slope、拟合方程的决定系数R2以及拟合后皮尔森系数fitting_pearson;当拟合斜率fitting_slope在[0.9,1.1]之间、拟合方程的决定系数R2>0.9,且同一个SNPs的突变频率在两个样本中的拟合后皮尔森系数fitting_pearson>0.9时,拟合成功,否则拟合失败;
[0024]S43,若确定拟合成功后,输出此时的SNPs,计算样本间突变稳定系数Mut_c、拟合后一致性指数fitting c

本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于逻辑回归建模的样本同源性检测校验方法,其特征在于,包括:S1,获取两个基因文件,所述两个基因文件为VCF格式;S2,根据预定过滤筛选条件分别对两个基因文件中的SNPs进行过滤筛选,获得过滤筛选后的SNPs;S3,基于过滤筛选后的SNPs计算两个基因文件对应样本的第一参数和第二参数,所述第一参数为转换与颠换比,所述第二参数为拟合前一致性指数primary c

index;S4,计算过滤筛选后的SNPs的突变频率;并基于转换与颠换比和拟合前一致性指数primary c

index满足第一条件确定对多个过滤筛选后的SNPs的突变频率进行线性拟合,所述线性拟合后确定多个计算参数;所述多个计算参数包括第三参数、第四参数、第五参数、第六参数、第七参数、第八参数、第九参数以及第十参数;所述第三参数为样本间突变稳定系数Mut_c、所述第四参数为拟合后一致性指数fitting c

index,所述第五参数为拟合斜率fitting_slope,所述第六参数为拟合方程的决定系数R2,所述第七参数为拟合后皮尔森系数fitting_pearson,所述第八参数为拟合迭代数iterations,所述第九参数为组内相关系数fitting_ICC,所述第十参数为人群snp库占比common_snps_percentage;S5,基于所述多个计算参数进行逻辑回归建模;S6,基于逻辑回归建模预测样本是否同源。2.根据权利要求1所述的一种基于逻辑回归建模的样本同源性检测校验方法,其特征在于,所述S2中所述预定过滤筛选条件包括:第一条件、第二条件、第三条件和第四条件中的一个或多个,其中所述第一条件为删除测序总深度小于10X的SNPs;所述第二条件为删除性染色体突变的SNPs;所述第三条件为保留杂合突变的SNPs;所述第四条件为保留支持reads数大于4条的SNPs。3.根据权利要求1所述的一种基于逻辑回归建模的样本同源性检测校验方法,其特征在于,所述S3中所述第一参数为转换与颠换比的计算步骤包括:分别计算两个样本的两个转换与颠换比;所述S3中所述拟合前一致性指数primary c

index的计算步骤包括:确定有用对子数,包括:若有n个观察个体,则所有的对子数应为组合数C
n2
,基于排除准则排除两类对子,其中所述排除准则排除所有的对子中观察时间不足导致的没有达到观察终点的对子、以及所有的对子中两个个体都没达到观察终点的对子;从而获得剩余的有用对子;计算所述有用对子的数量为有用对子数;确定有用对子中,预测结果和实际观察到的结果相一致的对子数;其中所述预测结果和实际观察到的结果相一致表示对应个体的实际观察时间大于第一阈值,所述预测结果和实际观察到的结果不一致表示对应的观察个体的实际观察时间小于第一阈值;计算所述拟合前一致性指数等于预测结果和实际观察到的结果相一致的对子数与有用对子数的商。4.根据权利要求1所述的一种基于逻辑回归建模的样本同源性检测校验方法,其特征在于,所述基于转换与颠换比和拟合前一致性指数primary c

index满足第一条件确定对多个过滤筛选后的SNPs的突变频率进行线性拟合包括:若满足所述的绝对值小于0.1则进行线性拟合,否则不进行线性拟合;以及满足所述拟合前一致性指数primary c

index≥0.7则进行线性拟合,否则不进行线性拟合;
所述对多个过滤筛选后的SNPs的突变频率进行线性拟合包括:S41,对于两个基因文件作为第一样本和第二样本,提取两个样本的数据并统计SNPs的突变频率,如果一样本存在某一SNP,而在另一样本不存在某一SNP,则所述某一SNP的突变频率记为0;S42,选定某一SNP,在两个样本中分别记录该SNP的突变频率为x、y,利用最小二乘法进行线性拟合,拟合后获得所述拟合斜率fitting_slope、拟合方程的决定系数R2以及拟合后皮尔森系数fitting_pearson;当拟合斜率fitting_slope在[0.9,1.1]之间、拟合方程的决定系数R2>0.9,且同一个SNPs的突变频率在两个样本中的拟合后皮尔森系数fitting_pearson>0.9时,拟合成功,否则拟合失败;S43,若确定拟合成功后,输出此时的SNPs,计算样本间突变稳定系数Mut_c、拟合后一致性指数fitting c

index、组内相关系数fitting_ICC、拟合迭代数iterations以及人群snp库占比common_snps_percentage;S44,若确定拟合失败后,定义某一样本中某一SNP的突变频率为Fa
n
,则另一样本中同一SNP对应的突变频率为Fb
n
,两个样本对应SNPs的突变频率的差值I=|Fa
n

Fb
n
|;同时给定初始阈值k;当I>k时,删除该SNP后,返回步骤S42和S43;S45,如果继续确定拟合失败,按照第一递减规律降低阈值k,继续步骤S44,直到第一次数阈值,则确定整体拟合失败后将统计量记录为0,并确定所述测序样本不同源。5.根据权利要求4所述的一种基于逻辑回归建模的样本同源性检测校验方法,...

【专利技术属性】
技术研发人员:朱燕萍谢剑邦郑晖林健曹野
申请(专利权)人:南京普恩瑞生物科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1