【技术实现步骤摘要】
【国外来华专利技术】检测装置和方法相关申请本申请要求2017年10月17日提交的第62/573,475号美国临时申请的权益,所述临时申请的全部内容通过引用合并于此。
技术介绍
拷贝数变异(CNV)已成为重要的遗传变异类型,并经常被纳入例如人类遗传性状的遗传分析中。尤其是某些基因组区域的CNV,已知与从药物代谢速率到器官移植结果的各种表型有关。例如,多种药物的代谢途径取决于单个生物体(例如真核生物体和原核生物体,以及动物、植物和微生物)具有多少特定基因的功能性拷贝。当给予标准剂量时,具有不同数目的基因功能性拷贝的单个生物体可能具有截然不同的药物代谢速率,从而导致严重的医学并发症。这就是为什么在基于微阵列基因分型数据进行的全基因组关联研究(GWAS)中经常调查预定义区域中的CNV的原因。但是,仍然难以实现有效、准确和高通量确定具有微阵列数据的拷贝数状态。
技术实现思路
在一个方面,提供了一种用于对拷贝数变异进行基因分型的方法。所述方法可以包括:将基于密度的聚类应用于数据图,以从高斯分量生成多个候选模型;从所述多个候选模型中选择最佳拟合模型,所 ...
【技术保护点】
1.一种用于对拷贝数变异进行基因分型的方法,其包括:/n将基于密度的聚类应用于数据图,以从高斯分量生成多个候选模型;/n从所述多个候选模型中选择最佳拟合模型,所述选择所述最佳拟合模型包括:/n将来自所述多个候选模型中的模型以及评分函数应用于所述分量,以生成分量评分;/n选择板效应值;/n基于所述分量评分为每个分量选择分量标签;/n利用所述板效应值作为每一个所述分量的点估计,并计算所述分量的估计统计参数的概率;/n评估所述模型针对概率公差的拟合度;/n如果所述模型不在所述概率公差内,则评估下一个模型;以及/n如果所述多个候选模型中没有一个满足所述概率公差,则对参数应用具有最高 ...
【技术特征摘要】
【国外来华专利技术】20171017 US 62/573,4751.一种用于对拷贝数变异进行基因分型的方法,其包括:
将基于密度的聚类应用于数据图,以从高斯分量生成多个候选模型;
从所述多个候选模型中选择最佳拟合模型,所述选择所述最佳拟合模型包括:
将来自所述多个候选模型中的模型以及评分函数应用于所述分量,以生成分量评分;
选择板效应值;
基于所述分量评分为每个分量选择分量标签;
利用所述板效应值作为每一个所述分量的点估计,并计算所述分量的估计统计参数的概率;
评估所述模型针对概率公差的拟合度;
如果所述模型不在所述概率公差内,则评估下一个模型;以及
如果所述多个候选模型中没有一个满足所述概率公差,则对参数应用具有最高中值概率的模型;
用历史分量数据配置归一化器,以调整所述分量中的每一个的均值和标准偏差,以生成调整后的混合组合;
用所述调整后的混合组合配置分类器,以对未知样本进行分类,所述配置所述分类器包括:
基于所述调整后的混合组合对分量密度进行加权;以及
将所述未知样本与最可能分量进行比较;以及
如果在样本位置评估的所述最可能分量的密度与第二最可能分量的密度之比高于某个临界值,并且在所述样本位置评估的所述最可能分量的绝对密度高于密度临界值,则为所述未知样本分配具有最高概率的分量标签。
2.根据权利要求1所述的方法,其中所述评分函数被构建为先验密度乘以混合组合分量、板效应,和所述分量的权重的均值的乘积。
3.根据权利要求1到2中任一项所述的方法,其中所述概率公差还包括所述概率的中值大于0.1且不存在单个概率小于0.001。
4.根据权利要求1到3中任一项所述的方法,其中所述多个候选模型按复杂度降序排列。
5.根据权利要求1到4中任一项所述的方法,其中所述数据图包括具有表示密度和中值log2比的轴的图。
6.根据权利要求1到5中任一项所述的方法,其中所述中值log2比值包括在基因组区域的多个测量值中强度数据与参考值的log2比的中值。
7.根据权利要求6所述的方法,其中所述强度数据包含来自微阵列的荧光强度测量。
8.根据权利要求7所述的方法,其中所述微阵列包含被配置为与基因组或转录组中存在的至少10,000个不同靶序列杂交的核酸探针。
9.根据权利要求7所述的方法,其中所述微阵列包含被配置为与基因组或转录组中存在的至少20,000个不同靶序列杂交的核酸探针。
10.根据权利要求7所述的方法,其中所述微阵列包含被配置为与基因组或转录组中存在的至少10,000个不同靶外显子衍生的序列杂交的核酸探针。
11.根据权利要求1到10中任一项所述的方法,其中所述数据图包括具有表示密度和中心趋势的任何测量的轴的图。
12.根据权利要求1到11中任一项所述的方法,其中将基于密度的聚类应用于所述数据图还包括:
根据所述数据图生成核密度估计;
基于密度局部最小值将所述数据图划分为多个区域;
计算每个区域的点的均值和标准偏差;
如果观察次数低于第一阈值,则将与另一个区域的第一指定距离值内的值合并;
从任何其它区域中除去所述第一指定距离值之外的区域;
计算每个区域中的数据点的均值、标准偏差和比例;并且
生成多个简化的候选模型,包括:
合并与另一个区域的第二指定距离值内的值;
如果观察次数低于阈值,则从任何其它区域中除去所述第二指定距离值之外的值;以及
计算所述数据点的均值、标准偏差和比例。
13.根据权利要求1到12中任一项所述的方法,其中统计参数还包括所述分量的所述均值、标准偏差和板效应。
14.根据权利要求1到13中任一项所述的方法,其中所述历史分量数据可以是通用的或特定于所讨论的拷贝数区域的。
15.一种用于对拷贝数变异进行基因分...
【专利技术属性】
技术研发人员:O·卡姆尼瓦,J·库拉布,R·瓦尔马,
申请(专利权)人:阿费梅特里克斯公司,
类型:发明
国别省市:美国;US
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。