基于对照组的半监督SNP分型方法、装置和电子设备制造方法及图纸

技术编号:32975606 阅读:16 留言:0更新日期:2022-04-09 11:52
本发明专利技术提供了一种基于对照组的半监督SNP分型方法、装置和电子设备,涉及基因分型的技术领域,该方法包括:基于预先采集的样本数据,确定类别中心;样本数据包括对照组样本和待测样本;根据类别中心,对样本数据进行自适应聚类分析,生成聚类结果;根据SNP的基因型特点对聚类结果进行分类,确定待测样本的SNP分型。通过该方法缓解了由于基因型簇分布不规则,导致分型效果不好的技术问题,达到了提高分型准确性且易于实现的技术效果。性且易于实现的技术效果。性且易于实现的技术效果。

【技术实现步骤摘要】
基于对照组的半监督SNP分型方法、装置和电子设备


[0001]本专利技术涉及基因分型
,尤其是涉及一种基于对照组的半监督SNP分型方法、装置和电子设备。

技术介绍

[0002]单核苷酸多态性(single nucleotide polymorphism,SNP)主要是指在基因组水平上由单个核苷酸的变异所引起的DNA序列多态性。它是人类可遗传的变异中最常见的一种,占所有已知多态性的90%以上。SNP在人类基因组中广泛存在,目前已经形成直接测序法、扩增曲线法、高分辨率熔解曲线分析(High Resolution Melting,HRM)等多种分型检测技术。其中,扩增曲线法凭借其操作简单、速度快、通量大、结果容易判读等优点被广泛应用。
[0003]扩增曲线法通常采集各样本针对各等位基因扩增终了的荧光强度数据,然后以此为基础进行研究(也被称为“终点法”)。这其中用的较多的分析方法是聚类分析,但通过实验发现,簇分布的不规则程度对聚类结果的影响较大,如果簇分布很不规则,则聚类效果通常不会太好,此时,要取得良好的聚类效果,需要较多的已标签数据,且簇分布越不规则,就需要越多的已标签数据。
[0004]也就是说,现有的SNP基因分型技术中,存在由于基因型簇分布不规则,导致分型效果不好的技术问题。

技术实现思路

[0005]本专利技术的目的在于提供一种基于对照组的半监督SNP分型方法、装置和电子设备,以缓解现有技术中存在的由于基因型簇分布不规则,导致分型效果不好的技术问题。
[0006]第一方面,本专利技术实施例提供了一种基于对照组的半监督SNP分型方法,包括:
[0007]基于预先采集的样本数据,确定类别中心;样本数据包括对照组样本和待测样本;
[0008]根据类别中心,对样本数据进行自适应聚类分析,生成聚类结果;
[0009]根据SNP的基因型特点对聚类结果进行分类,确定待测样本的基因型。
[0010]在一些可能的实施方式中,基于预先采集的样本数据,确定类别中心的步骤之前,方法还包括:
[0011]采集针对SNP位点的各通道终点荧光强度数据;
[0012]对终点荧光强度数据进行预处理,生成样本数据。
[0013]在一些可能的实施方式中,基于预先采集的样本数据,确定类别中心的步骤,包括:
[0014]基于预先采集的样本数据,确定对照组样本的已知类别;对照组样本的已知类别包括:空白样本、纯合子、杂合子;
[0015]根据对照组样本的已知类别,确定第一类别中心。
[0016]在一些可能的实施方式中,基于预先采集的样本数据,确定类别中心的步骤,还包
括:
[0017]基于预先采集的样本数据和预先确定的总类别数,确定未知类别数目;
[0018]基于最小距离最大原则,确定未知类别的第二类别中心。
[0019]在一些可能的实施方式中,根据类别中心,对样本数据进行自适应聚类分析,生成聚类结果的步骤,包括:
[0020]根据第一类别中心和第二类别中心,结合预先确定的设定模式,对样本数据进行自适应聚类分析,生成最优聚类结果。
[0021]在一些可能的实施方式中,设定模式包括允许变更和不允许变更;
[0022]当对照组的设定模式为允许变更时,则对照组中的各样本所属类别在进行聚类时允许变更;当对照组的设定模式为不允许变更时,则对照组中的各样本所属类别在进行聚类时不允许变更。
[0023]第二方面,本专利技术实施例提供了一种基于对照组的半监督SNP分型装置,包括:
[0024]类别中心确定模块,用于基于预先采集的样本数据,确定对照组样本的类别中心;样本数据包括对照组样本和待测样本;
[0025]聚类分析模块,用于根据类别中心,对样本数据进行自适应聚类分析,生成聚类结果;
[0026]分类模块,用于根据SNP的基因型特点对聚类结果进行分类,确定待测样本的基因型。
[0027]在一些可能的实施方式中,还包括:采集模块,用于采集针对SNP位点的各通道终点荧光强度数据;对终点荧光强度数据进行预处理,生成样本数据。
[0028]第三方面,本专利技术实施例提供了一种电子设备,包括存储器、处理器,所述存储器中存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面任一项所述的方法的步骤。
[0029]第四方面,本专利技术实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有机器可运行指令,所述计算机可运行指令在被处理器调用和运行时,所述计算机可运行指令促使所述处理器运行上述第一方面任一项所述的方法。
[0030]本专利技术提供了一种基于对照组的半监督SNP分型方法、装置和电子设备,该方法包括:基于预先采集的样本数据,确定类别中心;样本数据包括对照组样本和待测样本;根据类别中心,对样本数据进行自适应聚类分析,生成聚类结果;根据SNP的基因型特点对聚类结果进行分类,确定待测样本的SNP分型。通过该方法缓解了由于基因型簇分布不规则,导致分型效果不好的技术问题,达到了提高分型准确性且易于实现的技术效果。
附图说明
[0031]为了更清楚地说明本专利技术具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0032]图1为本专利技术实施例提供的一种基于对照组的半监督SNP分型方法的流程示意图;
[0033]图2为本专利技术实施例提供的一种基于对照组的半监督SNP分型方法的分型结果示
意图;
[0034]图3为本专利技术实施例提供的一种基于对照组的半监督SNP分型装置的结构示意图;
[0035]图4为本专利技术实施例提供的一种电子设备的结构示意图。
具体实施方式
[0036]为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本专利技术实施例的组件可以以各种不同的配置来布置和设计。
[0037]因此,以下对在附图中提供的本专利技术的实施例的详细描述并非旨在限制要求保护的本专利技术的范围,而是仅仅表示本专利技术的选定实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0038]应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。下面结合附图,对本专利技术的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
[0039]SNP即单核苷酸多态性,目前已经形成直接测序法、扩本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于对照组的半监督SNP分型方法,其特征在于,包括:基于预先采集的样本数据,确定类别中心;所述样本数据包括对照组样本和待测样本;根据所述类别中心,对所述样本数据进行自适应聚类分析,生成聚类结果;根据SNP的基因型特点对所述聚类结果进行分类,确定所述待测样本的基因型。2.根据权利要求1所述的方法,其特征在于,基于预先采集的样本数据,确定类别中心的步骤之前,所述方法还包括:采集针对SNP位点的各通道终点荧光强度数据;对所述终点荧光强度数据进行预处理,生成样本数据。3.根据权利要求1所述的方法,其特征在于,基于预先采集的样本数据,确定类别中心的步骤,包括:基于预先采集的样本数据,确定对照组样本的已知类别;所述对照组样本的已知类别包括:空白样本、纯合子、杂合子;根据所述对照组样本的已知类别,确定第一类别中心。4.根据权利要求3所述的方法,其特征在于,基于预先采集的样本数据,确定类别中心的步骤,还包括:基于预先采集的样本数据和预先确定的总类别数,确定未知类别数目;基于最小距离最大原则,确定未知类别的第二类别中心。5.根据权利要求4所述的方法,其特征在于,根据所述类别中心,对所述样本数据进行自适应聚类分析,生成聚类结果的步骤,包括:根据所述第一类别中心和所述第二类别中心,结合预先确定的设定模式,对所述样本数据进行自适应聚类分析,生成最优聚类...

【专利技术属性】
技术研发人员:杨智李冬余海贺贤汉
申请(专利权)人:杭州博日科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1