【技术实现步骤摘要】
数据关联分析方法、装置、电子设备及存储介质
本申请涉及数据处理
,尤其涉及一种数据关联分析方法、装置、电子设备及存储介质。
技术介绍
SNP位点(SingleNucleotidePolymorphism,单核苷酸多态性)的关联分析是研究复杂疾病和基因之间联系的重要方法,SNP位点主要是指单个核苷酸的突变而引起DNA序列改变,从而导致物种染色体基因组多样性且有可能表现出不同的疾病症状。现寻找与目标性状相关的SNP位点的方法有两种,一种是通过生物实验方法,但对于一些目标性状,其遗传因素的相关研究并不多,已知的遗传位点可能只是其中的一少部分;另外一种是通过全基因组关联分析方法进行确定,传统的全基因组关联分析方法主要采用多元线性回归的方法结合T检验寻找相关的SNP位点,传统的多元线性回归方法面临样本量少、SNP特征特殊的相关性等问题,寻找到的SNP位点并不多。
技术实现思路
本申请提供一种数据关联分析方法、装置、电子设备及存储介质,以实现SNP位点关联分析准确率更高、效率更高的技术效果。本申请提供一 ...
【技术保护点】
1.一种数据关联分析方法,其特征在于,包括:/n确定每一SNP位点相对于目标性状的p值,所述p值用于表征对应SNP位点与所述目标性状之间的相关程度;/n基于预设p值阈值以及每一SNP位点相对于目标性状的p值,确定与目标性状相关的至少两个SNP位点。/n
【技术特征摘要】
1.一种数据关联分析方法,其特征在于,包括:
确定每一SNP位点相对于目标性状的p值,所述p值用于表征对应SNP位点与所述目标性状之间的相关程度;
基于预设p值阈值以及每一SNP位点相对于目标性状的p值,确定与目标性状相关的至少两个SNP位点。
2.根据权利要求1所述的数据关联分析方法,其特征在于,所述预设p值阈值是基于如下方法确定的:
确定至少两个候选p值阈值,以及每一候选p值阈值对应的SNP位点集;
计算每一候选p值阈值对应的SNP位点集下的样本集的多基因风险评分准确度;
将多基因风险评分准确度最高的SNP位点集对应的候选p值阈值作为所述预设p值阈值。
3.根据权利要求2所述的数据关联分析方法,其特征在于,所述计算每一候选p值阈值对应的SNP位点集下的样本集的多基因风险评分准确度,包括对每一候选p值阈值对应SNP位点集下的样本集执行以下操作:
计算候选p值阈值对应的SNP位点集下的样本集中每一样本子集的多基因风险评分准确度,所述样本子集是对所述样本集划分得到的;
基于所述候选p值阈值对应的SNP位点集下的样本集中每一样本子集的多基因风险评分准确度,确定所述候选p值阈值对应的SNP位点集下的样本集的多基因风险评分准确度。
4.根据权利要求2所述的数据关联分析方法,其特征在于,所述计算每一候选p值阈值对应的SNP位点集下的样本集的多基因风险评分准确度,包括:
将每一候选p值阈值对应的SNP位点集下的样本集中所有样本的多基因风险评分准确度的平均值作为样本集的多基因风险评分准确度;
或,将每一候选p值阈值对应的SNP位点集下的样本集中所有样本的多基因风险评分准确度的最大值和最小值去掉之后的平均值作为样本集的多基因风险评分准确度;
或,将每一候选p值阈值对应的SNP位点集下的样本集中所有样本的多基因风险评分准确度的中位数作为样本集的多基因风险评分准确度。
5.根据权利要求3所述的数据关联分析方法,其特征在于,所述计算候选p值阈值对应的SNP位点集下的样本集中每一样本子集的多基因风险评分准确度,包括:
将样本子集作为测试子集,并将除所述测试子集以外的样本子集作为训练子集;
基于所述训练子集,确定多基因风险评分计算模型;
基于所述多基因风险评分计算模型,计算所述测试子集中每一样本的多基因风险评分;
基于所述测试子集中每一样本的多基因风险评分与对应样本的真实病情之间的相似度,确定所述测试子集的多基因风险评分准确度。
6.根据权利要求1-5任一项所述的数据关联分析方法,其特征在于,所述确定每一SNP位点相对于目标性状的p值,包括对每一SNP位点进行处理:
基于SNP位点在目标样本集中每一目标样本中的基因型与对应目标样本的性状特征,确定所述SNP位点的回归系数;
对所述SNP位点的回归系数进行置换检验,得到所述SNP位点相对于所述目标性状的p值。
7.根据权利要求6所述的数据关联分析方法,其特征在于,所述基于SNP位点在目标样本集中每一目标样本中的基因型与对应目标样本的性状特征,确定所述SNP位点的回归系数,包括:
建立所述SNP位点在所述目标样本中的基因型与所述目标样本的性状特征的回归方程;
基于所述SNP位点在各个目标样本中的基因型与对应目标样本的性状特征的至少两个回归方程,采用偏最小二乘回归方法,计算所述SNP位点的回归系数。
8.根据权利要求6所述的数据关联分析方法,其特征在于,所述对所述SNP位点的回归系数进行置换检验,得到所述SNP位点相对于所述目标性状的p值,包括:
对所述SNP位点在各个目标样本的基因型与各个目标样本的性状特征之间的对应关系进行随机置换,并基于置换后的对应关系,计算所述SNP位点的检验回归系数;
基于预设数量次随机置换得到的所述预设数量个检验回归系数的分布,确定所述SNP位点相对于所述目标性状的p值。
9.一种数据关联分析装置,其特征在于,包括:
数据确定单元,用于确定每一SNP位点相对于目标性状的p值,所述p值用于表征对应SNP位点与所述目标性状之间的相关程度;
关联分析单元,用于基于预设p值阈值以及每一SNP位点相对于目标性状的p值,确定与目标性状相关的至少两...
【专利技术属性】
技术研发人员:陈海波,李丹,
申请(专利权)人:深兰科技上海有限公司,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。