基于芯片检测DNA数据的性别判断方法技术

技术编号:21660979 阅读:43 留言:0更新日期:2019-07-20 06:12
本发明专利技术公开了一种基于芯片检测DNA数据的性别判断方法,包括以下步骤:选出所有性别相关X和Y染色体上的位点S个,读取P个样本,得到P×S大小矩阵,筛选区分度大的M个位点;对M个位点中的每一个位点,建立逻辑回归模型,自变量为DNA检测红荧光和DNA检测绿荧光数值,因变量取值0或1,代表男性和女性,得到M个回归模型并保存;预测一个新样本时,通过M个位点的逻辑回归模型,得到M个取值在0到1之间的预测值,按照逻辑回归预测值的概率解释,计算最终的概率。该性别判断方法结合X和Y两类染色体的情况,通过机器学习的方法,充分量化,性别判断结果为0‑1区间的数值,能够兼容多种数据情况,针对性别做出更丰富的判断。

Sex Judgment Method Based on DNA Chip Detection Data

【技术实现步骤摘要】
基于芯片检测DNA数据的性别判断方法
本专利技术涉及DNA检测
,具体来说,涉及一种基于芯片检测DNA数据的性别判断方法。
技术介绍
基于芯片检测DNA数据的性别判断,一般根据DNA数据的X和Y染色体的分型情况。常见的方法有两种:1)只通过X染色体的分型数据,大多数情况下,女性有2条X染色体,分型数据有纯合子、杂合子2种类型,男性有1条X染色体,分型数据只有纯合子1种类型,一般可以通过统计某样本X染色体分型数据的纯合率或者杂合率,确认性别;2)只通过Y染色体的分型数据,大多数情况下,女性没有Y染色体,不该出现Y染色体数据,男性有1条Y染色体,分型数据有纯合子1种类型,一般可以通过统计某样本是否有Y染色体数据,确认性别。以上2种方法能够判断大多数情况,但是很多异常情况无法识别。比如某些人存在X染色体或Y染色体的异常,会影响判断准确性,此外,以上2种方法是基于传统的统计学,根据经验进行一般判断,无法做出更精准的预测。
技术实现思路
针对相关技术中的上述技术问题,本专利技术提出一种基于芯片检测DNA数据的性别判断方法,能够克服现有技术的上述不足。为实现上述技术目的,本专利技术的技术方案是这样实现的:一种基于芯片检测DNA数据的性别判断方法,包括以下步骤:(1)选出所有性别相关X和Y染色体上的位点S个,读取P个样本,得到P×S大小矩阵;(2)将红绿荧光强度标准化,其中GrnM为每个样本绿荧光的数值,RedM为每个样本红荧光的数值,GrnM*为每个样本绿荧光的标准化数值,RedM*为每个样本红荧光的标准化数值:GrnM*=GrnM/mean(GrnM)(每个样本某个位点上绿荧光数值除以所有样本该位点绿荧光数值的均值);RedM*=RedM/mean(RedM)(每个样本某个位点上红荧光数值除以所有样本该位点红荧光数值的均值);引入两个新的矩阵:AbsM=(GrnM^2+RedM^2)^(0.5)(每个样本某个位点上绿荧光数值的平方加上该样本该位点红荧光数值的平方,然后开方);SumM=GrnM+RedM(每个样本某个位点上绿荧光数值加上该样本该位点红荧光数值);(3)筛选区分度大的M个位点:我们认为,男女信号的可划分性,基本蕴含在上面四个参数中,因此对步骤(2)中的四个矩阵的每一行做t检验,因变量为0(男)或1(女),这样对每一个位点都得到4个p值,将每一种参数下p值前X小的位点做并集,得到M个位点;(4)根据步骤(3)筛选出的M个位点,建立逻辑回归模型:对M个位点中的每一个位点,建立逻辑回归模型,自变量为红荧光和绿荧光数值,因变量取值0(男)或1(女),这样总共得到M个回归模型,将其保存;(5)性别判断结论呈现:预测一个新样本时,通过步骤(4)建立的M个位点的逻辑回归模型,得到M个取值在0到1之间的预测值,将这个长度为M的矩阵命名为values。按照逻辑回归预测值的概率解释,计算最终的概率score:a)log_ratios=log(values/(1-values))(取以e,即自然常数,为底,预测值除以1减去预测值的对数),b)log_ratio=mean(log_ratios)(取上述a得到概率的平均值),c)score=exp(log_ratio)/(1+exp(log_ratio))(自然常数e的log_ratio次方,除以1加上自然常数e的log_ratio次方),score是0-1之间的数值,为样本是女性的概率。以上在建立模型运算过程中,使用到了R这门语言,上述的一些函数是R的函数,但是整个方法并不局限于R语言,几乎是任何编程语言都可以实现,比如python,Java等。性别对于基因芯片测序产生的荧光强度的影响是多方面的。首先,对于Y染色体特异性位点,女性样本信号接近背景值。其次,对于X染色体特异性位点,男性样本呈纯合信号,女性样本或者呈杂合信号,或者呈强度较大的纯合信号。再次,对于X和Y同源或高度相似的位点,男性与女性信号各有其复杂分布,但也可能清晰划分。本模型不具体考虑位点类型,只是选择所有性相关染色体上的位点,对每一个位点,使用多个参考样本P(P大于等于100,男女比例接近1:1)在“绿荧光-红荧光”平面上做监督学习,筛选出M个可以清晰划分的位点。对每一个新样本,做N(N≤M)个判断,综合所有判断的结果得出结论。本专利技术的有益效果:本专利技术结合X和Y两类染色体的情况,通过机器学习的方法,充分量化,性别判断结果为0-1区间的数值,能够兼容多种数据情况,针对性别做出更丰富的判断。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是SumM的p值第1000小的位点的原始荧光强度分布情况。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本专利技术保护的范围。本专利技术的基于芯片检测DNA数据的性别判断方法不具体考虑位点类型,只是选择所有性相关染色体上的位点,对每一个位点,使用209个参考样本在绿-红平面上做监督学习,筛选出1846个可以清晰划分的位点。对每一个新样本,做1846(或N)个判断,综合所有判断的结果得出结论。具体步骤如下,以下步骤都是基于R语言实现:(1)选出所有性相关染色体上的位点芯片位点由下面两个文件记录:GSA-24v1-0_A1.csv,in_custom_and_not_in_standard.txt;使用所有性染色体上的位点,sex_chrs=c("X","Y","XY")位点所对应的探针编号包含在下面两列,只有少数位点有第二探针:AddressA_ID,AddressB_ID总共选出21849个位点。读取idat文件数据:使用如下函数读取单个idat文件:illuminaio::readIDAT(file)其中file参数是字符串格式的文件路径,返回值的Quants属性是一个矩阵(其中Mean一列表示每个探针的平均荧光强度),共读取209个参考样本(418个文件)将结果记录在下面两个21849×209的矩阵:GrnMRedM。(2)将红绿荧光强度标准化,其中GrnM为每个样本绿荧光的数值,其中RedM为每个样本红荧光的数值:GrnM*=GrnM/mean(GrnM)RedM*=RedM/mean(RedM)引入两个新的矩阵AbsM=(GrnM^2+RedM^2)^(0.5)SumM=GrnM+RedM。(3)筛选区分度最大的1846个位点:我们认为,男女信号的可划分性,基本蕴含在上面四个参数,因此对步骤(2)中的四个矩阵的每一行做t检验,因变量为0(男)或1(女)。这样对每一个位点都得到4个p值。将每一种参数下p值前1000小的位点做并集,得到1846个位点,SumM的p值第1000小的位点的原始荧光强度分布情况如图1所示。(4)逻辑回归模型对1846个位点中的每一个,使用如下函数建立逻辑回归模型:gl本文档来自技高网...

【技术保护点】
1.一种基于芯片检测DNA数据的性别判断方法,其特征在于,包括以下步骤:(1)选出所有性别相关X和Y染色体上的位点S个,读取P个样本,得到P×S大小矩阵;(2)将 DNA 检测得到的红绿荧光强度标准化,其中GrnM为每个样本绿荧光的数值,RedM为每个样本红荧光的数值,GrnM

【技术特征摘要】
1.一种基于芯片检测DNA数据的性别判断方法,其特征在于,包括以下步骤:(1)选出所有性别相关X和Y染色体上的位点S个,读取P个样本,得到P×S大小矩阵;(2)将DNA检测得到的红绿荧光强度标准化,其中GrnM为每个样本绿荧光的数值,RedM为每个样本红荧光的数值,GrnM*为每个样本绿荧光的标准化数值,RedM*为每个样本红荧光的标准化数值:GrnM*=GrnM/mean(GrnM),即每个样本某个位点上绿荧光数值除以所有样本该位点绿荧光数值的均值,RedM*=RedM/mean(RedM),即每个样本某个位点上红荧光数值除以所有样本该位点红荧光数值的均值;引入两个新的矩阵:AbsM=(GrnM^2+RedM^2)^(0.5),即每个样本某个位点上绿荧光数值的平方加上该样本该位点红荧光数值的平方,然后开方,SumM=GrnM+RedM,即每个样本某个位点上绿荧光数值加上该样本该位点红荧光数值;(3)筛选M个位点:对步骤(2)中的每个矩阵的每一行做t检验,因变量为0或1,代表男性和女性,对每一个位点都得到4个p值,将每一种参数下p值前X小的位点做并集,得到M个位点...

【专利技术属性】
技术研发人员:范操琦
申请(专利权)人:北京各色科技有限公司
类型:发明
国别省市:北京,11

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1