一种整合图像空间信息的基于体素点全基因组关联分析方法技术

技术编号:18576259 阅读:31 留言:0更新日期:2018-08-01 11:17
一种整合图像空间信息的基于体素点全基因组关联分析方法,包括以下步骤:(1)收集图像数据和基因数据;(2)整合图像数据的空间信息,对目标对象的图像数据进行处理获得整合了图像空间信息的图像数据:(3)对基因数据和图像数据进行FVGWAS分析。该整合图像空间信息的基于体素点全基因组关联分析方法,由于个体本身固有的生物结构和功能,图像数据具有空间结构相关性,这些空间结构包含了大量的重要信息,把这些信息整合到VGWAS方法。具有检测性能力强,精度高,计算简单的特点。

A voxel based genome-wide association analysis method for integrating image spatial information

A whole genome association analysis method based on voxel point integrating image spatial information includes the following steps: (1) collecting image data and gene data; (2) integrating the spatial information of the image data and processing the image data of the target object to obtain the image data that integrates the space information of the image: (3) the gene data and the map Like data for FVGWAS analysis. The integrated image spatial information based on voxel point full genome association analysis method, because of the inherent biological structure and function of the individual itself, the image data has spatial structure correlation, these spatial structures contain a lot of important information, and integrate these information into the VGWAS method. It has the characteristics of strong detection ability, high precision and simple calculation.

【技术实现步骤摘要】
一种整合图像空间信息的基于体素点全基因组关联分析方法
本专利技术涉及基因组关联分析
,特别是涉及一种整合图像空间信息的基于体素点全基因组关联分析方法。
技术介绍
基于体素点全基因组关联分析(TheVoxel-WiseGenome-WideAssociationAnalysis,VGWAS)的基本思想是联合基因数据和图像数据进行分析,来检测遗传性神经精神疾病和神经退行性疾病的重要生物标记物,这对于遗传性神经精神疾病和神经退行性疾病的预测、诊断、治疗和监控是至关重要的。特别地,图像数据中固有的空间结构信息的利用,可提高检测重要生物标记物的准确性和可靠性。传统的VGWAS分析是基于体素点的分析方法,即假设体素点间是互相独立的,然后将每个体素点和预测看作是独立的单元来计算基因-体素点对的显著关联性。这种VGWAS分析方法不需要疾病的病理学先验知识来选择感兴趣的候选表型和/或候选基因型,同时由于是对整个基因组及全脑图像进行研究,VGWAS可以降低丢失重要基因及病变脑区的概率。然而,在VGWAS研究中存在着一些问题。一方面,由于测试的全基因组、相关信号所在的脑部位置、以及研究个体数目的庞大,VGWAS面临着数据量庞大以及计算速度慢的问题,不能满足我们在实际应用中需求。另一方面,VGWAS是对每个体素点独立分析,因而忽略了图像数据固有的空间特征信息,由于个体本身固有的生物结构和功能,图像数据包含着大量的体素点,而且具有复杂空间模式,因此,图像数据具有空间结构相关性。这些空间结构包含了大量的重要信息,对准确估计和预测AD潜在生物标记物是十分重要的。此外,疾病造成脑的结构改变可能会发生在一个相对较大的脑区。故而,这种未考虑图像空间特征信息的VGWAS研究可能检测到错误的结果或可能会遗漏一些重要的生物标记物,因此VGWAS分析方法具有较大的局限性。因此,针对现有技术不足,提供一种整合图像空间信息的基于体素点全基因组关联分析方法以解决现有技术不足甚为必要。
技术实现思路
本专利技术的目的在于避免现有技术的不足之处而提供一种整合图像空间信息的基于体素点全基因组关联分析方法,该整合图像空间信息的基于体素点全基因组关联分析方法具有检测性能力强,精度高,计算简单的特点。本专利技术的上述目的通过如下技术手段实现。提供一种整合图像空间信息的基于体素点全基因组关联分析方法,包括以下步骤:(1)收集图像数据和基因数据;(2)整合图像数据的空间信息,对目标对象的图像数据进行处理获得整合了图像空间信息的图像数据:(3)对基因数据和图像数据进行FVGWAS分析,具体包括,(3.1)对图像数据和基因数据构建一个回归模型,对一个给定的显型使用检验统计的方法来检验每个位点上无关联的空假设;(3.2)对所有基因数据,计算全局Wald型检验,然后对全局Wald型检验的p值进行排序,选出前N0个位点作为候选显著关联位点,以筛掉大部分含“噪声”的位点,N0为自然数;(3.3)执行基于bootstrap的检测过程,分别用来检测显著的基因-体素点对和显著的基因-团对。优选的,上述步骤(1)收集图像数据和基因数据,具体包括:(1.1)图像预处理过程,包括:(a)前联合和后联合校正;(b)去除脑壳以及去除小脑;(c)图像灰度不一致校;(d)图像分割,将脑图像数据分成四种不同组织:灰质、白质、脑侧室和脑脊液;(e)对所有的图像配准到一个公共模板中;以及(f)用变形场来产生RAVENS映射图,以量化整个大脑和每一部份分割出来组织类型间的局部容积差异;(1.2)对基因型数据执行以下几步质量控制过程,包括:(a)性别检查;(b)人口分层;(c)兄弟姐妹对检查;(d)对每个个体以及每个SNP标记进行调用率检查;(e)去除次要等位基因频率;(f)遗传平衡测试;根据以下条件来筛选出适合的SNPs:(a)缺失值小于或等于5%;(b)次要等位基因频率大于或等于95%;以及(c)遗传平衡p值大于或等于10-6,其余缺失的基因型数据根据最频繁出现的值来取代。优选的,上述的整合图像空间信息的基于体素点全基因组关联分析方法,步骤(2)具体包括:(2.1)对每幅图像数据,选定一个大小为N×N的窗宽,在窗宽大小范围内计算邻域内的像素点对中央体素点的欧式距离矩阵,N为自然数;(2.2)将步骤(2.1)计算得到的邻域体素点的欧式距离矩阵值作为相对中央体素点的权重值,来对中央体素点进行加权平均运算,运算得到的加权平均值替换原始的中央体素点值作为新的中央体素点值,从而将中央体素点周围邻域点的体素信息整合到中央体素点上;(2.3)按照从左到右、从上往下的方式滑动窗口,遍历整幅图像数据,使整幅图像体素点值更新为对邻域体素点求加权平均后的值。优选的,上述的整合图像空间信息的基于体素点全基因组关联分析方法,步骤(2.1)首先对图像数据进行二维高斯平滑后,再对每幅图像数据,选定一个大小为N×N的窗宽,在窗宽大小范围内计算邻域内的像素点对中央体素点的欧式距离矩阵。优选的,上述的整合图像空间信息的基于体素点全基因组关联分析方法,选定25×25的窗宽。优选的,上述的整合图像空间信息的基于体素点全基因组关联分析方法,步骤(2.1)采用的高斯平滑方法如下:二维的高斯核为:在式(1)中,H是归一化常数,vt和vl分别是图像邻域内第t和第l个体素,h是标准方差,t和l均为自然数。优选的,上述的整合图像空间信息的基于体素点全基因组关联分析方法,h的范围为(N’-1)/6≤h≤(N’-1)/4,其中,N’是平滑窗的尺寸大小。优选的,上述的整合图像空间信息的基于体素点全基因组关联分析方法,步骤(3.1)中对图像数据和基因数据构建一个回归模型,模型如下:其中,β(v)=β(βl(v),...,βK(v))T是一个不包含基因预测的K×1向量,γ(c,v)=(γ1(c,v),...,γL(c,v))T是一个L×1的固定的基因作用向量,ei(v)是均值为零的测量误差,且ei={ei(v):v∈V}在个体i之间是独立的。优选的,上述的整合图像空间信息的基于体素点全基因组关联分析方法,对以下假设进行检验:H0(c,v):γ(c,v)=0versusH1(c,v):γ(c,v)≠0foreach(c,v);步骤(3.2)中全局Wald型检计算如下:其中,Y(v)=(y1(v),...,yn(v))T,PX=X(XTX)-1XT是式(2)的投影矩阵,X=(x1,...,xn)是一个K×n矩阵,γ(c,v)的普通最小二乘估计,记为记为计算如下:其中,In是一个n×n的单位矩阵,Zc=(z1(c),...,zn(c))是一个L×n矩阵,的近似值如下:另一优选的,上述的整合图像空间信息的基于体素点全基因组关联分析方法,步骤(2)具体采用非局部均值平滑的方法处理,包括:(2.1)对每幅图像数据,选定大小分别为N1×N1的搜索窗和N2×N2的近似窗,在搜索窗宽大小范围内计算图像块的相似性,得到的相似块的权重值,其中,N1、N2均为自然数;(2.2)将步骤(2.1)计算得到的相似块的权重值,对目标体素点进行加权平均运算,运算得到的加权平均值替换原始的目标体素点值作为新的目标体素点值,从而将与目标体素点周围邻域块具有相似信息的体素信息整合到目标体素点上;(2本文档来自技高网
...

【技术保护点】
1.一种整合图像空间信息的基于体素点全基因组关联分析方法,其特征在于,包括以下步骤:(1)收集图像数据和基因数据;(2)整合图像数据的空间信息:即对目标对象的图像数据进行平滑处理获得整合了图像空间信息的图像数据;(3)对基因数据和图像数据进行FVGWAS分析,具体包括,(3.1)对图像数据和基因数据构建回归模型,对给定的显型使用检验统计的方法来检验每个位点上无关联的空假设;(3.2)对所有基因数据,计算全局Wald型检验,然后对全局Wald型检验的p值进行排序,选出前N0个位点作为候选显著关联位点,以筛掉含“噪声”的位点,N0为自然数;(3.3)执行基于bootstrap的检测过程,分别用来检测显著的基因‑体素点对和显著的基因‑团对。

【技术特征摘要】
1.一种整合图像空间信息的基于体素点全基因组关联分析方法,其特征在于,包括以下步骤:(1)收集图像数据和基因数据;(2)整合图像数据的空间信息:即对目标对象的图像数据进行平滑处理获得整合了图像空间信息的图像数据;(3)对基因数据和图像数据进行FVGWAS分析,具体包括,(3.1)对图像数据和基因数据构建回归模型,对给定的显型使用检验统计的方法来检验每个位点上无关联的空假设;(3.2)对所有基因数据,计算全局Wald型检验,然后对全局Wald型检验的p值进行排序,选出前N0个位点作为候选显著关联位点,以筛掉含“噪声”的位点,N0为自然数;(3.3)执行基于bootstrap的检测过程,分别用来检测显著的基因-体素点对和显著的基因-团对。2.根据权利要求1所述的整合图像空间信息的基于体素点全基因组关联分析方法,其特征在于,所述步骤(1)收集图像数据和基因数据,具体包括:(1.1)图像预处理过程,包括:(a)前联合和后联合校正;(b)去除脑壳以及去除小脑;(c)图像灰度不一致校正;(d)图像分割,将脑图像数据分成四种不同组织:灰质、白质、脑侧室和脑脊液;(e)对所有的图像配准到一个公共模板中;以及(f)用变形场来产生RAVENS映射图,以量化整个大脑和每一部份分割出来组织类型间的局部容积差异;(1.2)对基因型数据执行以下几步质量控制过程,包括:(a)性别检查;(b)人口分层;(c)兄弟姐妹对检查;(d)对每个个体以及每个SNP标记进行调用率检查;(e)去除次要等位基因频率;(f)遗传平衡测试;根据以下条件来筛选出适合的SNPs:(a)缺失值小于或等于5%;(b)次要等位基因频率大于或等于95%;以及(c)遗传平衡p值大于或等于10-6,其余缺失的基因型数据根据最频繁出现的值来取代。3.根据权利要求2所述的整合图像空间信息的基于体素点全基因组关联分析方法,其特征在于,步骤(2)具体采用高斯平滑的方法处理,包括:(2.1)对每幅图像数据,选定一个大小为N×N的窗宽,在窗宽大小范围内计算邻域内的像素点对中央体素点的欧式距离矩阵,N为自然数;(2.2)将步骤(2.1)计算得到的邻域体素点的欧式距离矩阵值作为相对中央体素点的权重值,来对中央体素点进行加权平均运算,运算得到的加权平均值替换原始的中央体素点值作为新的中央体素点值,从而将中央体素点周围邻域点的体素信息整合到中央体素点上;(2.3)按照从左到右、从上往下的方式滑动窗口,遍历整幅图像数据,使整幅图像体素点值更新为对邻域体素点求加权平均后的值。4.根据权利要求3所述的整合图像空间信息的基于体素点全基因组关联分析方法,其特征在于:步骤(2.1)首先对图像数据进行二维高斯平滑,对每幅图像数据,选定一个大小为N×N的窗宽,在窗宽大小范围内计算邻域内的像素点对中央体素点的欧式距离矩阵。5.根据权利要求4所述的整合图像空间信息的基于体素点全基因组关联分析方法,其特征在于:选定高斯平滑的窗宽为25×25。6.根据权利要求4或5所述的整合图像空间信息...

【专利技术属性】
技术研发人员:黄美燕冯前进邓春燕阳维
申请(专利权)人:南方医科大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1