一种乳腺超声影像组学的超高维特征数据相关性分析方法技术

技术编号:35779942 阅读:16 留言:0更新日期:2022-12-01 14:24
本发明专利技术涉及乳腺超声影像组学数据分析领域,公开一种乳腺超声影像组学的超高维特征数据相关性分析方法,内容如下:S1、标注影像感兴趣区域并生成掩膜图;S2、利用影像组学算法提取超声影像高通量特征,生成高维数据;S3、将超高维特征数据存储在分布式文件系统;S4、计算集群节点内各特征数据的和及平方和;S5、利用步骤S4中的数据估算特征之间的相关性并输出。如果无法估算,则计算其均值及标准差,执行步骤S6;S6、各节点根据均值及标准差计算S5中无法估算的特征之间的相关系数;S7、汇总S6的结果,并计算均值,得出总体特征之间的相关性。采用分布式估算皮尔逊相关系数,能够减少单个节点计算资源的消耗,快速分析海量超高维特征之间的相关性。间的相关性。

【技术实现步骤摘要】
一种乳腺超声影像组学的超高维特征数据相关性分析方法


[0001]本专利技术涉及乳腺超声影像组学数据分析领域,主要涉及一种乳腺超声影像组学的超高维特征数据相关性分析方法。

技术介绍

[0002]2012年,Lambin等人首次提出了影像组学的概念,影像组学技术是指从医学影像中高通量地提取大量定量特征,结合大数据分析算法,挖掘用以解析临床信息最有价值的特征,来辅助疾病的诊断、治疗及预后评估的技术。影像组学提出以来,在预防危险疾病、辅助诊断和预测病人预后等方面得到广泛的应用。随后,学者们不断对影像组学技术进行拓展与完善,通过上千个高维度特征数据更全面的量化、表征肿瘤的生物学特点。
[0003]影像组学的过程主要分为三个步骤:首先,对图像做分割处理;然后,提取图像特征,生成量化数据;最后,构建数学模型分析特征数据,从而实现分类及预测。
[0004]在提取图像特征的过程中,以pyradiomics工具为例,使用Wavelet滤波器作为提取特征前图像处理的滤波方法。医学影像的灰度图将产生4种不同的滤波方式(LH、HL、HH、LL)。每种滤波方式使用14个一阶统计量。每一张影像则会产生4*14=56个特征。对上述方法加上24个灰度共生矩阵特征特征,同时使用原始图像(不使用滤波器)做特征提取,则会产生(1+4)*(14+24)=190个特征。如果组合使用不同的滤波器算法和特征技术,则会产生m*n个维度的特征(m为滤波方式的个数,n为提取特征的个数)。
[0005]乳腺超声影像组学的超高维特征数据中存在的冗余特征会使得预测模型构建不准确。因此,分析各个特征之间的相关性不仅能够发现各项特征之间存在的关联,还可以选择合适有效的特征用以提高算法在诊断中的准确率。
[0006]随着时间的推移,影像数据也在不断增多。单机环境下利用皮尔逊相关系数处理海量超高维度特征数据之间的相关性,容易产生大量消耗CPU和内存资源的情况,甚至会发生内存溢出的现象,例如在处理医学研究中的乳腺肿瘤影像特征数据时,采用400条包含465维特征的数据。在计算100条数据后,时间花费将近两个小时,并且发生了内存溢出的情况。
[0007]为了解决大数据环境下数据在单机上处理速度慢、易造成内存溢出的的问题,基于Google公司提出的GFS和MapReduce思想的Hadoop分布式数据处理平台被广泛应用。Hadoop包含三个部分:1.HDFS分布式存储架构,用以分布式存储海量数据;2.MapReduce并行计算框架,用以在各个存储节点处理数据;3.Yarn分布式资源管理框架,用以各个节点分配CPU和内存等计算资源。
[0008]为了提高利用皮尔逊相关系数分析海量超高维度特征数据相关性的计算效率。本专利技术提出了一种乳腺超声影像组学的超高维特征数据相关性分析方法。通过采用分布式的方式,减少了单个节点下CPU和内存资源的消耗。为了进一步提升相关性分析的效率,采用估算的方式,减少了各个计算节点所产生的中间结果,以减少数据在传输过程中所造成的I/O消耗。

技术实现思路

[0009]本专利技术提供一种乳腺超声影像组学的超高维特征数据相关性分析方法,采用估算和分布式任务相互配合的方法,可以解决现有技术中分析海量超高维特征数据相关性的问题,处理步骤如下。
[0010]S1: 使用LabelMe工具对乳腺肿瘤超声影像做感兴趣区域的标注并生成JSON文件,将其处理生成掩膜图。
[0011]S2: 将pyradiomics工具中的First Order statistics Features、Shape Features (2D)和Gray Level Co

occurrence Matrix (GLCM)等七大类提取特征算法与Original、Wavelet和LoG等滤波器技术组合,提取步骤S1中感兴趣区域的特征,生成超高维影像特征数据。随着图像数量的增多,从而产生海量超高维影像特征数据。
[0012]S3: 将海量超高维影像特征数据按照节点存储块的大小做水平分割,并存储在分布式文件系统中。假设有三个计算节点,给定乳腺超声影像的海量超高维度特征数据D,每条数据对象包含个特征(s≥2)。数据被均匀划分为并存储在每个节点。(数据也可以不被等分存储在各个计算结点,|D|为数据集中的总条数),每个节点的部分数据包含s个特征。
[0013]S4: 各个计算节点按行读取其对应数据块中的每条数据,分别计算每个数据块中各个特征的和()及其特征的平方和()。其中t=,为数据集中第k条数据的第i个特征,1≤i≤s,1≤k≤t。
[0014]S5: 对所有数据求和计算,其中m=|D|,为数据集中第k条数据的第i个特征,1≤i≤s, 1≤k≤m。假设数据集中的两个特征列X和Y(、),n表示数据集中的总条数,表示数据集中第i条数据的X特征,根据皮尔逊相关系数公式(公式1),可做如下变形:
ꢀꢀ
(1)替换上式中的和,其中:
整理上式并替换和,其中,整理最终皮尔逊相关公式如公式2所示:终皮尔逊相关公式如公式2所示:
ꢀꢀꢀ
(2)分布式下估算皮尔逊相关系数主要利用基本不等式原理,对于每个特征(例如X,Y两个特征列)只需要在各个节点之间传输这四个数据(n>0为数据条数)。如果是m(m2)维特征数据,每个节点只需要输出2m个数据,减少了任意两个维度数据乘积所产生的个数据。其估算公式如下。
[0015]给定阈值

,为无误差未知的皮尔逊相关系数值,为估算皮尔逊相关系数,始终大于等于(当两个特征数据一致重合时取等号)。其计算会产生以下两种结果。
[0016]结果1:当,则,两个特征之间不属于高相关。
[0017]结果2:当,且,无法判断与之间的关系,此时计算出这两个特征的均值和标准差然后执行步骤S6。
[0018]在不用计算出真实的皮尔逊相关系数值情况下,可以采用估算的形式得出结果1中真实的皮尔逊相关系数与的关系。首先给出三个前提条件:条件1:给定两个特征序列和,n(n>0)表示数据条数,对应第i(1≤i≤n)条数据对象的X和Y的两个特征取值;条件2:基本不等式,;条件3:数据的标准差一定大于0。
[0019]当i=1时:。则。
[0020]当i=2时:。则。
[0021]
当i=n时:。则。
[0022]对i=1到i=n对应的求和,生成公式3:
ꢀꢀ
(3)根据条件2和条件3,将公式3的左边部分转换为公式2的形式:根据条件2和条件3,将公式3的左边部分转换为公式2的形式:
ꢀꢀ
(4)根据公式4,皮尔逊相关系数真实值:估算值:根据公式4得出,与阈值

之间的关系如图2所示,取

=0.8。当时,如图2中结果1的情况, 必然小于;当时,如图2中结果2,此时无法判定与之间的关系,此时根据计算这两个特征的均值()和标准差(),执行本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种乳腺超声影像组学的超高维特征数据相关性分析方法,其特征在于:a. 将海量超高维乳腺超声影像特征数据存储在分布式文件系统中;b. 计算集群节点内各特征数据的和及平方和;c. 利用b中的数据估算各个特征之间的相关性并输出;如果无法估算,则计算其均值和标准差,继续执行分布式计算;d. 各节点根据均值及标准差计算c中无法估算的特征之间的相关系数;e. 汇总d的结果并计算均值,得出总体特征之间的相关性。2.根据权利要求1所述的一种乳腺超声影像组学的超高维特征数据相关性分析方法,其特征在于:传统乳腺超声影像组学特征数据的存储在单机上,本发明将海量超高维乳腺超声影像特征数据按照节点存储块的大小做水平分割,并存储在分布式文件系统中;假设有三个计算节点,给定乳腺超声影像的海量超高维度特征数据D,每条数据对象包含个特征(s≥2);数据被均匀划分为并存储在每个节点(数据也可以不被等分存储在各个计算结点,|D|为数据集中的总条数),每个节点的部分数据包含s个特征。3.根据权利要求1所述的一种乳腺超声影像组学的超高维特征数据相关性分析方法,其特征在于:一种基于多节点协同计算摘要数据的方法:传统计算乳腺超声影像组学特征数据是在单机环境,针对每个数据单独计算,而本发明是基于分布式环境计算摘要数据;各个计算节点按行读取其对应数据块中的每条数据,分别计算每个数据块中各个特征的和()及其特征的平方和(),其中t=,为数据集中第k条数据的第i个特征,1≤i≤s,1≤k≤t。4.根据权利要求1所述的一种乳腺超声影像组学的超高维特征数据相关性分析方法,其特征在于:一种同时支持精确计算及迭代估算的计算方法:传统的方法主要在单机环境直接精确计算皮尔逊相关系数,而本发明针对乳腺超声组学特征数据超高维的特点在分布式文件系统上直接计算皮尔逊相关系数;对所有数据求和计算,其中m=|D|,为数据集中第k条数据的第i个特征,1≤i≤s, 1≤k≤m;假设数据集中的两个特征列X和Y(、),n表示数...

【专利技术属性】
技术研发人员:姚回刘文李珊珊
申请(专利权)人:新疆畅森数据科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1