用于在计算机辅助肺结核假阳性降低中克服不平衡事例数目的层化方法技术

技术编号:2946348 阅读:317 留言:0更新日期:2012-04-11 18:40
一种用于对在HRCT医学图像数据内检测的感兴趣部位进行计算机辅助探测(CAD)并分类的方法。所述方法包括用于对识别部位/体积为结核或者非结核的的特异性和灵敏度进行最大化的CAD后机器学习技术。该部位被CAD处理识别,并被自动分割。从每个所分割部位中识别并提取特征池,并利用遗传算法处理特征池以识别最优特征子集,其中数据层化方法被用于平衡不同类别中的事例数目。由GA确定的子集被用于训练支持向量机,从而对在非训练数据内发现的候选部位/体积进行分类。

【技术实现步骤摘要】
【国外来华专利技术】相关申请本申请/专利来源于由所提名申请人于2004年11月19日申请的申请号为60/629751的美国临时专利申请。本申请与通常拥有、共同未决的Philips申请PHUS040505(779361)、PHUS040500(778964)和PHUS040499(778965)有关。本专利技术涉及计算机辅助检测系统和方法。本专利技术更确切地涉及这样的系统和方法,所述系统和方法用于假阳性减少计算机辅助检测(CAD)结果,尤其是高分辨率、薄片计算层析成像(HRCT)图像,在CAD系统训练期间利用支持向量机(support vector machine,SVM)对失衡数据集(训练数据集)实现利用层化(stratification)的CAD后分类,从而在保存适当灵敏度的情况下生成很高的特异性(减少所报告假阳性的数目)。当前计算机相关系统的速度和成熟支持更快、更高级的医学图像系统的开发。处理和处理后所生成的数据量的增加导致创建大量应用程序来自动分析医学图像数据。也就是说,已经开发了各种数据处理软件和系统来帮助内科医师、临床医师、放射科医师等等来评估医学图像以识别和/或诊断并评估医学图像。例如,计算机辅助检测(CAD)算法和系统已经发展为从多片CT(multi-slice CT,MSCT)扫描中自动识别“可疑”部位(例如损伤)。鉴于其固有的准确地图示解剖结构的大小、形状和位置以及异常或损伤的能力,CT或者计算层析成象是通常用于通过图像诊断疾病的成像模态。CAD系统自动检测(识别和描绘)形态学上感兴趣部位(例如,损伤、结核、微钙化),以及其他可能是临床相关的结构上可检测的条件/部分。当再现并显示医学图像时,CAD系统标记或者高亮度显示(识别)所研究部位。所述标记将引起放射科医师对可疑部位的注意。例如,在对寻找可能癌变结核的肺图像的分析过程中,CAD系统将标记检测到的结核。因而,CAD系统结合了放射科医师的专业知识以自动提供关于医学图像数据中异常的检测的第二意见。通过支持对疑似癌变的损伤或者结核的早期检测,CAD系统实现了早期干预,理论上向病人提供了更好的预后。CAD及其他机器学习系统的大多数现有工作都遵循有监督学习的相同方法。所述CAD系统从具有已知基础事实(ground truth)的大量数据开始。在训练数据上“训练”CAD系统,以识别被认为具有充足的鉴别能力来区分基本事实的特征集,所述基本事实也就是非训练数据中的结核或者非结核。对本领域技术人员而言的挑战包括提取简化了在类别之间进行鉴别的特征,理论上查找特征池内的最相关子集。一旦被训练,那么CAD系统就可以对非训练数据进行操作,其中从CAD描绘的候选部位中提取特征并分类所述特征。CAD系统可以合并不同种类的信息(例如基于图像的特征与病人数据),或者它们可以发现例如基于相似度的方法。技术人员应当理解任何计算机驱动决策支援系统的精确性受到已经由学习过程分类的模式集的可用性(也就是受到训练集)的限制。假阳性标记(来自CAD系统的输出)是指向根本不是结核、而是伤痕、支气管壁增厚、运动假象、脉管分支等的那些标记。其中CAD辅助结果表示所调查部位的底线事实(例如,结核),具体而言临床医生将忽略他/她不研究的部位。本领域的技术人员应该理解在诊断上下文中,“真阳性”经常指的是真正恶性的检测结核。然而,在CAD上下文中,即使标记指向良性的或者钙化的结核,所述标记也被认为是真阳性标记。从而在CAD中不定义“真阴性”并且不能给出标准化的特异性。因此,CAD性能通常由灵敏度(检出率)以及假阳性率或者每个CT研究的假阳性标记限定(qualify),因而,十分需要一种能输出最小假阳性的CAD系统。在完成自动检测处理之后(有或者没有标记),大多数CAD系统自动调用一个或多个工具以应用于用户和CAD检测的损伤(部位),从而例如消除冗余,实现解释工具等等。所以,已知各种用于减少CAD中的假阳性的技术。例如,W.A.H.Mousa和M.A.U.Khan在Proc.of IEEE ICIP′2002中公开了题为“Lung Nodule Classification Utilizing SupportVector Machines”的他们的假阳性减少技术。K.Suzuki,S.G.ArmatoIII,F.Li,S.Sone,K.Doi在“Massive training artificial neuralnetwork(MTANN)for reduction of false positives in computerizeddetection of lung nodules in low-dose computed tomography”Med.Physics 30(7),July 2003,pp.1602-1617中描述了一种最小化假阳性的尝试,以及Z.Ge,B.Sahiner,H.-P.Chan,L M.Hadjiski,J.Wei,N.Bogot,P.N.Cascade,E.A.Kazerooni,C.Zhou在“Computeraided detection of lung nodulesfalse positive reduction usinga 3D gradient field method”,Medical Imaging 2004Image Processing,pp.1076-1082中描述了一种最小化假阳性的尝试。FPR系统用于CAD后处理中以改善特异性。例如,R.Wiemker,et al.在他们的COMPUTER-AIDED SEGMENTATION OF PULMONARY NODULESAUTOMATED VASCULATURE CUTOFF IN THIN-AND THICK-SLICE CT,2003Elsevier Science BV中论述了最大化CAD算法的敏感性以在薄片CT中将肺结核同结核周围的维管结构有效地分离(以弥补部分体积的影响)。预定目标是减少分类错误。然而,Wiemker的CAD系统和方法不使用成熟的机器学习技术,其也不优化FPR的特征提取和选择方法。例如,虽然Mousa,et al.利用支持向量机将真实的结核同非结核(EP)相区分,但是他们的系统基于非常简单化的特征提取单元,所述特征提取单元可能限制而不是改善了特异性。另一个已知的问题是由CAD算法生成的假结核的数目远大于真实的结核(不平衡事例(case)问题),因此降低了机器学习的性能。失衡训练事例问题指的是在机器学习中一类的事例数目明显少于另一类中事例数目的情况。这种失衡将导致机器学习中意外动作是大家熟知的。机器学习组所采用的一种通用方法是人工再平衡。这样做被称作“向上取样”(复制少数的事例)和“向下取样”(忽略多数的事例)。Provost,F.“Learning with Imbalanced Data Sets 101,”AAAI 2000。在肺结核假阳性降低中失衡训练事例问题特别突出。然而,这是因为有偏差的目标(保存真结核并减少尽可能多的假结核)而不是追求整个分类的精确性(大多数其他机器学习算法的目标)。本专利技术描述了一种新的、特别适合于这种有偏差目标处理的层化方法,并克服了不平衡事本文档来自技高网...

【技术保护点】
一种用于在医学图像数据内计算机辅助检测(CAD)感兴趣部位或者体积(“部位”)的方法,包括CAD处理以检测并描绘候选部位,以及在训练阶段中的CAD后机器学习以最大化特异性并减少在处理非训练数据之后所报告的假阳性数目,所述方法包括下述步骤:在医学图像训练数据集上训练分类器,其中选择所述医学图像训练数据集以包括大量对于基本事实已知为真和已知为假的部位,利用所述CAD处理识别并分割所述部位,提取特征以创建特征池来限定所述部位,向特征池应用遗传算法处理器以确定供支持向量机(SVM)使用的最小特征子集,以便利用改善的特异性在非训练数据内识别候选部位,其中如果所述医学图像训练数据失衡,则对所述失衡数据执行层化处理;在训练之后,在非训练数据内检测候选部位;分割在非训练数据内识别的候选部位;提取与每个所分割候选部位有关的候选特征集;以及依照训练过程、根据具有实际特异性的候选特征集将候选部位映射到基本事实空间中。

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员:L赵KP李L博罗茨基
申请(专利权)人:皇家飞利浦电子股份有限公司
类型:发明
国别省市:NL[荷兰]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1