当前位置: 首页 > 专利查询>西南大学专利>正文

一种基于偏最小二乘法的乳腺细胞异常检测方法技术

技术编号:15199994 阅读:80 留言:0更新日期:2017-04-22 00:56
本发明专利技术涉及一种基于偏最小二乘法的乳腺细胞异常检测方法,其包括:(1)导入用于建立模型的数据集,并设定相应的因变量和自变量,对数据进行标准化处理,提取主成分,拟合并建立偏最小二乘线性模型;(2)观察T2椭圆图,识别异常点,将异常点从数据集中剔除,得到新的数据集,再次拟合直到不存异常点,获得参数集,求得y的表达方程式;(3)输入待测数据集,利用方程进行计算,得到预测值y,然后根据确定的阈值,来判断预测值为良性还是恶性细胞。本发明专利技术通过偏最小二乘回归的方法,建立起乳腺细胞异常检测的回归模型,通过对回归模型的训练,生成较好的良恶性乳腺细胞检测方法,具有快速的检测能力和较高的检测精度。

A method based on partial least squares for abnormal detection of mammary gland cells

The invention relates to a method of anomaly detection, partial least squares method based on the breast cells include: (1) introduction for the establishment of model data sets, and set the corresponding variables, data standardization, principal component extraction, be combined to establish partial least square linear model; (2) observation T2 elliptic map, identification of outliers, the outlier detection from the data set, get a new data set, again until the fitting does not exist outliers and obtain parameter set formula to obtain the Y; (3) input measured data set, calculated by the equation, the predicted value is y, then according to the determined threshold and to determine the predictive value of benign or malignant cells. The present invention through partial least square regression method, the regression model is established for anomaly detection of breast cells, based on the regression model of training, detection of benign and malignant breast cells generate a better method, detection accuracy with fast detection ability and high.

【技术实现步骤摘要】

本专利技术属于人体医学
,具体涉及一种基于偏最小二乘法的乳腺细胞异常检测方法。
技术介绍
计算机辅助诊断技术中,各种机器学习、人工智能算法被用于乳腺癌辅助诊断方面的研究所用的方法有一定的缺陷,如训练用时长、易陷入局部收敛、较依赖于样本等,这些因素都会影响辅助诊断的准确性。乳腺癌是女性发病率较高的恶性肿瘤之一,20世纪以来乳腺癌的发病率在世界各地均有上升的趋势,但其病因目前尚未完全明确,所以对乳腺细胞的检测显得尤为重要。乳腺癌是发生在乳腺腺上皮组织的恶性肿瘤,女性乳腺是由皮肤、纤维组织、乳腺腺体和脂肪组成的乳腺并不是维持人体生命活动的重要器官,原位乳腺癌并不致命;但由于乳腺癌细胞丧失了正常细胞的特性,细胞之间连接松散,容易脱落。癌细胞一旦脱落,游离的癌细胞可以随血液或淋巴液播散全身,形成转移,危及生命。目前乳腺癌已成为威胁女性身心健康的常见肿瘤。早期乳腺癌往往不具备典型的症状和体征,不易引起重视,常大多数乳腺癌为无痛性肿块,仅少数伴有不同程度的隐痛或刺痛。目前来看,乳腺癌检测的方法有许多,如乳腺x线钼靶、超声检查、CT检查等。然而许多方法需要进一步探讨,有些方法甚至不宜作为检测乳腺癌的主要方法。对于患者来说,乳腺癌早期检测发现是降低病发的关键,乳腺癌早期多是乳房形状变化或者产生肿块等症状,并且常通过体检或乳腺癌筛查发现80%的乳腺癌患者以乳腺肿块首诊,所以可以通过检测乳腺细胞的情况来判断是否存在乳腺肿块,因此对于乳腺细胞的检查是发现乳腺癌细胞存在以及预防乳腺癌细胞扩散的一种重要手段。
技术实现思路
为了克服上述这些因素,本专利技术提出了一种用于乳腺癌的辅助诊断,通过偏最小二乘回归的方法,建立起乳腺细胞异常检测的回归模型,通过对回归模型的训练,生成较好的对良恶性乳腺细胞具有快速的检测能力和较高的检测精度的基于偏最小二乘的乳腺细胞异常检测方法。本专利技术的技术方案如下:上述的基于偏最小二乘法的乳腺细胞异常检测方法,具体包括:(1)将用于建立模型的数据集中所得的数据均分为两部分,一部分用于模型的建立,另一部分用于模型的检测,设定相应的因变量和自变量,对数据进行标准化处理,分别提取自变量和因变量的主成分,拟合并建立模型;(2)T2为样本点对成分的累计贡献率,利用软件绘制并观察T2椭圆图,识别异常点,将异常点从数据集中剔除,得到新的数据集和模型,再次拟合并观察T2椭圆图直到不存异常点,获得参数集,求得是否为癌细胞的因变量y的表达方程式;(3)输入另一部分待测数据集,利用求得的方程将数值带入进行计算,得到预测值y’,确定阈值,规定大于阈值的预测值为恶性细胞,小于阈值的预测值为良性细胞,将y’与原值进行比较,记录正确预测的结果,计算出该预测模型的正确率。所述基于偏最小二乘法的乳腺细胞异常检测方法,其中:所述步骤(1)是通过软件SIMCA-P13.0导入用于建立模型的数据集,所述自变量主要包括半径、质地、周长、面积、光滑度、致密性、凹度、凹点、对称性和分形维数;所述因变量为是否是癌变细胞。所述基于偏最小二乘法的乳腺细胞异常检测方法,其中:所述步骤(2)中当样本点都落在椭圆内时,认为样本是均匀的;若有样本点落在椭圆外,则可以认为这些点为特异点它们的取值远离样本点的平均水平。所述基于偏最小二乘法的乳腺细胞异常检测方法,其中:所述步骤(3)中确定的阈值为0.5,规定大于0.5的预测值为恶性细胞,小于0.5的预测值为良性细胞。所述基于偏最小二乘法的乳腺细胞异常检测方法,其中,所述步骤(1)具体包括以下步骤:(1.1)对自变量和因变量进行标准化处理X经标准化处理后的数据矩阵记为E0=(E01,E02,...,E0p)n×p,Y经过标准化处理后的数据矩阵记为F0=(F01,F02,...,F0q)n×q;(1.2)提取主成分,逐步回归记t1是F0的第一个成分,t1=E0w1,w1是E0的第一个轴且是一个单位向量,即||w1||=1;记u1是F0的第一个成分,u1=F0c1,c1是F0的第一个轴且是一个单位向量,即||c1||=1;在t1与u1的相关程度达到最大时,即Var(t1)→maxVar(u1)→max根据典型相关分析,t1和u1的相关程度应达到最大值,即:r(t1,u1)→max在t1和u1的协方差达到最大值时,即:max<E0w1,F0c1>在||w1||=1和||c1||=1的条件下,求的最大值;w1是矩阵的特征向量,对应的特征值为θ1是目标函数,其最大值,即求矩阵的最大特征值所对应的特征向量w1,求成分t1和残差矩阵E1:t1=E0w1其中,同理求矩阵的最大特征值所对应的特征向量w2,t2和残差矩阵E2t2=E1w2其中,如此计算下去,如果X的秩是A,则最终得到:(1.3)拟合将样本y中除去某个样本点i,用该部分样本提取h个成分拟合一个回归方程,然后将被排除的样本i带入到该回归方程中,得到拟合值则定义yi的预测误差平方和为SPRESS,hj,即定义yi的误差平方和为SSS,hj,即所述基于偏最小二乘法的乳腺细胞异常检测方法,其中,所述步骤(2)具体步骤为:定义第i个样本点对第h成分th的贡献率来找到样本中的特异点,定义贡献率为:式中是成分th的方差,测量出样本点i对成分t1,t2,…,tm的累计贡献率:在SIMCA-P13.0软件中绘制T2椭圆图,落在椭圆之外的样本点为特异点,去掉特异点进行重新拟合,直到样本中不存在特异点。有益效果:本专利技术通过偏最小二乘回归的方法,建立起乳腺细胞异常检测的回归模型,通过对回归模型的训练,生成较好的良恶性乳腺细胞的预测方法,通过对乳腺细胞的10个特征对其进行预测,结果达到了93.67%的正确率,能够有效地对乳腺癌细胞是否癌变的情况进行分析和预测,对乳腺癌的诊断与预防有重要的作用。本专利技术利用偏最小二乘法,对有10个特征变量的乳腺细胞进行了回归建模,较好的预测出了细胞是否癌变,准确率达93.67%。从实验数据中可以看出,细胞的半径、质地、凹点以及周长和面积等与细胞癌是否变异呈正相关,而分形维数呈负相关;有VIPj数可看出,凹点、周长、半径、面积和凹度对预测值的贡献度最大,而细胞的对称性、光滑度和分形维数对预测值的贡献度相对较小,在进行回归变量的选择时,有时可以舍弃贡献度较小的自变量。但有关VIPj指标分析的结论基本还是定性的,只能说这些自变量的作用更大一些,并且VIP方法还有一些局限性,当自变量的贡献度非常大时,不能说这几个自变量就是最好的变量选择,有时还要考虑变量之间的相关性来取舍。因此可以看出本专利技术具有符合乳腺细胞表征的恰当检测指标,以及较高的准确率。偏最小二乘法可运用于许多领域之中,并且建立出的预测模型有较好的准确率,可用性强。乳腺癌作为一个发病率高且早期诊断效果好的疾病,对于乳腺细胞的观测就成为了一个预防乳腺癌的重要手段。偏最小二乘回归偏最小二乘回归(PartialLeast-SquaresRegression,PLS回归)是一种先进的多元分析方法,它由多元线性回归分析、典型相关分析和主成分分析构成,在许多的领域都有这广泛的应用,同时在进行多元建模预测上取得了很好的成效,并且建立出的预测模型具较高的稳定性、准确率和抗噪声能力,所以对于解决乳腺癌这类有多种影响因素的问题来说,是本文档来自技高网...
一种基于偏最小二乘法的乳腺细胞异常检测方法

【技术保护点】
一种基于偏最小二乘法的乳腺细胞异常检测方法,其特征在于,具体包括:(1)将用于建立模型的数据集中所得的数据均分为两部分,一部分用于模型的建立,另一部分用于模型的检测,设定相应的因变量和自变量,对数据进行标准化处理,分别提取自变量和因变量的主成分,拟合并建立模型;(2)T2为样本点对成分的累计贡献率,利用软件绘制并观察T2椭圆图,识别异常点,将异常点从数据集中剔除,得到新的数据集和模型,再次拟合并观察T2椭圆图直到不存异常点,获得参数集,求得是否为癌细胞的因变量y的表达方程式;(3)输入另一部分待测数据集,利用求得的方程将数值带入进行计算,得到预测值y’,确定阈值,规定大于阈值的预测值为恶性细胞,小于阈值的预测值为良性细胞,将y’与原值进行比较,记录正确预测的结果,计算出该预测模型的正确率。

【技术特征摘要】
1.一种基于偏最小二乘法的乳腺细胞异常检测方法,其特征在于,具体包括:(1)将用于建立模型的数据集中所得的数据均分为两部分,一部分用于模型的建立,另一部分用于模型的检测,设定相应的因变量和自变量,对数据进行标准化处理,分别提取自变量和因变量的主成分,拟合并建立模型;(2)T2为样本点对成分的累计贡献率,利用软件绘制并观察T2椭圆图,识别异常点,将异常点从数据集中剔除,得到新的数据集和模型,再次拟合并观察T2椭圆图直到不存异常点,获得参数集,求得是否为癌细胞的因变量y的表达方程式;(3)输入另一部分待测数据集,利用求得的方程将数值带入进行计算,得到预测值y’,确定阈值,规定大于阈值的预测值为恶性细胞,小于阈值的预测值为良性细胞,将y’与原值进行比较,记录正确预测的结果,计算出该预测模型的正确率。2.如权利要求1所述的基于偏最小二乘法的乳腺细胞异常检测方法,其特征在于:所述步骤(1)是通过软件SIMCA-P13.0导入用于建立模型的数据集,所述自变量主要包括半径、质地、周长、面积、光滑度、致密性、凹度、凹点、对称性和分形维数;所述因变量为是否是癌变细胞。3.如权利要求1所述的基于偏最小二乘法的乳腺细胞异常检测方法,其特征在于:所述步骤(2)中当样本点都落在椭圆内时,认为样本是均匀的;若有样本点落在椭圆外,则可以认为这些点为特异点它们的取值远离样本点的平均水平。4.如权利要求1所述的基于偏最小二乘法的乳腺细胞异常检测方法,其特征在于:所述步骤(3)中确定的阈值为0.5,规定大于0.5的预测值为恶性细胞,小于0.5的预测值为良性细胞。5.如权利要求1所述的基于偏最小二乘法的乳腺细胞异常检测方法,其特征在于,所述步骤(1)具体包括以下步骤:(1.1)对自变量和因变量进行标准化处理xij*=xij-xj‾sj,i=1,2,...m;j=1,2,...,n]]>yij*=yij-yj‾sy,i=1,2,...m;j=1,2,...,n]]>X经标准化处理后的数据矩阵记为E0=(E01,E02,...,E0p)n×p,Y经过标准化处理后的数据矩阵记为F0=(F01,F02,...,F0...

【专利技术属性】
技术研发人员:陈善雄朱雨晨彭喜化周俊浦汛彭茂玲
申请(专利权)人:西南大学
类型:发明
国别省市:重庆;50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1