一种基于大数据与机器学习的诊断乳腺癌病情的方法技术

技术编号:20871376 阅读:48 留言:0更新日期:2019-04-17 10:21
本发明专利技术公开了一种基于大数据与机器学习的诊断乳腺癌病情的方法,包括如下步骤,通过Hadoop分布式并行运算平台对大量的X光和超声图像进行加密存储,对二维图像信息任意选取滤波器进行卷积训练,在此基础上,通过修改滤波器上的权重使它能识别某种特征,构建具有高阶卷积层的卷积神经网络,在图像经过多个卷积层后,神经元将被编码成完全相关的空间特征,这些特征可被全连接网络学习。通过卷积神经网络的前反馈学习,实现对乳腺癌病情的分类,分类成良性或恶性,减少医疗上的乳腺癌假阳性诊断病例。

【技术实现步骤摘要】
一种基于大数据与机器学习的诊断乳腺癌病情的方法
本专利技术涉及计算机
,尤其涉及一种基于大数据与机器学习的诊断乳腺癌病情的方法。
技术介绍
随着各种新型信息发布方式的不断涌现,以及云计算、物联网等技术的兴起,以及遍布地球各个角落的各种各样的传感器,数据正以前所未有的速度在不断地增长和累积,大数据时代已经来到。如何通过机器学习、数据挖掘等方法从这些大数据中更快速、更精确地挖掘出有价值的数据,是当今学术界和工业界研究的热点。在基于云计算平台的分布式数据挖掘方向的研究,已经得到了广泛地展开并且取得了大量优秀的成果。Hadoop是目前大数据平台中应用率最高的技术,特别是针对诸如文本、社交媒体订阅以及视频等非结构化数据。MapReduce采用shared-nothing架构设计,在执Job时,各个Job之间是彼此隔离的,通过HDFS等部件进行交互,数据存储在各个结点上,即使有一个结点损坏了也能保证数据不受损。Hadoop平台的并行运算使处理大量数据成为可能。乳腺癌是导致全球女性死亡的第二大癌症类型,其中,浸润性乳腺癌是主要的乳腺癌类型。据报道,美国八分之一的女性都会被确诊为浸润性乳腺癌。在2017年,粗略预计有255180例患者被确诊为浸润性乳腺癌,有40610位患者死于乳腺癌。当癌症早期发现时,常常可以治愈。一般来说,医生都会建议健康女性一年做一次乳腺癌检查,尤其是年过50的中年妇女,她们的患病率较高。乳腺癌的检查流程一般包括乳房X射线和超声图像检测,一般得到的图像大小为300*225像素,但这是一种比较主观的诊断,经常会导致假阳性结果,导致不必要的活检和手术。假阳性的一个常见原因是所谓的“高风险”病变,当通过X光进行检测时,在乳房X光片上看起来可疑,并且具有异常细胞。在这种情况下,患者通常要进行手术以去除病变;然而,90%的时间病变在手术中被发现是良性的。这意味着每年都有数千名妇女经历痛苦,昂贵,疤痕诱导的手术,这本来可以避免。X射线图像和超声图像是一种非结构化数据。在医院里,每天都产生这些大量的非结构化的数据。面对非结构化的图像数据,传统的医疗方式是把图像交给医生诊断,但这种诊断不仅耗时而且诊断的结果非常依赖医生的水平。针对大型非结构化的图像数据,卷积神经网络有出色的表现,图像识别高效,特别使模式分类领域。因此,如何分析X射线图像和超声图像数据,选择合适的机器学习算法,用计算机诊断乳腺癌病情是良性还是恶性是本专利技术的重点研究问题。因此,我们提供了一种基于大数据与机器学习的诊断乳腺癌病情的方法。
技术实现思路
本专利技术的目的是为了解决医疗中的乳腺癌的拍片图像诊断,减少乳腺癌的假阳性诊断病例,而提出的一种基于大数据与机器学习的诊断乳腺癌病情的方法。为了实现上述目的,本专利技术采用了如下技术方案:设计一种基于大数据与机器学习的诊断乳腺癌病情的方法,包括如下步骤:S1:针对乳腺癌拍片的图像的不完整性,图像数据在导入大数据平台之前需进行图像数据预处理;S2:使用密码登陆到Hadoop分布式系统,通过人为把预处理好的大量乳腺癌检查中的X光和超声图像数据分类存储在Hadoop平台上,使用Hadoop大数据平台对图像信息进行处理分析,选取诊断为恶性的图像数据作为机器学习训练数据,数据平台数据采用加密传输,保证数据的安全性的同时不影响图像数据的使用;S3:导入Hadoop大数据平台的二维图像信息,通过分布式计算机运算进行大量数据的卷积神经网络训练,任意选取滤波器进行卷积训练,在此基础上,通过修改滤波器上的权重使它能识别某种特征,构建具有识别图像某一特征的高阶卷积神经元;S4:在图像经过多个卷积层后,神经元被编码成完全相关的空间特征,这些特征经过全连接神经网络学习,通过卷积神经网络的神经元反馈学习,训练出一个能分类图像的某一特征的模型,最终得到一个诊断结果模型,实现对乳腺癌病情的分类(良性或恶性)。优选的,在S1中,图像数据预处理的具体步骤如下:A1、将图像数据分成三部分数据集,75%用于训练数据集,12.5%用于验证数据集,剩下的12.5%作为测试数据集;A2、把乳腺癌的图像采用3*3的中值滤波器来移除图像中的斑点噪音,将每个图像上的像素值标准化,使出现零均值;A3、将每张图片旋转某一角度,重复n次,控制n的次数,确保整个病变区位于图像的核心,完成图像数据的初步分类。优选的,在S2中,所述图像信息进行处理分析是对乳腺癌检查中的X光和超声图像数据进行提取、选择,使用卷积神经网络算法。优选的,在S3中,得到一个高阶卷积神经元的具体步骤如下:B1、特征选择,特征选择区域选择图像中出现病变的区域,特征选取与患者的乳房大小、图像拍摄的角度等因素有关,需要计算出特征选择的图像的区域;B2、特征提取,选择滤波器对图像信息进行特征提取,特征的提取与患者的患病程度有关,计算出能表示图像特征区域特征的滤波器的大小,针对不同的特征采用不同的权值表示特征。优选的,在S4中,所述神经元反馈学习是由图像的特征选择和特征提取的卷积形成的神经元构成的卷积神经网络学习,它能通过全网络反馈更新权重,有卷积神经网络反向传播学习的帮助,神经网络的内部权重会根据每次迭代获得的错误信息自动更新,得到图像分类模型。优选的,所述卷积神经网络学习的具体步骤如下:C1、将输入的图像通过滤波器检测后卷积,经过这第一节卷积层后,它就能识别某一简单特征,例如曲线;C2、把能识别的某一简单的特征的激活图作为第二个卷积层的输入数据;C3、第二个卷积层卷积输出激活图作为下一个卷积层的输入数据,依次卷积到N层,从N层卷积层上得到一个高阶的识别图像某一复杂特征的空间特征。优选的,所述卷积神经网络反向传播学习的具体步骤如下:D1、前向传播:第一个训练中,所有的权重或过滤器的值被随机初始化,是一个完全不能优先考虑任何数字的输出;D2、损失计算:分析需要识别的图像的某一特征,用数字贴上标签,计算标签数字与随机生成权重数字的差异值;式中:total表示总量,target表示目标量,output表示输出量。D3、反向传播:检测出哪个权重损失最大并且寻找方法来调整它们使损失降低;D4、权重更新:权重优化,更改数字特征。式中:w表示权重,wi表示初始权重,η表示学习率。优选的,在S1中的Hadoop分布式系统,数据以弹性分布式数据集对象的形式存储在Hadoop分布式系统中。本专利技术提出的一种基于大数据与机器学习的诊断乳腺癌病情的方法,有益效果在于:1.本专利技术针对乳腺癌在临床判断中存在比较主观的诊断,经常会导致假阳性结果,导致不必要的活检和手术,利用大数据平台分析处理乳腺癌的拍片图像数据,达到机器学习诊断乳腺癌病情。2.本专利技术针对乳腺癌的拍片图像特征是高阶空间特征,使用高阶卷积层,构成卷积神经网络,提高机器学习分类的准确度。附图说明图1为本专利技术提出的一种基于大数据与机器学习的诊断乳腺癌病情的方法的卷积神经网络示意图;图2为本专利技术提出的一种基于大数据与机器学习的诊断乳腺癌病情的方法的机器学习过程示意图;图3为本专利技术提出的一种基于大数据与机器学习的诊断乳腺癌病情的方法的滤波器识别曲线的原理图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅本文档来自技高网
...

【技术保护点】
1.一种基于大数据与机器学习的诊断乳腺癌病情的方法,其特征在于,包括如下步骤:S1:针对乳腺癌拍片的图像的不完整性,图像数据在导入大数据平台之前需进行图像数据预处理;S2:使用密码登陆到Hadoop分布式系统,通过人为把预处理好的大量乳腺癌检查中的X光和超声图像数据分类存储在Hadoop平台上,使用Hadoop大数据平台对图像信息进行处理分析,选取诊断为恶性的图像数据作为机器学习训练数据,数据平台数据采用加密传输,保证数据的安全性的同时不影响图像数据的使用;S3:导入Hadoop大数据平台的二维图像信息,通过分布式计算机运算进行大量数据的卷积神经网络训练,任意选取滤波器进行卷积训练,在此基础上,通过修改滤波器上的权重使它能识别某种特征,构建具有识别图像某一特征的高阶卷积神经元;S4:在图像经过多个卷积层后,神经元被编码成完全相关的空间特征,这些特征经过全连接神经网络学习,通过卷积神经网络的神经元反馈学习,训练出一个能分类图像的某一特征的模型,最终得到一个诊断结果模型,实现对乳腺癌病情的分类(良性或恶性)。

【技术特征摘要】
1.一种基于大数据与机器学习的诊断乳腺癌病情的方法,其特征在于,包括如下步骤:S1:针对乳腺癌拍片的图像的不完整性,图像数据在导入大数据平台之前需进行图像数据预处理;S2:使用密码登陆到Hadoop分布式系统,通过人为把预处理好的大量乳腺癌检查中的X光和超声图像数据分类存储在Hadoop平台上,使用Hadoop大数据平台对图像信息进行处理分析,选取诊断为恶性的图像数据作为机器学习训练数据,数据平台数据采用加密传输,保证数据的安全性的同时不影响图像数据的使用;S3:导入Hadoop大数据平台的二维图像信息,通过分布式计算机运算进行大量数据的卷积神经网络训练,任意选取滤波器进行卷积训练,在此基础上,通过修改滤波器上的权重使它能识别某种特征,构建具有识别图像某一特征的高阶卷积神经元;S4:在图像经过多个卷积层后,神经元被编码成完全相关的空间特征,这些特征经过全连接神经网络学习,通过卷积神经网络的神经元反馈学习,训练出一个能分类图像的某一特征的模型,最终得到一个诊断结果模型,实现对乳腺癌病情的分类(良性或恶性)。2.根据权利要求1所述的一种基于大数据与机器学习的诊断乳腺癌病情的方法,其特征在于,在S1中,图像数据预处理的具体步骤如下:A1、将图像数据分成三部分数据集,75%用于训练数据集,12.5%用于验证数据集,剩下的12.5%作为测试数据集;A2、把乳腺癌的图像采用3*3的中值滤波器来移除图像中的斑点噪音,将每个图像上的像素值标准化,使出现零均值;A3、将每张图片旋转某一角度,重复n次,控制n的次数,确保整个病变区位于图像的核心,完成图像数据的初步分类。3.根据权利要求1所述的一种基于大数据与机器学习的诊断乳腺癌病情的方法,其特征在于,在S2中,所述图像信息进行处理分析是对乳腺癌检查中的X光和超声图像数据进行提取、选择,使用卷积神经网络算法。4.根据权利要求1所述的一种基于大数据与机器学习的诊断乳腺癌病情的方法,其特征在于,在S3中,得到一个高阶卷积神经元的具体步骤如下:B1、特征选择,特征选择区域选择图像中出现病变...

【专利技术属性】
技术研发人员:李振彰钟碧良曹玉军张绍安林广松梁运鑫
申请(专利权)人:广州航海学院
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1