基于卷积神经网络的人体细胞蛋白质自动识别方法及系统技术方案

技术编号:21090855 阅读:45 留言:0更新日期:2019-05-11 10:25
本发明专利技术公开了基于卷积神经网络的人体细胞蛋白质自动识别方法及系统,属于利用计算机视觉方案对医学显微镜图像进行自动识别分类领域,本发明专利技术要解决的技术问题为如何利用监督学习中的卷积神经网络分类器识别图像中细胞内的蛋白质类别,进而判断细胞是否正常,采用的技术方案为:①一种基于卷积神经网络的人体细胞内蛋白质自动识别方法,该方法步骤如下:S1、数据集预处理:按照ProteinResNet32模型的输入格式制作数据集,并设定蛋白质排序确定;S2、模型实现与训练;S3、模型部署与持续优化。②一种基于卷积神经网络的人体细胞蛋白质自动识别系统,该系统包括数据集预处理模块、模型实现与训练模块和模型部署与持续优化模块。

【技术实现步骤摘要】
基于卷积神经网络的人体细胞蛋白质自动识别方法及系统
本专利技术涉及利用计算机视觉方案对医学显微镜图像进行自动识别分类领域,具体地说是基于卷积神经网络的人体细胞蛋白质自动识别方法及系统。
技术介绍
卷积神经网络能够对原始数据中的空间特征进行学习,通过将不同的卷积层堆叠到一起能够组成一个特征表示学习器。该学习器逐层对输入数据进行由浅入深的特征表示学习,最后输出相对于原始数据的低维特征向量,该特征向量能够被分类器作为输入特征,实现对原始数据的正确分类。卷积神经网络和全连接分类器拼接在一起组成了常见的卷积神经网络分类器,其中的卷积核权重和全连接权重组成了该分类器的参数。对数据样本的类别进行标注,组成了训练卷积神经网络分类器的数据集。将数据集样本输入到分类器中,设定模型损失函数,使用梯度下降法优化网络,不断调整参数数值,从而降低损失函数值。当模型的评估指标满足要求时,便得到了一个可以解决实际问题的模型。人体细胞中的蛋白质根据结构的不同,包括核质(Nucleoplasm)、核膜(Nuclearmembrane)、核仁(Nucleoli)、高尔基体(Golgiapparatus)、线粒体(Mitochondria)、中心体(Centrosome)、肌动蛋白微丝(Actinfilaments)等等。通过显微镜,可以观察到人体细胞中复杂的结构。蛋白质是细胞中各种职责的主要承担者,不同功能的蛋白质主要借助空间结构完成特定的任务,不同功能的细胞其内部的蛋白质结构也存在差别。到目前为止,我们已经研究清楚了人体细胞中的多种蛋白质,有经验的专业人员可以轻易在显微镜中识别出蛋白质组成的不同结构。蛋白质在细胞中的类别非常重要,对细胞功能的研究、疾病诊断等意义重大,如何利用监督学习中的卷积神经网络分类器识别图像中细胞内的蛋白质类别,进而判断细胞是否正常是目前现有技术中存在的技术问题。专利号为CN109034045A的专利文献公开了一种基于卷积神经网络的白细胞自动识别方法,首先人工对细胞数据集进行标记,做出一个标准的数据集,再使用迁移学习的方法,将VGG-Net的模型和参数迁移到WBC-Net卷积神经网络中,通过提取其中效果最好的特征层作为特征参数训练集成分类器,完成对白细胞的识别功能。但是该技术方案不能利用监督学习中的卷积神经网络分类器识别图像中细胞内的蛋白质类别,进而判断细胞是否正常。专利号为CN107609585A的专利文献公开了一种基于卷积神经网络的体液细胞显微图像识别方法,体液细胞显微图像的识别方法,具体包括:先遍历训练集的图片,计算出归一化的尺寸;对训练集中大小、种类不同的细胞图像进行归一化处理,得到尺寸一致的细胞图像;搭建卷积神经网络;训练卷积神经网络;对细胞图片测试集输入网络得到细胞识别结果,准确率达98.6%。但是该技术方案不能利用监督学习中的卷积神经网络分类器识别图像中细胞内的蛋白质类别,进而判断细胞是否正常。
技术实现思路
本专利技术的技术任务是提供基于卷积神经网络的人体细胞蛋白质自动识别方法及系统,来解决如何利用监督学习中的卷积神经网络分类器识别图像中细胞内的蛋白质类别,进而判断细胞是否正常的问题。本专利技术的技术任务是按以下方式实现的,一种基于卷积神经网络的人体细胞内蛋白质自动识别方法,该方法步骤如下:S1、数据集预处理:按照ProteinResNet32模型(残差卷积神经网络模型)的输入格式制作数据集,并设定蛋白质排序确定,则D={(x,y)|x∈R512*512*4,y=α1*m};其中,D为数据集;R为实数集;m为蛋白质的类别数量;α1*m为一个1*m的类别向量;x为样本;y为标签;S2、模型实现与训练:按照ProteinResNet32模型的结构,选择深度学习编程框架并采用ReLU激活函数作用到所有卷积层和全连接层,实现ProteinResNet32模型,并对ProteinResNet32模型进行训练;S3、模型部署与持续优化:将训练完毕的ProteinResNet32模型部署到应用环境,采集到的样本图像按照步骤S1中要求的格式输入到ProteinResNet32模型中,并根据样本类别的判断结果不断优化ProteinResNet32模型。作为优选,所述步骤S1中样本x的类别包含第k个蛋白质类别时,标签y=α1*m的第k个元素值为1,否则为0;数据集D中样本按照类别随机抽取70%作为训练集,剩余30%作为测试集。作为优选,所述步骤S2中深度学习编程框架采用TensorFlow、PyTorch或Keras。更优地,所述步骤S2中对ProteinResNet32模型进行训练的具体步骤如下:S201、设定损失函数为交叉熵损失函数,并使用L2正则化方法约束ProteinResNet32模型的权重参数;S202、随机初始化ProteinResNet32模型;S203、批量输入训练集图像;S204、使用小批量随机梯度下降法迭代调整优化模型;S205、当ProteinResNet32模型在测试集上的正确率满足要求时,停止训练。更优地,所述步骤S3中优化ProteinResNet32模型的具体步骤如下:S301、ProteinResNet32模型输出预测向量S302、当βi>0.5时,判定该图像中蛋白质结构包含类别i;S303、记录专家对样本类别的判断结果,持续补充到数据集D中;S304、当新增样本数量超过原样本数量的三分之一时,重新划分数据集D,再次优化ProteinResNet32模型。更优地,所述ProteinResNet32模型的结构如下:其中,convM_i表示一个残差卷积块,M的取值为2、3或4,每个卷积块内有三层卷积顺序组成,构成了唯一的卷积堆叠模式;i(i>=1)表示块内的卷积模式序号,当i为奇数时,卷积移动步长为2,其余为1;当i为偶数时,块内添加残差结构;conv1层的卷积移动步长为2;ProteinResNet32模型共有31个卷积层和1个全连接层。本专利技术把细胞内蛋白质类别视作分类问题,因为一张图像中可能包含不止一种蛋白质结构,所以,该分类问题是一个多分类任务,建立上述ProteinResNet32模型来解决分类问题。更优地,所述ProteinResNet32模型的输入为人体细胞内部的显微镜下成像的图像,因为不同过滤器对某些特征结构有突出作用,ProteinResNet32模型的输入为同一时刻不同过滤器作用后的单通道图像。一种基于卷积神经网络的人体细胞蛋白质自动识别系统,该系统包括数据集预处理模块、模型实现与训练模块和模型部署与持续优化模块;其中,数据集预处理模块用于按照ProteinResNet32模型(残差卷积神经网络模型)的输入格式制作数据集,并设定蛋白质排序确定;模型实现与训练模块用于对ProteinResNet32模型进行实现和对ProteinResNet32模型进行训练;模型部署与持续优化模块用于将训练完毕的ProteinResNet32模型部署到应用环境,采集到的样本图像按照ProteinResNet32模型要求的格式输入到ProteinResNet32模型中,并根据样本类别的判断结果不断优化ProteinResNet32模型。作为优选,所述模型实现与训练模块包括模型实现模块本文档来自技高网
...

【技术保护点】
1.一种基于卷积神经网络的人体细胞内蛋白质自动识别方法,其特征在于,该方法步骤如下:S1、数据集预处理:按照ProteinResNet32模型的输入格式制作数据集,并设定蛋白质排序确定,则D={(x,y)|x∈R

【技术特征摘要】
1.一种基于卷积神经网络的人体细胞内蛋白质自动识别方法,其特征在于,该方法步骤如下:S1、数据集预处理:按照ProteinResNet32模型的输入格式制作数据集,并设定蛋白质排序确定,则D={(x,y)|x∈R512*512*4,y=α1*m};其中,D为数据集;R为实数集;m为蛋白质的类别数量;α1*m为一个1*m的类别向量;x为样本;y为标签;S2、模型实现与训练:按照ProteinResNet32模型的结构,选择深度学习编程框架并采用ReLU激活函数作用到所有卷积层和全连接层,实现ProteinResNet32模型,并对ProteinResNet32模型进行训练;S3、模型部署与持续优化:将训练完毕的ProteinResNet32模型部署到应用环境,采集到的样本图像按照步骤S1中要求的格式输入到ProteinResNet32模型中,并根据样本类别的判断结果不断优化ProteinResNet32模型。2.根据权利要求1所述的基于卷积神经网络的人体细胞内蛋白质自动识别方法,其特征在于,所述步骤S1中样本x的类别包含第k个蛋白质类别时,标签y=α1*m的第k个元素值为1,否则为0;数据集D中样本按照类别随机抽取70%作为训练集,剩余30%作为测试集。3.根据权利要求1或2所述的基于卷积神经网络的人体细胞内蛋白质自动识别方法,其特征在于,所述步骤S2中深度学习编程框架采用TensorFlow、PyTorch或Keras。4.根据权利要求3所述的基于卷积神经网络的人体细胞蛋白质自动识别方法,其特征在于,所述步骤S2中对ProteinResNet32模型进行训练的具体步骤如下:S201、设定损失函数为交叉熵损失函数,并使用L2正则化方法约束ProteinResNet32模型的权重参数;S202、随机初始化ProteinResNet32模型;S203、批量输入训练集图像;S204、使用小批量随机梯度下降法迭代调整优化模型;S205、当ProteinResNet32模型在测试集上的正确率满足要求时,停止训练。5.根据权利要求4所述的基于卷积神经网络的人体细胞蛋白质自动识别方法,其特征在于,所述步骤S3中优化ProteinResNet32模型的具体步骤如下:S301、ProteinResNet32模型输出预测向量S302、当βi>0.5时,判定该图像中蛋白质结构包含类别i;S303、记录专家对样本类别的判断结果,持续补充到数据集D中;S304、当新增样本数量超过原样本数量的三分之一时,重新划分数据集D,再次优化ProteinResNet32模型。6.根据权利要求5所述的基于卷积神经网络的人体细胞蛋白质自动识别方法,其特征在于,所述ProteinResNet32模型的结构如下:其中,convM_i表示一个残差卷积块,M的取值为2、3或4,每个卷积块内有三层卷积顺序组成,构成了唯一的卷积堆叠模式;i(i>=1)表示块内的卷积模式序号,当...

【专利技术属性】
技术研发人员:高岩姜凯于治楼
申请(专利权)人:济南浪潮高新科技投资发展有限公司
类型:发明
国别省市:山东,37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1