基于单细胞表现型数据库的表型数据分析处理方法技术

技术编号:14339486 阅读:100 留言:0更新日期:2017-01-04 12:05
本发明专利技术涉及一种基于单细胞表现型数据库的表型数据分析处理方法。本发明专利技术的主要模块由单细胞表现型数据库和表型数据分析处理方法两部分组成。(1)基于单细胞表现型数据库的细胞图像分析处理方法,该方法通过分析比对表型数据库中细胞图像信息,结合未知细胞图像数据进行比对并找出最佳匹配细胞,从而获取此未知细胞的详细信息。(2)基于单细胞表现型数据库的细胞拉曼数据分析处理方法。该方法通过分析比对表型数据库中细胞拉曼信息,结合未知细胞拉曼数据进行比对并找出最佳匹配细胞,从而获取此未知细胞的详细信息。

【技术实现步骤摘要】

本专利技术涉及单细胞研究与细胞科学应用领域,具体的说是一种基于单细胞表现型数据库的表型数据分析处理方法
技术介绍
单个细胞是生命活动的基本单元,地球上所有生物均由单细胞构成或单细胞分化形成。对单细胞进行深入系统的研究不仅可以全景式地揭示生命活动的本质,而且单个细胞的特异性与分化过程对于研究疾病机理和诊断预防疾病等具有重要的意义。“单细胞研究”(针对特定功能的单个细胞的分析)将能够解析生命体系最“深”层次的运作机制,因此能够带来生命科学及其在能源、环境、健康、农业、海洋等广泛应用领域的突破。美国国家健康研究院(NIH)更是于2012年9月启动了“SingleCellAnalysisProgram”,公布了对26个项目总计9000万美元的资助,主要用于单细胞领域新工具、新技术的开发(http://commonfund.nih.gov/singlecell/fundedresearch.aspx.)。2012年12月21日的Science杂志将单细胞研究推选为2013年最值得关注的六大科学领域之一。细胞的表现型也就是细胞的表现形式,即利用整体观测手段可以获得的、反映细胞生长状态的信息。对于单细胞而言,表示它特定的物理外观或成分,如细胞形状、大小、颜色特征、纹理特征、类别等等,都是表现型的例子。其中重要的方法包括显微鉴定单细胞形态,以及利用拉曼光谱仪等设备得到的细胞拉曼光谱信号。对单细胞进行研究,也就是对细胞形状、大小、颜色等相关信息分析和细胞种类的判别,这些均需借助于一个包含不同细胞及不同生长周期的表现型数据库及对应的表型数据分析处理系统来实现。而现阶段在国内很少有相关的表型数据分析处理系统的研究,使得建立一套基于单细胞表现型数据库的表型数据分析处理方法对单个细胞进行研究具有重要的实用价值。
技术实现思路
针对现有技术中存在的上述不足之处,本专利技术要解决的技术问题是提供一种基于单细胞表现型数据库的表型数据分析处理方法,通过新一代的细胞分选装备,得到单个或群体细胞(微生物、植物、动物或人体细胞均适用)的表型信息,从而为对这些细胞的组学分析、改造和利用奠定根本的基础。本专利技术为实现上述目的所采用的技术方案是:一种基于单细胞表现型数据库的表型数据分析处理方法,包括以下步骤:细胞图像分析处理阶段:通过分析比对表型数据库中细胞图像信息和未知细胞图像数据;提取未知细胞的表型特征;数据预处理:将提取到的表型特征处理成适合欧式距离算法、KNN算法、支持向量机算法处理的数据;基于单细胞表现型数据库中的特征数据进行分类分析,找出最佳匹配细胞。所述数据预处理包括以下步骤:对图像进行灰度变换;进行图像锐化,使灰度反差增强,从而增强图像中边缘信息;对图像进行平滑滤波,以滤除噪声源;查找图像中灰度变化率最大的地方,得到细胞图像的闭合轮廓,进而提取轮廓中的特征。所述对图像进行平滑滤波采用数字傅里叶滤波,具体为:首先将数据进行快速傅里叶变换,在频率空间与高斯窗函数作用,然后反快速傅里叶变换,得到经带通滤波后的光谱数据。所述基于单细胞表现型数据库中的特征数据进行分类分析,包括训练和判断两个阶段;首先,获取已认识细胞表型的典型样本,进行特征提取和数据预处理,获得特征样本对SVM模型进行训练,找到训练样本中的支持向量,确定SVM模型参数;然后,把未知细胞信息输入到已经参数化的SVM模型对其进行判断。本专利技术具有以下优点及有益效果:收集不同种类单细胞样品,通过构建单细胞表现型数据库系统,借助表型数据分析处理手段,来对未知细胞种类及表型特征进行判别,克服了不能对未知细胞种类进行判别的瓶颈,而且借助于新一代的细胞分选装备可以实现原位、实时对细胞种类进行判别,易于普及市场。本专利技术的应用将会提速单细胞分析的研究。附图说明图1、细胞样本特征提取;细胞样本特征提取通过对细胞图像进行灰度变换、边界检测、深度优先搜索等处理后,获取每个细胞的位置,然后根据位置对每个细胞进行特征提取和数据保存,从而方便后续的分类识别等操作。图2、支持向量机的识别过程;SVM根据已认识细胞表型特征进行SVM模型的训练,从而确定SVM模型参数,然后基于模型参数对未知细胞特征信息进行分析处理,从而判断出未知细胞详细信息。具体实施方式下面结合附图及实施例对本专利技术做进一步的详细说明。本专利技术开发了一种基于单细胞表现型数据库的表型数据分析处理方法,收集不同种类单细胞样品,通过构建单细胞表现型数据库系统,借助表型数据分析处理手段,来对未知细胞种类及表型特征进行判别。主要包括以下两个方面内容(以下以微藻样品为对象示例):1.基于单细胞表现型数据库的细胞图像分析处理方法。该方法通过分析比对表型数据库中细胞图像信息,结合未知细胞图像数据进行比对并找出最佳匹配细胞,从而获取此未知细胞的详细信息。具体流程如下所示:(1)训练样本特征提取和样本集构造提取细胞表型特征是细胞图像分析处理的关键环节,也是构造样本集的基础。一旦获得细胞表型原始数据,要把原始数据映射到样本空间中的点或者向量。这些数据包含细胞表型各个观测部位生理上的本征表象信息如:视觉,触觉等方面的变化及烈度,表象及其烈度组合是确定未知细胞种类的关键依据。一般来说,原始数据包含了冗余信息,需要经过适当的处理变换以求有效地提取细胞表型特征。将提取到的细胞表型特征的样本数据处理成适合支持向量机处理的数据的过程称为数据预处理。首先对图像进行灰度变换;然后进行图像锐化,目的是使灰度反差增强,从而增强图像中边缘信息,有利于轮廓抽取;进而对图像进行平滑滤波,以滤除噪声源(如电子噪声、光子噪声、斑点噪声和量化噪声等),从而提高图像的信噪比,方便进行图像轮廓的查找;最后查找图像中灰度变化率最大的地方,从而得到细胞图像的闭合轮廓,进而提取轮廓中的特征(图1)。然后可以根据特征值将相应数据存入单细胞表现型数据库中。(2)支持向量机的识别过程然后基于数据库中的特征值进行分类分析。目前开发应用的分类算法包括欧式距离算法、KNN算法、支持向量机(SVM)算法。以SVM算法为例,实施由训练和判断两个阶段进行。首先,获取已认识细胞表型的典型样本,进行特征提取和数据预处理,获得特征样本对SVM模型进行训练,找到训练样本中的支持向量,确定SVM模型参数;然后,把未知细胞信息输入到已经参数化的SVM模型对其进行判断,具体流程图如图2所示。2.基于单细胞表现型数据库的细胞拉曼数据分析处理方法。该方法通过分析比对表型数据库中细胞拉曼信息,结合未知细胞拉曼数据进行比对并找出最佳匹配细胞,从而获取此未知细胞的详细信息。具体流程如下所示:2.1光谱处理模块从拉曼系统的结构和工作原理等方面出发,影响光谱信号的主要因素主要有以下几个方面:(1)来自光学系统和探测物的干扰信号光学系统对光谱信号的干扰信号主要是系统的杂散光、象差和无用的次级光谱级引起的假信号等。对于传统的大型光谱仪,光学系统的干扰信号主要是从系统结构和相关的光学元件来进行消除。而激光拉曼光谱仪光谱仪的结构、光学元件和系统集成等方面受到很大的限制,传统方法不可行。只能通过研究这些干扰信号的基本特点,然后再寻求解决的方法。(2)来自电路系统和电源的噪声信号信号采集处理电路的漂移和波动本文档来自技高网
...
基于单细胞表现型数据库的表型数据分析处理方法

【技术保护点】
一种基于单细胞表现型数据库的表型数据分析处理方法,其特征在于,包括以下步骤:细胞图像分析处理阶段:通过分析比对表型数据库中细胞图像信息和未知细胞图像数据;提取未知细胞的表型特征;数据预处理:将提取到的表型特征处理成适合欧式距离算法、KNN算法、支持向量机算法处理的数据;基于单细胞表现型数据库中的特征数据进行分类分析,找出最佳匹配细胞。

【技术特征摘要】
1.一种基于单细胞表现型数据库的表型数据分析处理方法,其特征在于,包括以下步骤:细胞图像分析处理阶段:通过分析比对表型数据库中细胞图像信息和未知细胞图像数据;提取未知细胞的表型特征;数据预处理:将提取到的表型特征处理成适合欧式距离算法、KNN算法、支持向量机算法处理的数据;基于单细胞表现型数据库中的特征数据进行分类分析,找出最佳匹配细胞。2.根据权利要求1所述的基于单细胞表现型数据库的表型数据分析处理方法,其特征在于,所述数据预处理包括以下步骤:对图像进行灰度变换;进行图像锐化,使灰度反差增强,从而增强图像中边缘信息;对图像进行平滑滤波,以滤除噪声源;查找图像中灰度变化率最大的地方,得到细胞图像的闭合轮廓,进而...

【专利技术属性】
技术研发人员:任立辉滕琳王晓君苏晓泉徐健
申请(专利权)人:中国科学院青岛生物能源与过程研究所
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1