【技术实现步骤摘要】
基于随机森林算法的循环肿瘤细胞识别系统
[0001]本专利技术属于人工智能领域,涉及基于随机森林算法的循环肿瘤细胞识别系统。
技术介绍
[0002]肿瘤(tumor)是指在各种致癌因素作用下,机体局部组织细胞在基因水平失去正常调控能力,使得细胞异常增殖而形成的新生物。肿瘤几乎可以发生于全身所有器官组织,根据其对身体的危害程度以及生物学特征,将其分为良性肿瘤(benign tumor)、交界性肿瘤(borderline tumor)、恶性肿瘤(malignant tumor)三种类型,其中恶性肿瘤是最严重的一类,严重影响着患者的工作学习和生活质量。
[0003]循环肿瘤细胞(circulating tumor cell,CTC)是一类存在于外周血中的肿瘤细胞,尽管大部分CTC在外周血中会凋亡或被自然杀伤细胞、巨噬细胞等吞噬,但仍有少数CTC会发生逃逸并发展为转移灶。CTC是恶性肿瘤血行转移的重要机制,肿瘤转移是导致多数恶性肿瘤患者治疗失败的重要原因,而肿瘤细胞自实体瘤病灶脱落进入循环系统是血行转移的重要发生机制。已有研 ...
【技术保护点】
【技术特征摘要】
1.基于随机森林算法的循环肿瘤细胞识别系统,包括存储器、处理器及储存在存储器上并能够在处理器上运行的计算机程序,其特征在于:所述处理器执行所述计算机程序时实现的方法包括以下步骤:S1:富集足够数量的循环肿瘤细胞;S2:将收集到的1573个基于循环肿瘤细胞的生物图像样本,按照细胞核形态异常和细胞质形态异常进行图像的标筛;S3:图像分割、图像预处理和建立训练集;S4:建立基于随机森林算法的循环肿瘤细胞特征分列提取系统,用于分类循环肿瘤细胞图像;S5:将模拟血样细胞图像与真实血样细胞图像分别输入系统,进行比较和验证。2.根据权利要求1所述的基于随机森林算法的循环肿瘤细胞识别系统,其特征在于:当所述训练集比例为95%,测试集比例为5%,决策树数量为100时,随机森林模型准确率最佳,为95.6%;将1573张图片输入随机森林模型,进行50分钟的完整训练;当把含有内参细胞的模拟血样图像输入系统时,10次实验得到准确率平均值为94.59%,当把真实血样图像输入系统时,10次实验得到的准确率平均值为83.03%。3.根据权利要求2所述的基于随机森林算法的循环肿瘤细胞识别系统,其特征在于:所述S2和S3中,对循环肿瘤细胞样本图片进行一个打标处理;然后对打标好的原始肿瘤细胞进行预处理,对样本图片进行裁剪,并筛除裁剪后非肿瘤细胞的图片;再将肿瘤细胞图像做优化处理,使图片特征更加明显;接着搭建随机森林模型进行训练和测试;最后分别使用模拟血样和真实血样对训练出的模型进行测试;经过人工的打标处理后,获得1573个循环肿瘤细胞样本图片;在数据预处理阶段,首先基于先验知识对数据进行手动筛选,筛除非肿瘤细胞,然后针对每张肿瘤图片使用最大连通域算法,找到细胞核最大的细胞,作为标准细胞,并将其裁剪出来;接着对筛选出来的细胞进行手工筛选,将非肿瘤细胞的图片筛掉,再对筛选后的细胞进行图像翻转和对比度增强,加入高斯噪声,使图像特征更明显;;接下来,手动对裁剪出的5049个循环肿瘤细胞二维图样本进行分类,分为三类不同肿瘤细胞,每类样本又被五个特征所描述;裁剪后对数据进行进一步的分析,发现第一类和第二类的细胞数目较少;在原有的图片基础上再次进行图片增强,为对第一类和第二类的原图像双边滤波之后进行加入椒盐噪声、图像锐化的操作,在一定程度上增加第一类和第二类细胞的数量;最后再对处理后的图片进行特征提取数字化处理,包括一阶颜色矩,二阶颜色矩阵,三阶颜色矩,图像的均值、方差、歪斜度、峰态、能量,灰度共生矩阵的对比度、相关、能量、同质性,不变矩等特征参数;经过整个图片预处理过程,得到图片预处理和裁剪后的图片。4.根据权利要求3所述的基于随机森林算法的循环肿瘤细胞识别系统,其特征在于:所述S3中,在随机森林模型训练中每次有放回地随机选择500个训练样本,作为一棵决策树的训练样本;使用前面预处理环节提取的每张图片的一阶颜色矩、二阶颜色矩阵、三阶颜色矩、图像的均值、方差、歪斜度、峰态能量、灰度共生矩阵的对比度、相关、能量、同质性和不变矩阵,共37列作为每张图片的特征向量作为随机森林模型的输入进行训练。
5.根据权利要求4所述的基于随机森林算法的循环肿瘤细胞识别系统,其特征在于:所述S5中,对于模型的评估,计算机器学习量化评价指标准确率,同时考虑召回值来评估模型假阴性的指标,精确度来评估模型假阳性的指标,并使用F
‑
measure来综合控制召回值和精确度,具体计算公式如下:公式1模型准确率计算:公式2模型召回率计算:公式3模型精确度计算:公式4模型F
‑
measure计算:其中,TP代表实际为正确,且模型判断为正确,所以最终结果为正确的样本数量;FN代表实际为错误,且模型判断为错误,所以最终结果为正确的样本数量;TN代表实际为正确,且模型判断为错误...
【专利技术属性】
技术研发人员:陈炳地,李欣,张凌哲,
申请(专利权)人:致慧医疗科技上海有限公司嘉格医药天津有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。