基于众包和深度学习的染色体分割和核型分析制造技术

技术编号:20243753 阅读:47 留言:0更新日期:2019-01-29 23:43
核型分析中最具挑战的问题是中期扩散图像中重叠染色体的分割和分类。染色体通常以不同的弯曲程度在不同的方向上弯曲。创造基础事实努力的乏味和耗时性使得难以为训练阶段扩展基础事实。本公开提供了减少染色体分割和核型分析的认知负担的端到端解决方案。通过采用众包同时解决与众包相关的问题,减少了对专家的依赖。通过众包识别的片段被预处理以改善通过使用深度卷积网络(CNN)实现的分类。

【技术实现步骤摘要】
基于众包和深度学习的染色体分割和核型分析优先权要求本申请要求于2017年7月19日提交的第201721025674号印度专利申请的优先权。上述申请的全部内容通过引用并入本文。
本文的实施例通常涉及细胞遗传学,并且更具体地涉及用于基于众包和深度学习的染色体分割和核型分析的系统和方法。
技术介绍
中期染色体分析是细胞遗传学中利用的主要技术之一。观察中期染色体片段或易位可以指示细胞基因组的结构变化,并且通常用于诊断目的。通过在细胞扩散图像中表征个体染色体来完成在中期显微摄影的染色体的核型分析。目前,花费相当大的精力和时间来从细胞图像手动对染色体分割,并将分割的染色体分类成24种类型中的一种,或者将患病细胞分类为已知的易位类型中的一种。在这些图像中对染色体分割可能特别费力,并且通常手动完成,如果图像中存在重叠的染色体,这些染色体不易被图像处理技术分离。已经提出了许多技术来以合理的准确度从扩散图像中自动化染色体的分割和分类,但鉴于该领域的关键性,专业人员通常仍然是需要的。
技术实现思路
本公开的实施例提出了技术改进,作为解决上述专利技术人在传统系统中认识到的一个以上上述技术问题的解决方案。在一个方面,提供了一种处理器实现的方法,包括:接收中期染色体的数字化图像;优化用于对数字化图像分割的众包,其中优化众包包括:将数字化图像划分为多个部分;同时将所述多个部分中的每个部分分配给参与众包劳动力的一个以上工作人员用于通过对所分配部分分割来获得片段,其中所述分割包括标记与所分配部分相交或完全位于所分配部分中的染色体的轮廓;分析从一个以上工作人员接收到的片段以识别并且淘汰来自众包劳动力的垃圾制作者,其中所述分析步骤包括检查虚假标记、检查标记的正确性和标记最大化覆盖;以及基于分析从经分析的片段中选择一组一致片段用于分类。另一方面,提供了一种系统,包括:一个以上数据存储设备,可操作地联结到所述一个以上处理器,并且被配置为存储被配置为由所述一个以上处理器执行的指令,以:接收中期染色体的数字化图像;优化用于对数字化图像分割的众包,优化众包包括:将数字化图像划分成多个部分;同时将所述多个部分中的每个部分分配给参与众包劳动力的一个以上工作人员用于通过对所分配部分分割来获得片段,其中所述分割包括标记与所分配部分相交或完全位于所分配部分中的染色体的轮廓;分析从一个以上工作人员接收到的片段以识别并且淘汰众包劳动力中的垃圾制作者,其中分析步骤包括检查虚假标记、检查标记的正确性和标记最大化覆盖;以及基于分析从经分析的片段中选择一组一致片段用于分类。在又一个方面,提供了一种计算机程序产品,其包括非暂时性计算机可读介质,所述计算机可读介质中包含有计算机可读程序,其中所述计算机可读程序在计算设备上执行时使所述计算设备:接收中期染色体的数字化图像;优化用于对数字化图像分割的众包,优化众包包括:将数字化图像划分成多个部分;同时将所述多个部分中的每个部分分配给参与众包劳动力的一个以上工作人员用于通过对所分配部分分割来获得片段,其中所述分割包括标记与所分配部分相交或完全位于所分配部分中的染色体的轮廓;分析从一个以上工作人员接收到的片段以识别并且淘汰众包劳动力中的垃圾制作者,其中分析步骤包括检查虚假标记、检查标记的正确性和标记最大化覆盖;以及基于分析从经分析的片段中选择一组一致片段用于分类。在本公开的一个实施例中,所述一个以上硬件处理器还被配置为执行通过一个以上过滤步骤来分析所述片段的步骤,过滤步骤包括:淘汰与低于第一阈值的可靠性相关联的一个以上工作人员,其中所述可靠性表示工作人员的标记接近已标记片段数量的模式的次数;淘汰与低于第二阈值的质量相关联的一个以上工作人员,其中所述质量表示冲突标记、基于误解指示的标记和一贯差的分段;以及淘汰与低于第三阈值的片段数量相关联的一个以上工作人员;其中所述第一阈值、所述第二阈值和所述第三阈值是经验值。在本公开的一个实施例中,其中所述一个以上硬件处理器还被配置为使用深度卷积神经网络(CNN)对所述一组一致片段进行分类,所述分类步骤包括:通过以下步骤矫直弯曲的染色体:将所述一致片段的图像二值化,基于二值化图像的像素值和与所述染色体相关联的紧密拟合矩形的总面积,使用白度值从所述一致片段中识别弯曲的染色体;基于所述一致片段的二值化图像上的拟合直线的斜率计算弯曲染色体的弯曲取向;计算所述弯曲染色体的弯曲中心,其中所述弯曲染色体各自包含一个沿着弯曲轴线的臂;以及对沿着弯曲轴线的臂进行拼接,重建弯曲的染色体,以获得矫直的染色体。所述一个以上硬件处理器还被配置为使用着丝粒位置和与其相关联的长度对染色体的长度进行归一化;以及使用深度CNN基于其归一化长度对染色体进行分类。应当理解,前面的一般性描述和下面的详细描述仅仅是示例性和解释性的,并不限制所要求保护的本公开的实施例。附图说明根据以下参考附图的详细描述,将更好地理解本文中的实施例,其中:图1示出根据本公开一个实施例的用于基于众包和深度学习的染色体分割和核型分析的系统的示例性框图;图2a和图2b表示根据本公开一个实施例的用于基于众包和深度学习的染色体分割和核型分析的计算机实现的方法的示例性流程图;图3a和图3b示出由众包劳动力在中期染色体的数字化图像中进行标记的两个示例;图4a和图4b示出由众包劳动力在中期染色体的数字化图像的预定义区域中进行标记的两个示例;图5示出根据本公开一个实施例的涉及矫直弯曲染色体的步骤(a至g);图6a和图6b示出根据本公开一个实施例的具有负斜率的向左弯曲的染色体和具有正斜率的向右弯曲的染色体;图7示出根据本公开一个实施例的在过滤期间被淘汰的来自众包劳动力的响应的示例(a至d);以及图8示出根据本公开一个实施例的从众包劳动力接收的样本(a至c)注释。本领域技术人员应该理解,本文中的任何框图表示体现本主题的原理的说明性系统的概念视图。类似地,可以理解的是,任何流程表、流程图、状态转换图、伪代码等表示可以基本上在计算机可读介质中表示并且由计算设备或处理器执行的各种过程,不管是否这样的计算设备或处理器被明确示出。具体实施方式参考附图描述示例性实施例。在这些图中,附图标记的最左边的数字表示该附图标记首次出现的图。在任何方便的地方,所有附图使用相同的附图标记来表示相同或相似的部分。尽管本文描述了公开的原理的示例和特征,但是在不脱离所公开的实施例的精神和范围的情况下,可以进行修改、改动和其他实现。下面的详细描述仅被认为是示例性的,真正的范围和精神由以下权利要求指示。在阐述详细说明之前,应注意的是,无论所描述的具体实现如何,以下所有讨论本质上都是示例性的,而不是限制性的。染色体是细胞核中含有人体遗传密码的细长绳状结构。人体有23对染色体。染色体核型分析是检测诸如唐氏综合征、爱德华兹综合征、慢性粒细胞白血病和特纳综合征等遗传异常的有用技术。这些异常可以表现为已知的染色体易位和对应于不同病症的片段的形式。核型分析是通过培养细胞和在中期分离细胞核中的染色体并将它们在载玻片上染色以允许显微摄影来进行的。最后,由专家分析染色体图像以分类和分离不同的染色体片段。尽管核型分析染色体对诊断有重要意义,但需要花费大量的人工时间和精力将来自细胞培养物的图像中的染色体分割和分类。本公开的系统和方本文档来自技高网...

【技术保护点】
1.一种处理器实现的方法(200),包括:接收中期染色体的数字化图像(202);优化用于对数字化图像分割的众包(204),优化众包包括:将所述数字化图像划分成多个部分(204a);同时将所述多个部分中的每个部分分配给参与众包劳动力的一个以上工作人员用于通过对所分配部分分割来获得片段,其中所述分割包括标记与所分配部分相交或完全位于所分配部分中的染色体的轮廓(204b);分析从所述一个以上工作人员接收到的片段以识别并且淘汰所述众包劳动力中的垃圾制作者,其中所述分析步骤包括检查虚假标记、检查标记的正确性和标记最大化覆盖(204c);以及基于所述分析从经分析的片段中选择一组一致片段用于分类(204d)。

【技术特征摘要】
2017.07.19 IN 2017210256741.一种处理器实现的方法(200),包括:接收中期染色体的数字化图像(202);优化用于对数字化图像分割的众包(204),优化众包包括:将所述数字化图像划分成多个部分(204a);同时将所述多个部分中的每个部分分配给参与众包劳动力的一个以上工作人员用于通过对所分配部分分割来获得片段,其中所述分割包括标记与所分配部分相交或完全位于所分配部分中的染色体的轮廓(204b);分析从所述一个以上工作人员接收到的片段以识别并且淘汰所述众包劳动力中的垃圾制作者,其中所述分析步骤包括检查虚假标记、检查标记的正确性和标记最大化覆盖(204c);以及基于所述分析从经分析的片段中选择一组一致片段用于分类(204d)。2.根据权利要求1所述的处理器实现的方法,其中分析所述片段的步骤包括一个以上过滤步骤,所述过滤步骤包括:淘汰与低于第一阈值的可靠性相关联的一个以上工作人员,其中所述可靠性表示工作人员的标记接近已标记片段数量的模式的次数;淘汰与低于第二阈值的质量相关联的一个以上工作人员,其中所述质量表示冲突标记、基于误解指示的标记和一贯差的分割;以及淘汰与低于第三阈值的片段数量相关联的一个以上工作人员;其中所述第一阈值、所述第二阈值和所述第三阈值是经验值。3.根据权利要求1所述的处理器实现的方法,还包括使用深度卷积神经网络CNN对所述一组一致片段进行分类(206),所述分类步骤包括:通过以下步骤矫直弯曲的染色体(206a):将所述一致片段的图像二值化,基于二值化图像的像素值和与所述染色体相关联的紧密拟合矩形的总面积,使用白度值从所述一致片段中识别弯曲的染色体;基于所述一致片段的二值化图像上的拟合直线的斜率,计算所述弯曲染色体的弯曲取向;计算所述弯曲染色体的弯曲中心,其中所述弯曲染色体各自包含一个沿着弯曲轴线的臂;以及将所述沿着弯曲轴线的臂拼接起来,重建所述弯曲的染色体,以获得矫直的染色体;使用着丝粒位置和与其相关联的长度对染色体的长度进行归一化(206b);以及使用深度CNN基于归一化长度对染色体进行分类(206c)。4.一种系统(100),包括:一个以上数据存储设备(102),可操作地联结到一个以上硬件处理器(104)并且被配置为存储被配置为由所述一个以上硬件处理器执行的指令以:接收中期染色体的数字化图像;优化用于对数字化图像分割的众包,优化众包包括:将所述数字化图像划分成多个部分;同时将所述多个部分中的每个部分分配给参与众包劳动力的一个以上工作人员用于通过对所分配部分分割来获得片段,其中所述分割包括标记与所分配部分相交或完全位于所分配部分中的染色体的轮廓;分析从所述一个以上工作人员接收到的片段以识别并且淘汰所述众包劳动力中的垃圾制作者,其中所述分析步骤包括检查虚假标记、检查标记的正确性和标记最大化覆盖;以及基于所述分析从经分析的片段...

【专利技术属性】
技术研发人员:M·沙玛L·维格S·S·卡兰德A·斯里拉曼R·S·M·赫巴拉古比
申请(专利权)人:塔塔咨询服务公司
类型:发明
国别省市:印度,IN

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1