当前位置: 首页 > 专利查询>豪夫迈专利>正文

使用基于距离的相似性标签的机器学习制造技术

技术编号:30531644 阅读:14 留言:0更新日期:2021-10-30 12:37
本发明专利技术涉及一种用于数字病理学的计算机实现的自监督学习方法。所述方法包括:接收(102)多个数字图像,每个数字图像描绘组织样品;将每个所接收的图像分割(104)成多个图块;自动生成(106)图块对(312、313、314、315、422),每个图块对分配有标签(403),所述标签指示在所述对的两个图块中描绘的两个组织图案的相似度,其中根据所述对中所述两个图块的空间接近度(d1、d2、d3、d4)来计算所述相似度,其中距离与相异性正相关;以及使用带标签的图块对作为训练数据来训练机器学习模块—MLM—(400、402、403、600)以生成经过训练的MLM,所述经过训练的MLM适于执行数字组织病理学图像的图像分析。分析。分析。

【技术实现步骤摘要】
【国外来华专利技术】使用基于距离的相似性标签的机器学习


[0004]本专利技术涉及数字病理学领域,尤其涉及图像分析领域。

技术介绍

[0005]在数字病理学领域中对数字组织图像的计算分析具有广泛的重要生物医学应用,例如组织检测、分割、形态测量、识别和分类疾病(例如,癌症)以及可能的治疗选择。目前,使用机器学习方法来解决图像分析问题的复杂性和多样性。
[0006]通常,使用监督机器学习方法来解决图像分析问题。因此,将机器学习模块(MLM)在一组由领域专家(特别是病理学家和临床医生)标记为基本事实的训练图像上进行训练。在训练阶段,MLM的统计模型学习将图像分析算法所计算的相关图像特征映射到训练数据集中所含的标签。
[0007]这些标签(也称为“注释”)可以包括所描绘的组织和/或提供组织的患者的元数据。例如,标签可以指示图像中描绘的组织样品是表示肿瘤组织还是健康组织,或者提供所描绘的样品的患者是否对特定药物有反应。标签可以指示特定的组织类型或亚型,例如,肿瘤组织是来自原发肿瘤还是来自微转移或大转移、来自基质组织、肌肉组织、脂肪组织、载玻片的背景切片等。带注释的训练数据集可用于训练机器学习模块(MLM),使得MLM学会基于在新的未知数字组织图像中描绘的组织图案自动标识/预测标签。
[0008]在数字病理学中,适合作为监督学习基础的带注释的训练数据很少,因为收集和注释价格高昂且很困难。通常,训练数据由检查和注释大量的数字组织图像的一个或多个领域专家手动创建。这需要花费很多时间。该问题在数字病理学领域中尤为重要,因为组织的形态可能在很大程度上取决于许多因素。例如,肺癌组织、乳腺癌组织和肝癌组织的形态可能彼此不同。因此,为了生成能够预测特定标签的MLM,可能需要为每种不同的癌症类型创建训练数据集。事实上,上述每种癌症类型都存在许多不同的亚型。为了正确处理各种不同的癌症亚型和其他类型的疾病,希望为每个所述疾病和疾病亚型提供带标签的训练数据集。然而,由于此类训练数据集的注释既耗时又昂贵,因此由于缺乏带注释的训练数据,目前可用的数字病理学方法无法解决许多生物医学问题。
[0009]在训练MLM来解决数字病理学问题的背景下,对预测特征的标识是一项重要但困难的任务,这一事实进一步加剧了上述问题。传统的手工制作的特征在很大程度上依赖于领域专家的知识。通常,即使是领域专家也很难或不可能明确定义可以被清楚标识的特征,该特征可用于注释图像数据集,此外还可以预测感兴趣的标签。
[0010]另一个问题与标签诸如特定组织类型的分配有时是主观的这一事实相关。当训练数据集被许多不同的病理学家添加注释时,标签可能会有一定程度的不一致。因此,在这种不一致的训练数据集上训练的MLM的预测准确性可能会因为很大一部分“注释不一致/注释噪声”而降低。
[0011]由于上述原因,缺乏足够大小和质量的带注释的训练数据集是目前许多开放的生物医学问题无法通过当今已经可用的机器学习算法处理和解决的主要原因。

技术实现思路

[0012]本专利技术的一个目的是提供一种用于数字病理学的改进的计算机实现的学习方法以及如独立权利要求中所指定的对应的存储介质和图像分析系统。在从属权利要求中给出了本专利技术的实施方案。如果不相互排斥,则本专利技术的实施方案可以彼此自由组合。
[0013]在一方面,本专利技术涉及一种用于数字病理学的计算机实现的自监督学习方法。该方法包括接收多个数字图像,其中每个所接收的图像描绘组织样品;将每个所接收的图像分成多个图块;自动生成图块对,其中每个图块对分配有指示在该对的两个图块中描绘的两个组织图案的相似度的标签,其中根据该对中两个图块的空间接近度来计算相似度,其中距离与相异性正相关;使用带标签的图块对作为训练数据来训练机器学习模块(MLM)以生成经过训练的MLM。经过训练的MLM适于执行数字组织病理学图像的图像分析。
[0014]由于多种原因,这种方法可能是有益的:两个图像区域的空间接近度是组织样品的每个数字图像中始终并且固有地可用的特征。问题在于图像和相应的组织区域本身的空间接近度通常不会揭示与生物医学问题有关的任何相关信息,诸如组织类型分类、疾病分类、特定疾病的持久性的预测或图像分割任务。申请人惊奇地观察到,在两个图像区域(“图块”)的空间接近度中传达的信息是两个图像区域的相似性的准确指示,至少在MLM的训练阶段分析了大量的图块及其相应的距离的情况下。因此,通过利用两个图块的固有可用的信息“空间接近度”来为两个比较的图块自动分配组织图案相似性标签,可以自动提供可用于训练MLM的大的带注释的数据集。经过训练的MLM可用于自动确定作为输入接收的两个图像或图像图块是否描绘了相似或相异的组织图案。然而,该数据集还可以用于其他更复杂的任务,诸如图像相似性搜索、图像分割、组织类型检测和组织图案聚类。因此,申请人惊奇地观察到,在图块的空间接近度中传达的信息可用于自动创建带注释的训练数据,这允许训练可靠地确定图像相似性的MLM,此外还可以允许训练输出特征向量的MLM,该特征向量可以被附加数据处理单元用于数字病理学中的多个复杂图像分析任务。这些方法都不需要领域专家手动注释训练数据。
[0015]当包括许多不同组织图案(例如,“非肿瘤”和“肿瘤”)的组织样品的图像被分成许多不同的图块时,两个图块之间的距离越小,两个比较图块描绘相同组织图案(例如“非肿瘤”)的概率就越高。然而,在描绘不同组织图案的两个不同图案的边界旁边会有一些图块对(例如,第一图块“肿瘤”,另一个图块“非肿瘤”)。这些图块对产生噪声,因为它们描绘不同的组织图案,但是它们在空间上彼此非常接近。申请人惊奇地观察到,由跨越不同组织图案之间的边界的图块对产生的这种噪声与简化假设(即空间接近度指示所描绘的组织图案的相似性不会显著降低经过训练的MLM的准确性)相结合。事实上,申请人观察到根据本专利技术的实施方案训练的MLM的准确性能够高于现有的基准化分析方法的准确性。
[0016]在另一个有益的方面,现在可能快速且完全自动地为许多不同的图像集创建训练数据。目前,缺乏可用的注释数据集来捕获组织病理学图像中的自然和实际可变性。例如,即使现有的大型数据集(如Camelyon)也只包含一种类型的染色(苏木精和伊红)和一种类型的癌症(乳腺癌)。在来自不同癌症类型、不同组织染色类型和不同组织类型的图像中,组织病理学图像纹理和对象形状可能会有很大差异。此外,组织病理学图像包含具有不同的领域特定含义的许多不同纹理和对象类型(例如,基质、肿瘤浸润淋巴细胞、血管、脂肪、健康组织、坏死等)。因此,本专利技术的实施方案可以允许为多种不同癌症类型、癌症亚型、染色
方法和患者组中的每一项自动创建带注释的数据集(例如,治疗/未治疗、男性/女性、大于/小于阈值年龄、生物标志物阳性/生物标志物阴性等)。因此,本专利技术的实施方案可以允许自动创建带注释的训练数据并且在经过训练的数据上训练相应的MLM,使得所得的经过训练的MLM适于以高度特定的方式准确解决多个不同组的患者中的每一位患者的生物医学问题。与在手动注释的乳腺癌数据集上训练的MLM为结肠本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于数字病理学的计算机实现的自监督学习方法,所述方法包括:

接收(102)多个数字图像,每个数字图像描绘组织样品;

将每个所接收的图像分割(104)成多个图块;

自动生成(106)图块对(312、313、314、315、422),每个图块对分配有标签(403),所述标签指示在所述对的两个图块中描绘的两个组织图案的相似度,其中将所述相似度计算为所述对中的所述两个图块的空间接近度(d1、d2、d3、d4)的函数,其中距离与相异性正相关,其中所述图块对(313、315)的至少一个子集包括描绘包含在一堆相邻组织切片中的两个不同组织切片中的两个组织区域的图块对,所述组织切片中的每一个组织切片是在所接收的数字图像(300、332、334)中的相应一个数字图像中描绘的组织样品,其中描绘一堆相邻组织切片中的组织切片的所接收的图像在3D坐标系中彼此对准,并且其中在所述3D坐标系内计算所述子集的所述图块对的所述图块之间的距离(d3、d4);

使用带标签的图块对作为训练数据来训练机器学习模块—MLM—(400、402、403、600)以生成经过训练的MLM,所述经过训练的MLM适于执行数字组织病理学图像的图像分析。2.根据权利要求1所述的计算机实现的方法,

其中所述图块对(312、314)中的至少一些图块对描绘包含在相同组织切片中的两个组织区域,所述组织切片中的每个组织切片被描绘在所接收的数字图像中的相应一个数字图像中,其中图块之间的距离在由已经从中导出所述对中的所述图块的所接收的数字图像(300)的x维度和y维度定义的2D坐标系内计算。3.根据前述权利要求中任一项所述的计算机实现的方法,

其中所述图块对(313、315)的至少另一个子集包括描绘相同组织切片的两个组织区域的图块对,其中所述另一个子集的图块对的图块之间的距离(d1、d2)基于与描绘不同组织切片的所导出的图块对的子集的图块对之间的距离相同的空间接近度函数来计算。4.根据前述权利要求中任一项所述的计算机实现的方法,每个图块描绘具有小于0.5mm、优选地小于0.3mm的最大边缘长度的组织或背景区域。5.根据前述权利要求中任一项所述的计算机实现的方法,所述图块对的所述自动生成包括:

使用第一空间接近度阈值(308、336)生成第一组图块对(312、313),其中由所述第一组中的每个图块对的两个图块描绘的两个组织区域彼此分开小于所述第一空间接近度阈值的距离;

使用第二空间接近度阈值(310、338)生成第二组图块对(314、315),其中由所述第二组中的每个图块对的两个图块描绘的两个组织区域彼此分开大于所述第二空间接近度阈值的距离。6.根据权利要求5所述的计算机实现的方法,所述第二空间接近度阈值比所述第一空间接近度阈值大至少2mm。7.根据前述权利要求5至6中任一项所述的计算机实现的方法,

其中所述第一空间接近度阈值是小于2mm、优选地小于1.5mm、特别是1.0mm的距离,并且/或者

其中所述第二空间接近度阈值是大于4mm、优选地大于8mm、特别是10.0mm的距离。8.根据前述权利要求中任一项所述的计算机实现的方法,

其中所述MLM为孪生神经元网络(400),其包括由公共输出层(424)连接的两个相同的神经元子网络(402、403),所述两个神经子网络中的每一个神经子网络都适于从作为输入提供给所述MLM的图块对(422)的两个图块(404、414)中的相应一个图块提取特征向量(410、420),

其中经过训练的孪生神经元网络(400')的所述输出层适于作为所述两个特征向量(410、420)的函数计算作...

【专利技术属性】
技术研发人员:E
申请(专利权)人:豪夫迈
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1