【技术实现步骤摘要】
【国外来华专利技术】使用基于距离的相似性标签的机器学习
[0004]本专利技术涉及数字病理学领域,尤其涉及图像分析领域。
技术介绍
[0005]在数字病理学领域中对数字组织图像的计算分析具有广泛的重要生物医学应用,例如组织检测、分割、形态测量、识别和分类疾病(例如,癌症)以及可能的治疗选择。目前,使用机器学习方法来解决图像分析问题的复杂性和多样性。
[0006]通常,使用监督机器学习方法来解决图像分析问题。因此,将机器学习模块(MLM)在一组由领域专家(特别是病理学家和临床医生)标记为基本事实的训练图像上进行训练。在训练阶段,MLM的统计模型学习将图像分析算法所计算的相关图像特征映射到训练数据集中所含的标签。
[0007]这些标签(也称为“注释”)可以包括所描绘的组织和/或提供组织的患者的元数据。例如,标签可以指示图像中描绘的组织样品是表示肿瘤组织还是健康组织,或者提供所描绘的样品的患者是否对特定药物有反应。标签可以指示特定的组织类型或亚型,例如,肿瘤组织是来自原发肿瘤还是来自微转移或大转移、来自基质组织、肌肉组织、脂肪组织、载玻片的背景切片等。带注释的训练数据集可用于训练机器学习模块(MLM),使得MLM学会基于在新的未知数字组织图像中描绘的组织图案自动标识/预测标签。
[0008]在数字病理学中,适合作为监督学习基础的带注释的训练数据很少,因为收集和注释价格高昂且很困难。通常,训练数据由检查和注释大量的数字组织图像的一个或多个领域专家手动创建。这需要花费很多时间。该问题在数字病理学领域中尤为重要,因为组织的形 ...
【技术保护点】
【技术特征摘要】
【国外来华专利技术】1.一种用于数字病理学的计算机实现的自监督学习方法,所述方法包括:
‑
接收(102)多个数字图像,每个数字图像描绘组织样品;
‑
将每个所接收的图像分割(104)成多个图块;
‑
自动生成(106)图块对(312、313、314、315、422),每个图块对分配有标签(403),所述标签指示在所述对的两个图块中描绘的两个组织图案的相似度,其中将所述相似度计算为所述对中的所述两个图块的空间接近度(d1、d2、d3、d4)的函数,其中距离与相异性正相关,其中所述图块对(313、315)的至少一个子集包括描绘包含在一堆相邻组织切片中的两个不同组织切片中的两个组织区域的图块对,所述组织切片中的每一个组织切片是在所接收的数字图像(300、332、334)中的相应一个数字图像中描绘的组织样品,其中描绘一堆相邻组织切片中的组织切片的所接收的图像在3D坐标系中彼此对准,并且其中在所述3D坐标系内计算所述子集的所述图块对的所述图块之间的距离(d3、d4);
‑
使用带标签的图块对作为训练数据来训练机器学习模块—MLM—(400、402、403、600)以生成经过训练的MLM,所述经过训练的MLM适于执行数字组织病理学图像的图像分析。2.根据权利要求1所述的计算机实现的方法,
‑
其中所述图块对(312、314)中的至少一些图块对描绘包含在相同组织切片中的两个组织区域,所述组织切片中的每个组织切片被描绘在所接收的数字图像中的相应一个数字图像中,其中图块之间的距离在由已经从中导出所述对中的所述图块的所接收的数字图像(300)的x维度和y维度定义的2D坐标系内计算。3.根据前述权利要求中任一项所述的计算机实现的方法,
‑
其中所述图块对(313、315)的至少另一个子集包括描绘相同组织切片的两个组织区域的图块对,其中所述另一个子集的图块对的图块之间的距离(d1、d2)基于与描绘不同组织切片的所导出的图块对的子集的图块对之间的距离相同的空间接近度函数来计算。4.根据前述权利要求中任一项所述的计算机实现的方法,每个图块描绘具有小于0.5mm、优选地小于0.3mm的最大边缘长度的组织或背景区域。5.根据前述权利要求中任一项所述的计算机实现的方法,所述图块对的所述自动生成包括:
‑
使用第一空间接近度阈值(308、336)生成第一组图块对(312、313),其中由所述第一组中的每个图块对的两个图块描绘的两个组织区域彼此分开小于所述第一空间接近度阈值的距离;
‑
使用第二空间接近度阈值(310、338)生成第二组图块对(314、315),其中由所述第二组中的每个图块对的两个图块描绘的两个组织区域彼此分开大于所述第二空间接近度阈值的距离。6.根据权利要求5所述的计算机实现的方法,所述第二空间接近度阈值比所述第一空间接近度阈值大至少2mm。7.根据前述权利要求5至6中任一项所述的计算机实现的方法,
‑
其中所述第一空间接近度阈值是小于2mm、优选地小于1.5mm、特别是1.0mm的距离,并且/或者
‑
其中所述第二空间接近度阈值是大于4mm、优选地大于8mm、特别是10.0mm的距离。8.根据前述权利要求中任一项所述的计算机实现的方法,
‑
其中所述MLM为孪生神经元网络(400),其包括由公共输出层(424)连接的两个相同的神经元子网络(402、403),所述两个神经子网络中的每一个神经子网络都适于从作为输入提供给所述MLM的图块对(422)的两个图块(404、414)中的相应一个图块提取特征向量(410、420),
‑
其中经过训练的孪生神经元网络(400')的所述输出层适于作为所述两个特征向量(410、420)的函数计算作...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。