用于基于不一致性度量根据生物数据的亚群检测的方法、系统和装置制造方法及图纸

技术编号:20023471 阅读:24 留言:0更新日期:2019-01-06 03:21
公开了用于检测至少一种生物有机体的成分的亚群的方法、系统和装置。根据示范性实施例,根据至少一种生物有机体的成分汇编的生物数据样本的集群分区通过基于不一致性度量计算针对所述分区的不一致性得分来评估(114)。另外,针对多个分区中的至少一个,非零值被分配给仅具有一个生物数据样本的至少一个集群的所述不一致性度量。此外,所述亚群通过选择具有最小不一致性得分的分区作为所述亚群来识别。

【技术实现步骤摘要】
【国外来华专利技术】用于基于不一致性度量根据生物数据的亚群检测的方法、系统和装置
本文描述的各种实施例总体上涉及生物医学信息学技术。更具体地但非排他性地,本文公开的各种方法、系统和装置涉及生物信息学和基于生物数据对亚群的检测。
技术介绍
生物信息学技术提供了用于分析生物有机体的有效手段,并且是若干生物领域的重要方面。特别地,生物信息学技术过程已经在基因组学以及对包括癌症的疾病的研究和处置方面取得了重大进展。癌症以及其他基因组疾病的特征在于支持从正常细胞到肿瘤细胞的演变的基因组结构变异和基因表达的异种模式。出于临床研究的目的,并且特别是出于在肿瘤发展和增殖中识别驾驶员和乘客事件的目的,从可用基因组数据解读并表征独特模式的能力具有高度重要性。
技术实现思路
目前可用的生物医学信息学和生物信息学技术的有效性相对有限,因为这些技术所采用的分析不能提供用于确定生物数据中的亚组或亚群的数量的确定且准确的手段。例如,基因图谱的复杂性和体积使得很难有效且准确地分析它们以便检测各种亚群,包括例如基于对整个肿瘤活组织检查的分析的癌症患者的同种亚组以及反映肿瘤细胞谱系和演变的克隆群体,以及异常、正常和疾病特异性细胞系的群体。本公开涉及用于检测至少一种生物有机体的成分的亚群的方法、系统和装置。应用机器学习技术来发现这些类型的亚群是有问题的,因为数据内的类的数量通常是未知的。虽然非参数无监督式机器学习方法非常擅长检测个体样本的接近度并确定主要亚组(集群)的结构,但是它们无法提供正确数量的类的明确指示,而参数方法假设类的数量是事先知道的,这种情况很少发生。为了在保持高准确度的同时提高亚群的检测的效率,能够对生物数据执行聚类过程以获得利用集群内不一致性度量(例如集群内的元素的成对统计方差)评估的集群分区。特别地,不是将单元素集群视为在集群内具有零不一致性,本申请的实施例而是将非零不一致性度量分配给单元素集群。本申请的专利技术人惊奇地发现,分析集群一致性并将一定程度的集群内不一致性分配给单元素集群使得能够出现具有根据分区水平来评估的不一致性得分的最小值的u形曲线。这里,已经发现对应于最小值的分区水平准确地表示生物数据中存在的集群和亚群的数量。因此,通过将非零不一致性度量分配给单元素集群,能够以高效且准确的方式检测亚群。通常,在一个方面,示范性系统被配置为检测至少一种生物有机体的成分的亚群。这里,所述系统包括至少一个硬件处理器和非瞬态存储介质。所述处理器被配置为获得所述(一种或多种)生物有机体的所述成分的生物数据样本的多个分区,并且所述存储介质被配置为存储所述多个分区。另外,所述多个分区中的每个分区定义所述成分的所述生物数据样本的各自数量的集群。此外,所述处理器被配置为针对多个分区中的每个分区基于对集群内不一致性进行测量的不一致性度量来计算针对对应分区的不一致性得分,其中,针对所述多个分区中的至少一个,非零值被分配给仅具有一个生物数据样本的至少一个集群的所述不一致性度量。所述处理器还被配置为确定所述多个分区中的哪个分区具有最小不一致性得分,并且通过选择所述多个分区中具有所述最小不一致性得分的分区作为所述亚群来识别所述(一种或多种)生物有机体的所述成分的所述亚群。类似地,在另一方面,示范性方法涉及检测至少一种生物有机体的成分的亚群。所述方法由至少一个硬件处理器实施。根据所述方法,获得所述(一种或多种)生物有机体的所述成分的生物数据样本的多个分区。另外,所述多个分区中的每个分区定义所述成分的所述生物数据样本的各自数量的集群。针对所述多个分区中的每个分区,基于对集群内不一致性进行测量的不一致性度量来计算针对对应分区的不一致性得分,其中,针对所述多个分区中的至少一个,非零值被分配给仅具有一个生物数据样本的至少一个集群的所述不一致性度量。此外,所述方法包括确定所述多个分区中的哪个分区具有最小不一致性得分,并且通过选择具有所述最小不一致性得分的分区作为所述亚群来识别所述亚群。根据示范性实施例,所述生物数据包括基因组数据或蛋白质组数据中的至少一种。已经发现系统、方法和装置实施例由于在识别亚群中的显著准确性在被应用于基因组数据或蛋白质组数据时是特别有利的。在一个示范性实施例中,所述计算还包括根据对应集群中的生物数据样本的总数和所述(一种或多种)生物有机体的所述成分的生物数据样本的总数来对所述对应分区中的集群的至少子集中的每个集群的所述不一致性度量进行加权。所述加权能够对具有低集群内不一致性以及相对较少数量的集群的分区提供有利的偏好。在该实施例的一个版本中,执行所述加权,使得所述对应集群的所述不一致性度量与所述对应集群中的生物数据样本的所述总数直接相关。根据示范性实施例,所述非零值通过将所述(一种或多种)生物有机体的所述成分的所述生物数据样本的所述不一致性度量作为一个整体进行加权来确定。因此,例如,单样本集群能够被分配整个生物样本的分区不一致性度量的总体方差的一部分,从而使得能够形成根据分区水平来评估的不一致性得分中的u形曲线和最小值。如上所述,该最小值能够表示集群的总数,从而允许对亚群的准确且精确确定。在该实施例的一个版本中,所述成分的所述生物数据样本的所述不一致性度量利用所述成分的生物数据样本的总数进行加权。另外,在该实施例的相同或不同版本中,执行所述加权,使得所述非零值与所述成分的生物数据样本的所述总数反相关。此外,根据示范性实施例,所述不一致性度量是所述对应分区的给定集群中的生物数据样本之间的成对距离的统计方差。已经发现使用统计方差作为不一致性度量对于基因组数据是显著准确的。另外,在示范性实施例中,能够显示所选择的分区的至少一个集群的表示。此外,所述表示能够包括对所述(一个或多个)集群的临床注释或表型注释中的至少一种,以帮助临床医生评价数据。在该实施例的一个版本中,所述注释包括药物反应数据、疾病复发风险或疾病分型数据中的至少一种。示范性实施例还能够包括提供诊断信息。例如,根据一种方法,所选择的分区的集群的至少子集与临床变量、临床结果或临床标签中的至少一个相关联。另外,所述方法包括接收至少一个生物数据样本并且通过将所述样本与所选择的分区的集群的表示进行比较来搜索与所述生物数据样本的至少一个匹配。此外,输出与匹配所述样本的集群中的至少一个集群的表示相关联的临床变量、临床结果或临床标签中的任何一个或多个作为诊断信息。这里,诊断信息能够用作健康护理提供者诊断或开具对患者的特定处置的指导。例如,诊断信息能够指示患者可能遭受的特定癌症分型。另外,诊断信息能够指示一种或多种特定药物在处置与生物数据样本匹配的集群的患者中的疾病或病痛中成功或不成功。由于本文描述的实施例所提供的灵活性和适应性,能够提供各种各样的诊断信息。此外,在一个方面,一种计算机可读介质包括计算机可读程序,当在计算机上运行时,所述计算机可读程序使得所述计算机能够执行本文描述的方法中的任何一个或多个。例如,所述计算机可读程序能够被配置为检测至少一种生物有机体的成分的亚群,使得当在计算机上运行所述程序时,所述程序使所述计算机执行本文描述的方法实施例中的任何一个或多个的步骤。所述计算机可读介质能够是计算机可读存储介质或计算机可读信号介质。备选地或额外地,所述计算机可读介质能够包括所述计算机可读程序的更新部分或其他本文档来自技高网...

【技术保护点】
1.一种用于检测至少一种生物有机体的成分的亚群的系统(100),包括:至少一个硬件处理器(105),其被配置为获得所述至少一种生物有机体的所述成分的生物数据样本的多个分区,所述多个分区中的每个分区定义所述成分的所述生物数据样本的各自数量的集群;以及非瞬态存储介质(108),其被配置为存储所述多个分区,其中,所述至少一个硬件处理器(105)还被配置为针对所述多个分区中的每个分区基于对集群内不一致性进行测量的不一致性度量来计算针对对应分区的不一致性得分,其中,针对所述多个分区中的至少一个,非零值被分配给仅具有一个生物数据样本的至少一个集群的所述不一致性度量,并且其中,分区评估模块还被配置为确定所述多个分区中的哪个分区具有最小不一致性得分,并且通过选择所述多个分区中具有所述最小不一致性得分的分区作为所述亚群来识别所述至少一种生物有机体的所述成分的所述亚群。

【技术特征摘要】
【国外来华专利技术】2016.05.19 US 62/338,5511.一种用于检测至少一种生物有机体的成分的亚群的系统(100),包括:至少一个硬件处理器(105),其被配置为获得所述至少一种生物有机体的所述成分的生物数据样本的多个分区,所述多个分区中的每个分区定义所述成分的所述生物数据样本的各自数量的集群;以及非瞬态存储介质(108),其被配置为存储所述多个分区,其中,所述至少一个硬件处理器(105)还被配置为针对所述多个分区中的每个分区基于对集群内不一致性进行测量的不一致性度量来计算针对对应分区的不一致性得分,其中,针对所述多个分区中的至少一个,非零值被分配给仅具有一个生物数据样本的至少一个集群的所述不一致性度量,并且其中,分区评估模块还被配置为确定所述多个分区中的哪个分区具有最小不一致性得分,并且通过选择所述多个分区中具有所述最小不一致性得分的分区作为所述亚群来识别所述至少一种生物有机体的所述成分的所述亚群。2.根据权利要求1所述的系统,其中,所述至少一个硬件处理器(105)还被配置为根据对应集群中的生物数据样本的总数和所述至少一种生物有机体的所述成分的生物数据样本的总数来对所述对应分区中的集群的至少子集中的每个集群的所述不一致性度量进行加权。3.根据权利要求1所述的系统,其中,所述至少一个硬件处理器(105)被配置为通过将所述至少一种生物有机体的所述成分的所述生物数据样本的不一致性度量作为一个整体进行加权来确定所述非零值。4.一种用于检测至少一种生物有机体的成分的亚群的方法(200),所述方法由至少一个硬件处理器实施并且包括:获得(210)所述至少一种生物有机体的所述成分的生物数据样本的多个分区,所述多个分区中的每个分区定义所述成分的所述生物数据样本的各自数量的集群;针对所述多个分区中的每个分区,基于对集群内不一致性进行测量的不一致性度量来计算(218)针对对应分区的不一致性得分,其中,针对所述多个分区中的至少一个,非零值被分配(216)给仅具有一个生物数据样本的至少一个集群的所述不一致性度量;确定(219)所述多个分区中的哪个分区具有最小不一致性得分;并且通过选择所述多个分区中具有所述最小不一致性得分的分区作为所述亚群来识别(221)所述至少一种生物有机体的所述成...

【专利技术属性】
技术研发人员:K·沃良斯基N·迪米特罗娃Y·毛
申请(专利权)人:皇家飞利浦有限公司
类型:发明
国别省市:荷兰,NL

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利