确定聚类的设备和方法技术

技术编号:19077173 阅读:11 留言:0更新日期:2018-09-29 18:29
提供了一种用于确定第一类型数据的实例的序列的聚类的设备(100)和一种确定第一类型数据的实例的序列的聚类的方法,所述聚类用于压缩包括所述第一类型数据的实例的序列的数据集。还提供了一种压缩数据集的方法、一种传输压缩的数据的方法和一种计算机程序产品。在所述设备的序列聚类单元(110)中,基于条件概率来对第一数据集的序列进行聚类。所述第一数据集的每个独特序列与在给定所述独特序列的情况下第二数据集的实例具有特定值的一个或多个条件概率相关联。在所述聚类中,所述第一数据集与所述第二数据集之间的交互信息的重要部分被保持。

【技术实现步骤摘要】
【国外来华专利技术】确定聚类的设备和方法
本专利技术涉及一种用于确定第一类型数据的实例的序列的聚类的设备,所述聚类用于压缩包括所述第一类型数据的实例的序列的数据集。所述第一类型数据的所述实例包括用于预测第二类型数据的实例的信息。本专利技术还涉及一种压缩数据集的方法或一种传输压缩的数据的方法。本专利技术还涉及用于确定聚类的计算机程序产品的领域。
技术介绍
在数据存储和数据传输中,挑战之一是要减少要被存储的数据的量和要被传输的数据的量。如果愿意接受某些数据丢失,则可以对数据的实例进行聚类并利用独特地识别聚类的较短描述表示属于单个聚类的数据的实例,并且使用该较短描述代替较长的数据的实例。代替“形成数据的实例的聚类”,可以理解为对数据的实例进行分组、对数据的实例进行分箱或对数据的实例进行量化。在关于至少一个特性具有相似属性的数据的实例结束于同一聚类中的情况下,利用聚类表示数据的实例是最有用的。例如,如果数据的实例用于预测另一类型数据的实例,则希望将最可能得到相同预测的数据的实例放在单个聚类中。因此,必须以如下方式形成聚类,即在对数据的实例进行聚类的过程中尽可能保持另一类型数据的实例与数据的原始实例之间的交互信息。JeanCardinal的文章“QuantizationwithanInformation-TheoreticDistortionMeasure”公开了一种使用Lloyd的算法的修改来寻找数据X的量化器的方法,使得X与相关的Y之间的交互信息不会由于量化而减少太多。JeanCardinal于2002年10月23日的文献“QuantizationwithanInformation-TheoreticDistortionMeasure”由“UniversitéLibredeBruxelles”在网站http://www.ulb.ac.be/di/publications/RT_2002.html上发布并且也在网站http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.20.3058上发布。
技术实现思路
本专利技术的目标是提供一种对数据的实例的序列进行聚类的方法,所述方法是高效的,同时仍然保持所述序列与另一类型数据的实例之间的大多数交互信息。所述序列将要被用于预测所述另一类型数据的实例。为此目的,根据本专利技术的一个方面,提供了一种用于确定第一类型数据的数据的实例的序列的聚类的设备,所述聚类用于压缩包括所述第一类型数据的实例的序列的数据集。为此目的,根据本专利技术的另一方面,提供了一种确定第一类型数据的数据的实例的序列的聚类的方法,所述聚类用于压缩包括所述第一类型数据的实例的序列的数据集。为此目的,根据本专利技术的另外的方面,提供了一种压缩数据集的方法、一种传输压缩的数据的方法,以及一种用于确定聚类的计算机程序产品。根据本专利技术的方面,提供了一种用于确定第一类型数据的实例的序列的聚类的设备,所述聚类用于压缩包括第一类型数据的实例的序列的数据集。所述第一类型数据的所述实例包括用于预测第二类型数据的实例的信息。所述第二类型数据的所述实例包括基于物理实体的特性的数据。所述设备包括第一数据集单元、第二数据集单元、序列聚类单元和输出单元。所述第一数据集单元获得包括所述第一类型数据的实例的序列的第一数据集。所述第二数据集单元获得包括所述第二类型数据的实例的第二数据集。所述第二数据集的每个实例对应于所述第一数据集中的序列。所述序列聚类单元将所述第一数据集的所述序列分配给聚类。所述分配是基于所述第二类型数据在给定所述第一数据集的序列的情况下的条件概率的,其中,所述第一数据集的每个独特序列与在给定所述独特序列的情况下所述第二数据集的实例具有特定值的一个或多个条件概率相关联。所述输出单元将所述聚类提供给例如数据缩减装置以用于压缩所述第一类型数据的实例的序列。根据本专利技术的另一方面,一种确定第一类型数据的数据的实例的序列的聚类的方法,所述聚类用于压缩包括所述第一类型数据的实例的序列的数据集。所述第一类型数据的实例包括用于预测第二类型数据的实例的信息。所述第二类型数据的实例包括基于物理实体的特性的数据。所述方法包括:i)第一数据集,其包括所述第一类型数据的实例的序列;ii)第二数据集,其包括所述第二类型数据的实例,所述第二数据集的每个实例对应于所述第一数据集中的序列;iii)将所述第一数据集的所述序列分配给聚类,所述分配是基于所述第二类型数据在给定所述第一数据集的序列的情况下的条件概率的,其中,所述第一数据集的每个独特序列与在给定所述独特序列的情况下所述第二数据集的实例具有特定值的一个或多个条件概率相关联;iv)将所述聚类提供给例如数据缩减装置以用于压缩所述第一类型数据的实例的所述序列。上述设备和方法的措施具有能够高效地执行聚类的效果。本专利技术基于以下认识:如果具有相似条件概率的第一数据集的序列结束于同一聚类中,则第一数据集与第二数据集之间的交互信息的足够大的部分被保持为聚类的数据与第二数据集之间的交互信息。确定条件概率能够利用特定算法来高效地执行。在分配给聚类之后,每个聚类表示具有相似特性的第一数据集的序列,并且最可能的是,单个聚类的序列得到第二类型数据的实例的相似预测。专利技术者的洞察是,在聚类中使用的特定条件概率得到这种效果。因此,上述讨论的设备和方法对第一数据集的序列进行聚类,使得大多数交互信息得到保持,并且因此能够使用聚类的识别来代替具有第一数据集的实例的完整序列来预测第二数据集的实例。还应注意,用于聚类的其他术语是分组和分箱。第一数据集的一些序列可以在第一数据集中存在多于一次。这样的重复可以由独特序列表示。每个独特序列与一个或多个条件概率相关联。一个或多个条件概率是否与独特序列相关联取决于针对第二数据集的实例的字母表中的符号的数量。如果第二数据集包括例如仅二进制数据,则该字母表仅包括两个符号,并且在一个条件概率已知的情况下立即获知条件概率的分布。例如,对于特定独特序列,如果在给定特定独特序列已知的情况下第二数据集的数据的第一条件概率等于两个符号中的第一个符号,则获知针对独特序列的定义的条件概率的分布是什么,即,在给定特定独特序列是一减去第一条件概率的情况下第二数据集的数据的第二条件概率等于两个符号中的第二个符号。因此,独特序列仅具有一个条件概率。如果第二数据集的数据的字母表具有更多符号,则为了获知条件概率的分布,必须获知针对独特序列的更多条件概率。基于条件概率来执行序列的聚类。这意味着具有彼此接近的、相似的和/或彼此相等的条件概率值的序列被放在同一聚类中。任选地,每个聚类与0与1之间的区间相关联,聚类的区间不重叠,并且其中,每个聚类包括具有在与聚类相关联的区间内的上述讨论的条件概率的第一数据集的序列。请注意,这些区间也能够用于在新数据到达的情况下压缩数据,因为如果新数据到达并且如果能够计算针对新数据的条件概率,则可以通过与所计算的条件概率落入的区间相关联的聚类来表示该新数据。在实施例中,第一类型数据的实例包括从(例如基于)传感器数据导出的数据。任选地,将第一数据集的序列分配给聚类包括将上下文树加权方法应用于第一数据集和第二数据集以获得上下文树。在上下文树加权方法中,第一数据集的每个独特序列由上下文树中从根节点到本文档来自技高网
...

【技术保护点】
1.一种用于确定第一类型数据的实例的序列的聚类的设备(100),所述聚类用于压缩包括所述第一类型数据的实例的序列的数据集,所述第一类型数据的所述实例包括用于预测第二类型数据的实例的信息,所述第二类型数据的所述实例包括基于物理实体的特性的数据,所述设备包括:‑第一数据集单元(102),其用于获得包括所述第一类型数据的实例的序列的第一数据集,‑第二数据集单元(104),其用于获得包括所述第二类型数据的实例的第二数据集,所述第二数据集的每个实例对应于所述第一数据集中的序列,‑序列聚类单元(110),其用于将所述第一数据集的所述序列分配给聚类,所述分配是基于所述第二类型数据在给定所述第一数据集的序列的情况下的条件概率的,其中,所述第一数据集的每个独特序列与在给定所述独特序列的情况下所述第二数据集的实例具有特定值的一个或多个条件概率相关联,‑输出单元(112),其用于将所述聚类提供给例如数据缩减装置以用于压缩所述第一类型数据的实例的序列。

【技术特征摘要】
【国外来华专利技术】2016.02.08 EP 16154646.01.一种用于确定第一类型数据的实例的序列的聚类的设备(100),所述聚类用于压缩包括所述第一类型数据的实例的序列的数据集,所述第一类型数据的所述实例包括用于预测第二类型数据的实例的信息,所述第二类型数据的所述实例包括基于物理实体的特性的数据,所述设备包括:-第一数据集单元(102),其用于获得包括所述第一类型数据的实例的序列的第一数据集,-第二数据集单元(104),其用于获得包括所述第二类型数据的实例的第二数据集,所述第二数据集的每个实例对应于所述第一数据集中的序列,-序列聚类单元(110),其用于将所述第一数据集的所述序列分配给聚类,所述分配是基于所述第二类型数据在给定所述第一数据集的序列的情况下的条件概率的,其中,所述第一数据集的每个独特序列与在给定所述独特序列的情况下所述第二数据集的实例具有特定值的一个或多个条件概率相关联,-输出单元(112),其用于将所述聚类提供给例如数据缩减装置以用于压缩所述第一类型数据的实例的序列。2.一种确定第一类型数据的数据的实例的序列的聚类的方法(200),所述聚类用于压缩包括所述第一类型数据的实例的序列的数据集,所述第一类型数据的所述实例包括用于预测第二类型数据的实例的信息,所述第二类型数据的所述实例包括基于物理实体的特性的数据,所述方法包括:-获得(202)包括所述第一类型数据的实例的序列的第一数据集,-获得(204)包括所述第二类型数据的实例的第二数据集,所述第二数据集的每个实例对应于所述第一数据集中的序列,-将所述第一数据集的所述序列分配(206)给聚类,所述分配是基于所述第二类型数据在给定所述第一数据集的序列的情况下的条件概率的,其中,所述第一数据集的每个独特序列与在给定所述独特序列的情况下所述第二数据集的实例具有特定值的一个或多个条件概率相关联,-将所述聚类提供(220)给例如数据缩减装置以用于压缩所述第一类型数据的实例的所述序列。3.根据权利要求2所述的方法(200),其中,将所述第一数据集的所述序列分配(206)给聚类包括将所述上下文树加权方法应用(208)于所述第一数据集和所述第二数据集以获得上下文树,在所述上下文树加权方法中,所述第一数据集的每个独特序列由所述上下文树中从根节点到特定叶节点的路径表示,并且存储在所述上下文树的至少所述叶节点中的计数是基于所述第二数据集的对应实例的。4.根据权利要求3所述的方法(200),其中,将所述第一数据集的所述序列分配(206)给聚类包括基于所述上下文树的所述叶节点的估计条件概率来形成(210)所述聚类,其中,如果特定叶节点与特定聚类相关,则与结束于所述特定叶节点中的所述独特序列相等的所述第一数据集的所有序列被分配给所述特定聚类,并且其中,相应叶节点的所述估计条件概率是基于所述相应叶节点的所述计数而计算的Krichevsky和Trofimov估计量的。5.根据前述权利要求中的任一项所述的方法(200),其中,将所述第一数据集的所述序列分配(2060)给聚类使用k均值算法来形成所述聚...

【专利技术属性】
技术研发人员:I·C·M·福林森伯格M·奥恩
申请(专利权)人:皇家飞利浦有限公司
类型:发明
国别省市:荷兰,NL

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1