用于生成反映组的查询建议的系统和方法技术方案

技术编号:24335107 阅读:39 留言:0更新日期:2020-05-29 21:57
本公开涉及一种被配置用于人类可解读的查询建议的计算机辅助生成的系统,所述人类可解读的查询建议提供反映聚类获得的组。可以在表示实体的大型数据集上执行聚类,所述实体中的每个具有至少一个属性。对于所述组中的每个,所述系统可以:基于对于所述组中的至少一些实体共有的属性,将所述属性添加到属性的集合中;基于另一属性对于具有属性的所述集合的所述组的实体中的至少一些是共有的以及除了具有所述另一属性之外还具有属性的所述集合的组的实体的数量满足数量阈值来将所述另一属性添加到属性的所述集合中;并且基于属性的所述集合来生成查询建议,使得所述查询建议被配置用于获得反映所述组的结果。

System and method for generating query suggestions reflecting groups

【技术实现步骤摘要】
【国外来华专利技术】用于生成反映组的查询建议的系统和方法
本公开内容涉及一种系统,所述系统被配置为生成人类可解读的查询建议,所述查询建议提供反映实体的组的结果。
技术介绍
探索性数据分析(EDA)涉及无需复杂建模并且无需经过严格的科学方法而确定对数据进行汇总的术语。可以通过对数据点(例如,概念和/或命名实体)的数据集执行聚类以基于数据点的相似性生成子组来将聚类算法与EDA配对。尽管存在关于这样的子组的描述性统计信息的自动生成,但分析师可能没有足够的数据分析经验来辨别数据中的潜在的模式。此外,例如,由于庞大的数据量,模式对于人类的大脑而言可能是不可察觉的,并且分析师可能需要数据集和/或其实体(数据点)的属性的上下文知识。存在这些和其他缺点。
技术实现思路
因此,本公开的一个或多个方面涉及一种被配置用于人类可解读的查询建议的计算机辅助生成的系统,所述人类可解读的查询建议提供反映聚类获得的组的结果。所述系统包括一个或多个处理器和/或其他部件。在一些实施例中,所述一个或多个处理器由机器可读指令配置为对表示至少1000个实体的数据汇集执行聚类以获得具有至少100个实体的组,所述1000个实体中的每个具有多个属性中的至少一个属性。所述一个或多个处理器可以还由机器可读指令配置为关于每个获得的组执行:基于所述多个属性中的第一属性对于所述组中的至少一些实体是共有的,将所述第一属性添加到属性的第一集合中;基于(i)所述第二属性对于所述组的实体中的具有属性的所述第一集合的至少一些实体是共有的,以及(ii)所述组的具有除了所述第二属性之外的属性的所述第一集合的组的实体的数量满足第一数量阈值,来将第二属性添加到属性的所述第一集合中;并且基于属性的所述第一集合来生成查询建议,使得查询建议被配置用于获得反映所述组的结果。再另一个方面涉及一种被配置用于人类可解读的查询建议的计算机辅助生成的方法,所述人类可解读的查询建议提供反映聚类获得的组的结果。所述方法由被配置为执行机器可读指令的一个或多个硬件处理器和/或其他部件来实施。在一些实施例中,所述方法包括:对表示至少1000个实体的数据汇集执行聚类以获得具有至少100个实体的组,所述1000个实体中的每个具有多个属性中的至少一个属性;关于所获得的组中的每个,执行:基于所述多个属性中的第一属性对于所述组中的至少一些实体是共有的而将所述第一属性添加到属性的第一集合中;关于每个所获得的组,执行:基于(i)所述第二属性对于所述组的实体中的具有属性的所述第一集合的至少一些是共有的以及(ii)所述组的具有除了所述第二属性之外的属性的所述第一集合的组的实体的数量满足第一数量阈值,来将第二属性添加到属性的所述第一集合中;并且关于每个所获得的组,执行:基于属性的所述第一集合来生成查询建议,使得所述查询建议被配置用于获得反映所述组的结果。又一个方面涉及一种被配置用于人类可解读的查询建议的计算机辅助生成的系统,所述人类可解读的查询建议提供反映聚类获得的组的结果。在一些实施例中,所述系统包括:用于对表示至少1000个实体的数据汇集执行聚类以获得至少100个实体的组的单元,所述1000个实体中的每个具有多个属性中的至少一个属性;用于关于所获得的组中的每个来执行基于第一属性对于所述组中的至少一些实体是共有的而将所述多个属性中的所述第一属性添加到属性的第一集合中的单元;用于关于每个所获得的组来执行基于(i)所述第二属性对于所述组的实体中的具有属性的所述第一集合的至少一些是共有的以及(ii)所述组的具有除了所述第二属性之外的属性的所述第一集合的组的实体的数量满足第一数量阈值而将第二属性添加到属性的所述第一集合中的单元;以及用于关于每个所获得的组来执行基于属性的所述第一集合来生成查询建议而使得查询建议被配置用于获得反映所述组的结果的单元。本专利技术的这些和其他目的、特征和特性,以及相关结构元件的操作方法和功能以及部件组合和制造经济性将在参考附图理解本专利技术和权利要求后变得更加明显,所有附图均形成说明书的一部分,其中,在各个附图中,相同的附图标记指代对应的部件。然而,要明确理解,附图仅出于图示和说明的目的并且不旨在作为对本公开的限度的限制。附图说明图1是根据一个或多个实施例的被配置用于人类可解读的查询建议的计算机辅助生成的系统的示意图,所述人类可解读的查询建议提供反映聚类获得的组的结果。图2A和2B各自示出了根据一个或多个实施例的具有一数量的实体的聚类的示例,所述实体具有要用于确定聚类内的同质性水平的一个或多个特定属性。图3A和3B各自示出了根据一个或多个实施例的具有一数量的实体的聚类的示例,所述实体具有要用于识别聚类内的共有性的一个或多个特定属性。图4示出了根据一个或多个实施例的用于生成查询建议的方法,所述查询建议提供反映聚类获得的组的结果。图5示出了根据一个或多个实施例的用于确定聚类的同质性水平的方法。具体实施方式本文中使用的单数形式的“一”、“一个”以及“该”包括多个指代物,除非上下文中明确地另行规定。如本文所用,术语“或”表示“和/或”,除非上下文另外明确指出。本文中所用的两个或多个零件或部件被“耦合”的表述将意味着所述零件直接或间接地(即,通过一个或多个中间零件或部件,只要发生连接)被结合到一起或一起工作。本文中所用的“直接耦合”意指两个元件彼此直接接触。本文中所用的“固定耦合”或“固定”意指两个部件被耦合以作为一体移动,同时维持相对于彼此的固定取向。本文中所用的词语“一体的”意指部件被创建为单件或单个单元。亦即,包括单独创建并然后被耦合到一起成为单元的多件的部件不是“一体的”部件或体。本文中采用的两个或多个零件或部件相互“接合”的表述将意味着所述零件直接地或通过一个或多个中间零件或部件而相互施加力。本文中采用的术语“若干”将意味着一或大于一的整数(即,多个)。本文中使用的方向短语,例如但不限于,顶部、底部、左、右、上、下、前、后以及它们的派生词涉及附图中所示的元件的取向,并且不对权利要求构成限制,除非在权利要求中明确记载。图1图示了根据一个或多个实施例的、被配置用于查询建议的计算机辅助的生成的系统10。系统10可以被配置为从数据集的大量的数据点(例如,实体)生成子组(例如,聚类),并且向系统的用户提供自动生成的聚类的汇总。每个生成的聚类可以是数据集的组、组群、集合或其他子集。每个聚类的每个实体都可以涉及一短语,所述短语包括人的名字、组织、对象、位置、时间或数量。数据集的每个实体可以包括一个或多个属性(例如,尺寸、属性、组成、参数或与该实体相关联或对其进行描述的其他特征)。在一些实施例中,属性在实体的聚类中被使用,而在其他聚类中其不被使用。系统10可以分析所生成的聚类的实体的属性。例如,可以识收集的一个或多个共同属性以收集有关聚类的信息。从收集的信息中,系统10的一些实施例可以识别人类可解读的查询建议,所述建议除了对聚类进行汇总之外或代替对聚类进行汇总,还提供反映聚类获得的组的结果。即,一些实施例可以在由系统10的用户执行的连续的、本文档来自技高网...

【技术保护点】
1.一种用于提供人类可解读查询建议的计算机辅助生成的系统,所述人类可解读查询建议反映聚类获得的组,所述系统包括:/n一个或多个处理器,其由机器可读指令配置为:/n对表示至少1000个实体的数据汇集执行聚类以获得具有至少100个实体的组,所述1000个实体中的每个具有多个属性中的至少一个属性;/n关于所述组中的每个,执行以下操作:/n基于所述多个属性中的第一属性对于所述组中的至少一些实体是共有的而将所述第一属性添加到属性的第一集合中;/n基于(i)第二属性对于所述组的实体中的具有属性的所述第一集合的至少一些实体是共有的以及(ii)所述组的具有除了所述第二属性之外的属性的所述第一集合的组的实体的数量满足第一数量阈值来将所述第二属性添加到属性的所述第一集合中;并且/n基于属性的所述第一集合来生成查询建议,使得所述查询建议被配置用于获得反映所述组的结果。/n

【技术特征摘要】
【国外来华专利技术】20170814 US 62/544,9601.一种用于提供人类可解读查询建议的计算机辅助生成的系统,所述人类可解读查询建议反映聚类获得的组,所述系统包括:
一个或多个处理器,其由机器可读指令配置为:
对表示至少1000个实体的数据汇集执行聚类以获得具有至少100个实体的组,所述1000个实体中的每个具有多个属性中的至少一个属性;
关于所述组中的每个,执行以下操作:
基于所述多个属性中的第一属性对于所述组中的至少一些实体是共有的而将所述第一属性添加到属性的第一集合中;
基于(i)第二属性对于所述组的实体中的具有属性的所述第一集合的至少一些实体是共有的以及(ii)所述组的具有除了所述第二属性之外的属性的所述第一集合的组的实体的数量满足第一数量阈值来将所述第二属性添加到属性的所述第一集合中;并且
基于属性的所述第一集合来生成查询建议,使得所述查询建议被配置用于获得反映所述组的结果。


2.根据权利要求1所述的系统,其中,所述一个或多个处理器由机器可读指令配置为关于所述每个组通过以下操作来执行对所述第一属性的所述添加:通过基于所述第一属性在所述组的实体中至少与所述多个属性中的所有其他属性一样常见而将所述第一属性添加到属性的所述第一集合中。


3.根据权利要求1所述的系统,其中,所述一个或多个处理器由计算机可读指令配置为:
关于所述每个组,通过以下来执行对所述第二属性的所述添加:基于(i)所述第二属性在所述组的具有属性的所述第一集合的实体中至少与所述多个属性中的除了所述第一属性之外的所有其他属性一样常见以及(ii)所述组的具有除了所述第二属性之外的属性的所述第一集合的实体的数量满足第一数量阈值,来将所述第二属性添加到属性的所述第一集合中。


4.根据权利要求2所述的系统,其中,所述一个或多个处理器由计算机可读指令配置为:
关于所述每个组,基于(i)下一属性在所述组的具有属性的所述第一集合的实体中至少与所述多个属性中的未包括于属性的所述第一集合中的所有其他属性一样常见以及(ii)所述组的具有除了所述下一属性之外的属性的所述第一集合的实体的数量满足所述第一数量阈值,来迭代地将所述下一属性添加到属性的所述第一集合中,
其中,基于所述组的具有属性的所述第一集合的实体的数量不再满足所述第一数量阈值来停止迭代的添加。


5.根据权利要求1所述的系统,其中,所述一个或多个处理器由机器可读指令配置为,关于所述每个组,通过使用一个或多个逻辑与运算符将属性的所述第一集合中的属性进行联合,来生成所述查询建议。


6.根据权利要求1所述的系统,其中,所述第一数量阈值包括所述组中的实体的预定百分比。


7.根据权利要求1所述的系统,其中,所述一个或多个处理器由计算机可读指令配置为:
关于所述每个组,基于(i)第三属性在所述组的实体中与所述多个属性中的除了属性的第一集合中的属性之外的所有属性一样不常见以及(ii)所述组的具有属性的所述第二集合中的一个或多个属性的实体的第二数量满足第二数量阈值,来将所述第三属性迭代地添加到属性的所述第二集合中。


8.根据权利要求7所述的系统,其中,所述一个或多个处理器通过机器可读指令被配置为通过以下操作执行对所述查询建议的所述生成:
关于所述每个组,将属性的所述第一集合中的属性和属性的所述第二集合中的属性联合以形成所述查询建议,使得(i)所述查询建议经由一个或多个逻辑与运算符来指示对属性的所述第一集合的并入并且(ii)所述查询建议经由一个或多个逻辑非运算符指示对属性的所述第二集合的排除。


9.根据权利要求1所述的系统,其中,如果所述组的同质性指标值突破同质性阈值,则关于所述每个组生成所述查询建议;并且
其中,所述一个或多个处理器由机器可读指令配置为通过以下操作来关于所述每个组确定所述同质性阈值:
识别仅具有最常见属性的实体的第一数量;
迭代地识别具有所述最常见属性和次常见属性的实体的第二数量;
将所述第一数量与所述第二数量中的每个相加;并且
将总和除以所述组中的实体的总数。


10.一种用于提供人类可解读查询建议的计算机辅助生成的系统,所述人类可解读查询建议反映聚类获得的组,所述系统包括:
用于对表示至少1000个实体的数据汇集执行聚类以获得至少100个实体的组的单元,所述1000个实体中的每个具有多个属性中的至少一个属性;
关于所述组中的每个:
用于基于所述多个属性中的第一属性对于所述组中的至少一些实体是共有的而将所述第一属性添加到属性的第一集合中的单元;

【专利技术属性】
技术研发人员:J·J·G·德弗里斯I·索科雷利J·J·B·N·范贝克尔
申请(专利权)人:皇家飞利浦有限公司
类型:发明
国别省市:荷兰;NL

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1