【技术实现步骤摘要】
【国外来华专利技术】用于生成反映组的查询建议的系统和方法
本公开内容涉及一种系统,所述系统被配置为生成人类可解读的查询建议,所述查询建议提供反映实体的组的结果。
技术介绍
探索性数据分析(EDA)涉及无需复杂建模并且无需经过严格的科学方法而确定对数据进行汇总的术语。可以通过对数据点(例如,概念和/或命名实体)的数据集执行聚类以基于数据点的相似性生成子组来将聚类算法与EDA配对。尽管存在关于这样的子组的描述性统计信息的自动生成,但分析师可能没有足够的数据分析经验来辨别数据中的潜在的模式。此外,例如,由于庞大的数据量,模式对于人类的大脑而言可能是不可察觉的,并且分析师可能需要数据集和/或其实体(数据点)的属性的上下文知识。存在这些和其他缺点。
技术实现思路
因此,本公开的一个或多个方面涉及一种被配置用于人类可解读的查询建议的计算机辅助生成的系统,所述人类可解读的查询建议提供反映聚类获得的组的结果。所述系统包括一个或多个处理器和/或其他部件。在一些实施例中,所述一个或多个处理器由机器可读指令配置为对表示至少1000个实体的数据汇集执行聚类以获得具有至少100个实体的组,所述1000个实体中的每个具有多个属性中的至少一个属性。所述一个或多个处理器可以还由机器可读指令配置为关于每个获得的组执行:基于所述多个属性中的第一属性对于所述组中的至少一些实体是共有的,将所述第一属性添加到属性的第一集合中;基于(i)所述第二属性对于所述组的实体中的具有属性的所述第一集合的至少一些实体是共有的,以及(ii)所述组的具有除了所述第二属性之外的 ...
【技术保护点】
1.一种用于提供人类可解读查询建议的计算机辅助生成的系统,所述人类可解读查询建议反映聚类获得的组,所述系统包括:/n一个或多个处理器,其由机器可读指令配置为:/n对表示至少1000个实体的数据汇集执行聚类以获得具有至少100个实体的组,所述1000个实体中的每个具有多个属性中的至少一个属性;/n关于所述组中的每个,执行以下操作:/n基于所述多个属性中的第一属性对于所述组中的至少一些实体是共有的而将所述第一属性添加到属性的第一集合中;/n基于(i)第二属性对于所述组的实体中的具有属性的所述第一集合的至少一些实体是共有的以及(ii)所述组的具有除了所述第二属性之外的属性的所述第一集合的组的实体的数量满足第一数量阈值来将所述第二属性添加到属性的所述第一集合中;并且/n基于属性的所述第一集合来生成查询建议,使得所述查询建议被配置用于获得反映所述组的结果。/n
【技术特征摘要】 【专利技术属性】
【国外来华专利技术】20170814 US 62/544,9601.一种用于提供人类可解读查询建议的计算机辅助生成的系统,所述人类可解读查询建议反映聚类获得的组,所述系统包括:
一个或多个处理器,其由机器可读指令配置为:
对表示至少1000个实体的数据汇集执行聚类以获得具有至少100个实体的组,所述1000个实体中的每个具有多个属性中的至少一个属性;
关于所述组中的每个,执行以下操作:
基于所述多个属性中的第一属性对于所述组中的至少一些实体是共有的而将所述第一属性添加到属性的第一集合中;
基于(i)第二属性对于所述组的实体中的具有属性的所述第一集合的至少一些实体是共有的以及(ii)所述组的具有除了所述第二属性之外的属性的所述第一集合的组的实体的数量满足第一数量阈值来将所述第二属性添加到属性的所述第一集合中;并且
基于属性的所述第一集合来生成查询建议,使得所述查询建议被配置用于获得反映所述组的结果。
2.根据权利要求1所述的系统,其中,所述一个或多个处理器由机器可读指令配置为关于所述每个组通过以下操作来执行对所述第一属性的所述添加:通过基于所述第一属性在所述组的实体中至少与所述多个属性中的所有其他属性一样常见而将所述第一属性添加到属性的所述第一集合中。
3.根据权利要求1所述的系统,其中,所述一个或多个处理器由计算机可读指令配置为:
关于所述每个组,通过以下来执行对所述第二属性的所述添加:基于(i)所述第二属性在所述组的具有属性的所述第一集合的实体中至少与所述多个属性中的除了所述第一属性之外的所有其他属性一样常见以及(ii)所述组的具有除了所述第二属性之外的属性的所述第一集合的实体的数量满足第一数量阈值,来将所述第二属性添加到属性的所述第一集合中。
4.根据权利要求2所述的系统,其中,所述一个或多个处理器由计算机可读指令配置为:
关于所述每个组,基于(i)下一属性在所述组的具有属性的所述第一集合的实体中至少与所述多个属性中的未包括于属性的所述第一集合中的所有其他属性一样常见以及(ii)所述组的具有除了所述下一属性之外的属性的所述第一集合的实体的数量满足所述第一数量阈值,来迭代地将所述下一属性添加到属性的所述第一集合中,
其中,基于所述组的具有属性的所述第一集合的实体的数量不再满足所述第一数量阈值来停止迭代的添加。
5.根据权利要求1所述的系统,其中,所述一个或多个处理器由机器可读指令配置为,关于所述每个组,通过使用一个或多个逻辑与运算符将属性的所述第一集合中的属性进行联合,来生成所述查询建议。
6.根据权利要求1所述的系统,其中,所述第一数量阈值包括所述组中的实体的预定百分比。
7.根据权利要求1所述的系统,其中,所述一个或多个处理器由计算机可读指令配置为:
关于所述每个组,基于(i)第三属性在所述组的实体中与所述多个属性中的除了属性的第一集合中的属性之外的所有属性一样不常见以及(ii)所述组的具有属性的所述第二集合中的一个或多个属性的实体的第二数量满足第二数量阈值,来将所述第三属性迭代地添加到属性的所述第二集合中。
8.根据权利要求7所述的系统,其中,所述一个或多个处理器通过机器可读指令被配置为通过以下操作执行对所述查询建议的所述生成:
关于所述每个组,将属性的所述第一集合中的属性和属性的所述第二集合中的属性联合以形成所述查询建议,使得(i)所述查询建议经由一个或多个逻辑与运算符来指示对属性的所述第一集合的并入并且(ii)所述查询建议经由一个或多个逻辑非运算符指示对属性的所述第二集合的排除。
9.根据权利要求1所述的系统,其中,如果所述组的同质性指标值突破同质性阈值,则关于所述每个组生成所述查询建议;并且
其中,所述一个或多个处理器由机器可读指令配置为通过以下操作来关于所述每个组确定所述同质性阈值:
识别仅具有最常见属性的实体的第一数量;
迭代地识别具有所述最常见属性和次常见属性的实体的第二数量;
将所述第一数量与所述第二数量中的每个相加;并且
将总和除以所述组中的实体的总数。
10.一种用于提供人类可解读查询建议的计算机辅助生成的系统,所述人类可解读查询建议反映聚类获得的组,所述系统包括:
用于对表示至少1000个实体的数据汇集执行聚类以获得至少100个实体的组的单元,所述1000个实体中的每个具有多个属性中的至少一个属性;
关于所述组中的每个:
用于基于所述多个属性中的第一属性对于所述组中的至少一些实体是共有的而将所述第一属性添加到属性的第一集合中的单元;
技术研发人员:J·J·G·德弗里斯,I·索科雷利,J·J·B·N·范贝克尔,
申请(专利权)人:皇家飞利浦有限公司,
类型:发明
国别省市:荷兰;NL
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。