用于将数据记录分组的设备、系统以及方法技术方案

技术编号:14568883 阅读:149 留言:0更新日期:2017-02-06 02:38
本申请涉及基于由数据记录引用的实体,用于将数据记录分组的设备、系统和方法。所公开的分组机构可包括确定在大量数据记录之间的成对相似性,以及基于它们的成对相似性来聚类数据记录的子集。

【技术实现步骤摘要】
【国外来华专利技术】相关申请的交叉引用本申请根据35U.S.C.§119(e)要求先前提交日期的权益,如下:·在2013年3月15日提交的,名称为“SYSTEMFORANALYZINGANDUSINGLOCATIONBASEDBEHAVIOR”的美国临时申请No.61/799,986;·在2013年3月15日提交的,名称为“GEOGRAPHICLOCATIONDESCRIPTORANDLINKER”的美国临时申请No.61/800,036;·在2013年3月15日提交的,名称为“SYSTEMANDMETHODFORCROWDSOURCINGDOMAINSPECIFICINTELLIGENCE”的美国临时申请No.61/799,131;·在2013年3月15日提交的,名称为“SYSTEMWITHBATCHANDREALTIMEDATAPROCESSING”的美国临时申请No.61/799,846;以及·在2013年3月15日提交的,名称为“SYSTEMFORASSIGNINGSCORESTOLOCATIONENTITIES”的美国临时申请No.61/799,817。本申请同样涉及:·在同一日期与此一道提交的,名称为“APPARATUS,SYSTEMS,ANDMETHODSFORANALYZINGMOVEMENTSOFTARGETENTITIES”的美国专利申请No.14/214,208;·在同一日期与此一道提交的,名称为“APPARATUS,SYSTEMS,ANDMETHODSFORPROVIDINGLOCATIONINFORMATION”的美国专利申请No.14/214,296;·在同一日期与此一道提交的,名称为“APPARATUS,SYSTEMS,ANDMETHODSFORCROWDSOURCINGDOMAINSPECIFICINTELLIGENCE”的美国专利申请No.14/214,213;·在同一日期与此一道提交的,名称为“APPARATUS,SYSTEMS,ANDMETHODSFORBATCHANDREALTIMEDATAPROCESSING”的美国专利申请No.14/214,219;·在同一日期与此一道提交的,名称为“APPARATUS,SYSTEMS,ANDMETHODSFORANALYZINGCHARACTERISTICSOFENTITIESOFINTEREST”的美国专利申请No.14/214,309;以及·在同一日期与此一道提交的,名称为“APPARATUS,SYSTEMS,ANDMETHODSFORGROUPINGDATARECORDS”的美国专利申请No.14/214,231。以上引用的申请(包括临时申请和非临时申请两者)中的每一个申请的整体内容通过引用并入本文。
本公开一般涉及用于将与实体相关联的数据记录分组的设备、系统和方法。
技术介绍
每天有大量的信息被创建。社交网站和博客站点每天接收数以百万计的新帖子,并且不断产生新网页以提供关于个人、重大事件、企业,或人们关注的任何其它实体的信息。此外,信息通常不能从单个存储库获得,而一般分布在通常位于世界各地的数以百万计的存储库中。由于信息的绝对数量和分布性质,人们难以有效地消费信息。为了解决这个问题,数据分析系统可以(1)使用爬虫(crawler)收集信息,以及(2)创建所收集信息的有意义的摘要,以使得可容易地消费信息。例如,数据分析系统将期望收集与诸如Factual的特定实体相关联的所有可用的数据记录,并且提供数据记录的有意义的摘要,以使得用户可容易地消费关于特定实体的信息。遗憾的是,创建所收集信息的有意义的摘要是具有挑战性的,因为通常情况下,尤其是在以十亿尺度计的记录中,不清楚两个或更多数据记录与同一实体、相关实体是否相关联,或者根本不相关联。因此,需要一种有效的机构,以解决两个或更多数据记录是否提供关于同一实体、相关实体或者独立实体的信息。
技术实现思路
通常,在一方面,所公开主题的实施例可包括一种设备。设备包括被配置成运行存储在存储器中的一个或多个模块的处理器。一个或多个模块被配置成识别针对其确定相似性值的至少一对数据记录;至少部分地基于与至少一对数据记录相关联的多个属性,确定至少一对数据记录的相似性值;以及基于至少一对数据记录的相似性值,将至少一对数据记录与一个或多个集群相关联,每个集群与唯一实体相关联。通常,在一方面,所公开主题的实施例可包括用于将多个数据记录聚类成至少一个集群的方法。方法包括:在位于计算装置中的候选精简模块处,识别多个数据记录中针对其确定相似性值的至少一对数据记录;在位于计算装置中并与候选精简模块通信的相似性运算模块处,至少部分地基于与至少一对数据记录相关联的多个属性,确定至少一对数据记录的相似性值;以及在位于计算装置中并与相似性运算模块通信的的聚类运算模块处,基于至少一对数据记录的相似性值,将至少一对数据记录与一个或多个集群相关联,每个集群均与唯一实体相关联。通常,在一方面,所公开主题的实施例可包括一种计算机程序产品,其有形地体现在非暂时性计算机可读存储介质中。计算机程序产品包括指令,该指令可操作以使数据处理系统识别针对其确定相似性值的至少一对数据记录;至少部分地基于与至少一对数据记录相关联的多个属性,确定至少一对数据记录的相似性值;以及基于至少一对数据记录的相似性值,将至少一对数据记录与一个或多个集群相关联,每个集群与唯一实体相关联。通常,在一方面,所公开主题的实施例可包括用于将多个数据记录聚类成至少一个集群的方法。该方法包括在一个或多个模块处,识别多个数据记录中针对其确定相似性值的至少一对数据记录;在一个或多个模块处,至少部分地基于与至少一对数据记录相关联的多个属性,确定至少一对数据记录的相似性值;以及在与相似性运算模块通信的一个或多个模块处,基于至少一对数据记录的相似性值,将至少一对数据记录与一个或多个集群相关联,每个集群均与唯一实体相关联。在本文公开的任何一个实施例中,设备、方法或计算机程序产品可包括,用于基于可能由相关数据记录共享的一组预定属性,识别不需要针对其确定相似性值的一对或多对数据记录的模块、步骤或可执行指令。在本文公开的任何一个实施例中,设备、方法或计算机程序产品可包括,用于基于来自先前迭代的数据记录与集群的关联,调节一组预定属性的模块、步骤或可执行指令。本文档来自技高网
...

【技术保护点】
一种设备,包括:处理器,其被配置成运行存储在存储器中的一个或多个模块,其中所述一个或多个模块被配置成:识别针对其确定相似性值的至少一对数据记录;至少部分地基于与所述至少一对数据记录相关联的多个属性,确定所述至少一对数据记录的所述相似性值;以及基于所述至少一对数据记录的所述相似性值,将所述至少一对数据记录与一个或多个集群相关联,每个所述集群均与唯一实体相关联。

【技术特征摘要】
【国外来华专利技术】2013.03.15 US 61/799,131;2013.03.15 US 61/799,817;1.一种设备,包括:
处理器,其被配置成运行存储在存储器中的一个或多个模块,其中所
述一个或多个模块被配置成:
识别针对其确定相似性值的至少一对数据记录;
至少部分地基于与所述至少一对数据记录相关联的多个属性,
确定所述至少一对数据记录的所述相似性值;以及
基于所述至少一对数据记录的所述相似性值,将所述至少一对
数据记录与一个或多个集群相关联,每个所述集群均与唯一实体相关
联。
2.根据权利要求1所述的设备,其中所述一个或多个模块进一步被配
置成基于可能由相关数据记录共享的一组预定属性,识别不需要针对其确
定相似性值的一对或多对数据记录。
3.根据权利要求2所述的设备,其中所述一个或多个模块被配置成基
于来自先前迭代的数据记录与集群的关联,调节所述一组预定属性。
4.根据权利要求1所述的设备,其中所述一个或多个模块被配置成基
于从训练数据记录得知的相似性函数,确定所述相似性值。
5.根据权利要求4所述的设备,其中所述相似性函数被设计成推断与
数据记录的特定属性相关联的特定组件的重要性,其中通过如下操作得知
所述相似性函数:
确定在与所述训练数据记录的所述特定属性相关联的组件之间的差
异,其中已知所述训练数据记录属于同一集群;以及
基于所述特定组件在所述差异中出现的次数,确定所述特定组件的重
要性。
6.根据权利要求4所述的设备,其中所述相似性函数被设计成推断将
数据记录的特定属性中的第一组件与第二组件互换的可能性,其中通过如
下操作得知所述相似性函数:
确定在与所述训练数据记录的所述特定属性相关联的组件之间的差
异,其中已知所述训练数据记录属于同一集群,以及
基于所述第一组件和所述第二组件同时在所述差异中出现的次数,确
定将所述第一组件与所述第二组件互换的可能性。
7.根据权利要求4所述的设备,其中所述相似性函数被设计成确定数
据记录的缺失属性具有特定组件的条件可能性,其中通过如下操作确定所
述条件可能性:
确定对应于特定实体的已知属性的组合;
确定缺失属性在具有所述已知属性的组合的特定实体的数据记录之
间的所有变化;以及
假定所述数据记录具有已知属性的特定组合,基于所述缺失属性的所
述变化来确定所述缺失属性具有特定组件的条件概率。
8.根据权利要求1所述的设备,其中所述一个或多个模块被配置成:
将多个数据记录表示为图中的多个节点;
将所述至少一对数据记录的所述相似性值表示为图中对应于所述至
少一对数据记录的节点之间的至少一个边;以及
基于所述图确定所述一个或多个集群。
9.根据权利要求8所述的设备,其中所述一个或多个模块被配置成基
于所述图,使用图聚类技术来确定所述一个或多个集群。
10.根据权利要求1所述的设备,其中所述一个或多个模块被配置成
接收要求所述一个或多个模块将两个数据记录与同一集群相关联的聚类
指令。
11.根据权利要求1所述的设备,其中所述一个或多个模块被配置成
使用聚类技术将所述多个数据记录中的至少一个关联到一个或多个
集群;以及
基于所述一个或多个集群中的数据记录,独立地调节针对所述一个或
多个集群中的...

【专利技术属性】
技术研发人员:B·西马诺夫斯基M·拉冈L·保罗维兹
申请(专利权)人:美国结构数据有限公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1