【技术实现步骤摘要】
【国外来华专利技术】加速大规模相似性计算
技术介绍
本说明书涉及大规模相似性计算的计算过程。在许多情况下,可能希望确定输入样本是否与多个存储记录匹配,或者匹配程度如何。作为一个示例,可能希望确定DNA样本是否与存储在DNA记录的数据库中的记录中的任何一个匹配。数据库有可能包含许多DNA记录(例如,数十万甚至数百万个记录)。通常,可能希望响应于输入样本从数据库中检索某一数量个(n个)存储记录。输入样本可以是数据库中被确定为与输入样本最接近的n个匹配的n个记录。检索到的记录的数量n比数据库中的记录的总数小,通常小得多。n个检索到的记录可以首先按照最可能的顺序排列。常规地,这种检索过程可以涉及计算输入样本和存储在数据库中的每个记录之间的相似性的度量,然后识别具有计算出的相似性度量的最高值的n个记录。n个检索到的记录可以被重新排序,以便参考计算出的相似性度量的值来排列。随着存储的记录的数量增加,这个过程变得越来越计算密集和耗时。
技术实现思路
一种方法、系统和装置,包括编码在计算机存储介质上的计算机程序,用于使用实体相关性系统的第一处理器来获取存储在存储 ...
【技术保护点】
1.一种计算机实施的方法,包括:/n由实体相关性系统的第一处理单元获取存储在存储设备处的数据,所述数据包括关于多个实体的信息;/n在所述第一处理单元处,使用从所述数据存储设备获取的数据来生成多个数据阵列,其中所述多个数据阵列中的每个数据阵列:/ni)包括多个实体的参数值;并且/nii)被配置用于在第二处理单元的相应的计算单元处进行处理;/n在所述实体相关性系统处,向所述第二处理单元提供所述多个数据阵列中的至少两个数据阵列,所述第二处理单元被配置为执行相关性算法,以在所述第二处理单元的相应的计算单元处同时处理所述至少两个数据阵列;/n在所述第二处理单元处,基于使用所述相关性算 ...
【技术特征摘要】
【国外来华专利技术】1.一种计算机实施的方法,包括:
由实体相关性系统的第一处理单元获取存储在存储设备处的数据,所述数据包括关于多个实体的信息;
在所述第一处理单元处,使用从所述数据存储设备获取的数据来生成多个数据阵列,其中所述多个数据阵列中的每个数据阵列:
i)包括多个实体的参数值;并且
ii)被配置用于在第二处理单元的相应的计算单元处进行处理;
在所述实体相关性系统处,向所述第二处理单元提供所述多个数据阵列中的至少两个数据阵列,所述第二处理单元被配置为执行相关性算法,以在所述第二处理单元的相应的计算单元处同时处理所述至少两个数据阵列;
在所述第二处理单元处,基于使用所述相关性算法和所述多个实体的参数值在所述相应的计算单元处执行的计算来计算相关性分数;以及
在所述实体相关性系统处,基于计算出的相关性分数来确定所述至少两个数据阵列的实体之间的关系,其中所述关系指示存在于所述实体的至少一个子集之间的重叠属性。
2.根据权利要求1所述的方法,其中,计算所述相关性分数包括:
选择特定相关性算法作为相似性算法或条件概率算法;
使用所述特定相关性算法计算所述至少两个数据阵列的实体之间的交集和所述至少两个数据阵列的实体之间的并集;以及
基于所述交集和所述并集来计算所述相关性分数。
3.根据权利要求1所述的方法,其中:
所述第一处理单元是中央处理单元(CPU),其对从所述数据存储设备获取的数据进行预分类以生成所述多个数据阵列;
所述第二处理单元是图形处理单元(GPU),其使用所述至少两个数据阵列的实体的参数值来执行并行计算;以及
所述特定相关性算法是jaccard相似性算法、余弦相似性算法或条件概率算法。
4.根据权利要求1所述的方法,其中,生成包括:
基于略图算法对包括关于所述多个实体的信息的所述数据进行分类;以及
响应于分类,生成所述数据的略图表示,每个略图表示对应于所述多个数据阵列中的每一个。
5.根据权利要求1所述的方法,其中:
每个数据阵列是存储在所述存储设备处的所述数据的略图表示;以及
所述多个数据阵列的至少一个子集包括各自都具有预定数量的实体的相应的数据阵列。
6.根据权利要求5所述的方法,其中:
根据在所述第二处理单元处包括的计算单元的数量来确定每个略图表示的大小。
7.根据权利要求1所述的方法,其中,提供包括:
将每个数据阵列存储在所述第二处理单元处的高速缓冲存储器中,其中,所述高速缓冲存储器表示所述第二处理单元的紧凑存储器,并且根据所述紧凑存储器的数据容量来确定每个数据阵列的大小。
8.根据权利要求1所述的方法,其中,所述数据阵列中的至少一个被配置用于由在所述第二处理单元处包括的多个计算单元中的每一个来访问。
9.根据权利要求1所述的方法,其中,确定实体之间的关系包括:
确定计算出的相关性分数是否超过阈值分数;以及
响应于确定计算出的相关性分数超过所述阈值分数,生成使用超过所述阈值分数的相关性分数进行排序的实体列表。
10.一种电子系统,包括:
一个或多个处理设备;和
一个或多个非暂时性机器可读存储设备,其存储可由一个或多个处理设备执行的指令,以使得执行包括以下各项的操作:
由实体相关性系统的第一处理单元获取存储在存储设备处的数据,所述数据包括关于多个实体的信息;
在所述第一处理单元处,使用从所述数据存储设备获取的数据生成多个数据阵列,其中所述多个数据阵列中的每个数据阵列:
i)包括多个实体的参数值;并且
ii)被配置用于在所述第二处理单元的相应的计算单元处进行处理;
在所述实体相关性系统处,向所述第二处理单元提供至少两个数据阵列,所述第二处理单元被配置为执行相关性算法,以在所述第二处理单元的相应的计算单元处同时处理所述至少两个数据阵列;
在所述第二处理单元处,基于使用所述相关性算法和所述多个实体的参数值在所述相应的计算单元处执行的计算来计算相关性分数;以及
在所述实体相关性系统处,基于计算出的相关性分数来确定所述至少两个数据阵列的实体之间的关系,其中所述关系指示存在于所述实体的至少一个子集之间的重叠属性。
11.根据权利要求10所述的电子系统,其中,计算所述相关性分数包括:
选择特定相关性算法作为相似性算法或条件概率算法;
使用所述特定相关性算法计算所述至少两个数据阵列的实体之间的交集和所述至少两个数据阵列的实体之间的并集;以及
基于所述交集和所述并集来计算所述相关性分数。
12.根据权利要求10所述的电子系统,其中:
所述第一处理单元是中央处理单元(CPU),其对从所述数据存储设备获取的数据进行预分类以生成所述多个数据阵列;
所述第二处理单元是图形处理单元(GPU),其使用所述至少两个数据阵列的实体的参数值来执行并行计算;以及
所述特定相关性算法是jaccard相似性算法、余弦相似性算法或条件概率算法。
13.根据权利要求10所述的电子系统,其中,生成包括:
基于略图算法对包括关于所述多个实体的信息的数据进行分类;以及
响应于分类,...
【专利技术属性】
技术研发人员:马琳,N威甘德,
申请(专利权)人:谷歌有限责任公司,
类型:发明
国别省市:美国;US
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。