当前位置: 首页 > 专利查询>谷歌公司专利>正文

文档主题的并行生成制造技术

技术编号:9995147 阅读:138 留言:0更新日期:2014-05-02 19:31
用于增强的并行隐含狄利克雷分布(PLDA+)的方法、系统和设备,包括被编码在计算机存储介质上的计算机程序。PLDA+系统是多个处理器的系统,该多个处理器被配置成生成多个文档的主题。多个处理器被指定为两种类型:文档处理器和矩阵处理器。在文档处理器之间分配文档。在矩阵处理器之间分配所生成的主题。在文档处理器和矩阵处理器上执行的任务被分成两种类型的任务:计算绑定任务和通信绑定任务。计算绑定任务是CPU密集型任务;通信绑定任务是网络密集型任务。采用数据布置和流水线策略,使得计算绑定任务和通信绑定任务以均衡方式被分发给各处理器,并且被并行执行。

【技术实现步骤摘要】
【国外来华专利技术】【专利摘要】用于增强的并行隐含狄利克雷分布(PLDA+)的方法、系统和设备,包括被编码在计算机存储介质上的计算机程序。PLDA+系统是多个处理器的系统,该多个处理器被配置成生成多个文档的主题。多个处理器被指定为两种类型:文档处理器和矩阵处理器。在文档处理器之间分配文档。在矩阵处理器之间分配所生成的主题。在文档处理器和矩阵处理器上执行的任务被分成两种类型的任务:计算绑定任务和通信绑定任务。计算绑定任务是CPU密集型任务;通信绑定任务是网络密集型任务。采用数据布置和流水线策略,使得计算绑定任务和通信绑定任务以均衡方式被分发给各处理器,并且被并行执行。【专利说明】文档主题的并行生成
本说明书涉及文档处理。
技术介绍
电子文档可以具有一个或更多个主题。计算机可以使用一种被称为主题模型的统计模型从电子文档中自动提取一个或更多个主题。示例主题模型为隐含狄利克雷分布(LDA)0根据LDA,主题是词的概率分布。例如,具有与词斑猫(tabby)、猫叫(purr)和小猫(kitten)相关联的指定的概率分布的主题可以是关于“猫”的主题。计算机可以分析电子文档,包括例如计算如文档中包括的词斑猫、猫叫和小猫中的每个词的概率分布。所计算的概率分布可以指示该电子文档与主题“猫”相关联的可能性。主题是抽象的。词“猫”是抽象的主题的任意标签。在LDA中,每个文档被建模为K个主题的混合,其中,每个主题k是关于W个词的词汇表的多项分布Φ,。对于任意文档4,其主题矩阵Θ ^是使用参数α从狄利克雷先验(Dirichlet prior)中得到的概率分布。对于d」中的每个第i个词Xij,从Θ」中得到主题Zij = k,并且从Φ,中得到词Xij。因此,由下式给出LDA的生成操作:Θ j ~Dir ( α ), Φ k ~Dir ( β ), Zij = k ~Θ」,Xij ~Φ k, (I)其中,Dir(*)表示狄利克雷分布;α和β各自是狄利克雷先验。
技术实现思路
描述了增强的并行隐含狄利克雷分布(PLDA+)系统和方法。PLDA+系统是多个处理器的系统,多个处理器被配置成生成多`个文档的主题。多个处理器被指定为两种类型:文档处理器和矩阵处理器。在该上下文中,术语“处理器”指代被配置成执行下面所描述的视情况而定由文档处理器或矩阵处理器执行的动作的计算机。计算机可以被配置成借助使软件、固件、硬件或其组合安装在计算机上来执行这些动作,该软件、固件、硬件或其组合在工作中使得系统执行这些动作。类似地,一个或更多个计算机程序可以被配置成借助包括指令来执行特定动作,在由一个或更多个计算机执行这些指令时使得计算机执行这些动作。文档在文档处理器之间分配。生成的主题在矩阵处理器之间分配。在文档处理器和矩阵处理器上执行的任务被分成两种类型的任务:计算绑定任务和通信绑定任务。计算绑定任务是CPU密集型任务;通信绑定任务是网络密集型任务。使用数据布置(dataplacement)和流水线策略(pipeline strategy),使得计算绑定任务和通信绑定任务以均衡方式被分发给处理器并且被并行执行。一般地,本说明书中所描述的主题的一个方面可以用以下操作来实施,这些操作包括使用一个或更多个文档处理器和多个矩阵处理器从一个或更多个文档的集合提取词-主题矩阵。词-主题矩阵包括一个或更多个文档的集合的多个主题。至少部分地由词集中的一个或更多个词来定义主题中的每个主题。一个或更多个词中的每个词与概率相关联。根据一个或更多个文档的集合的词索引来创建词集。至少部分地由与一个或更多个主题相对应的第一维度以及与词集相对应的第二维度来定义词-主题矩阵。矩阵处理器包括至少第一矩阵处理器和第二矩阵处理器。第一矩阵处理器被配置成存储和处理与词集的第一子集相对应的词-主题矩阵的第一部分。第二矩阵处理器被配置成存储和处理与词集的第二子集相对应的词-主题矩阵的第二部分。一个或更多个文档处理器中的每个被配置成执行主题提取操作和矩阵交换操作。主题提取操作包括使用存储在第一矩阵处理器处的词-主题矩阵的第一部分来针对一个或更多个第一主题对一个或更多个文档的集合进行采样。第一主题可以包括一个或更多个文档的集合的多个主题的至少一部分。矩阵交换操作包括获取操作(fetching operation)或更新操作中的至少之一。获取操作包括从第二矩阵处理器获取待在针对一个或更多个第二主题对一个或更多个文档的集合进行采样时使用的词-主题矩阵的第二部分。第二主题可以包括一个或更多个文档的集合的多个主题的至少一部分,并且可以与第一主题相同或不同。更新操作包括:当提取到至少一个第二主题时,请求第二矩阵处理器使用所提取的第二主题来更新词-主题矩阵的第二部分,其中所提取的第二主题对应于第二子集中的词。 可选地,这些实施方式和其他实施方式可以包括下面的特征中的一个或更多个。这些操作还包括将词集中的词组织为循环队列。一个或更多个文档处理器包括多个处理器。操作还包括将多个文档处理器中的第一文档处理器配置成使用队列的第一位置处的词来开始执行主题提取操作;以及将多个文档处理器中的第二文档处理器配置成使用队列的第二位置处的词来开始执行主题提取操作,其中,第一位置不同于第二位置。操作还可以包括根据加权轮询调度(round robin schedule)将词集中的词分配给多个矩阵处理器。根据加权轮询调度来对词进行分配可以包括:确定词集中的每个词的权重;确定多个矩阵处理器中的每个处理器的负荷;根据词的权重对词集中的词进行排序;以及迭代地将具有最大权重的词分配给具有最小负荷的矩阵处理器。确定词集中的每个词的权重可以包括确定驻留有词的文档处理器的数量。确定多个矩阵处理器中的每个矩阵处理器的负荷可以包括确定该矩阵处理器上词的权重之和。操作还可以包括将一个或更多个文档处理器中的每个文档处理器配置成基于第一词束(word bundle)和第二词束执行主题提取操作。第一词束可以对应于词集的第一子集。第二词束可以对应于词集的第二子集。针对一个或更多个第一主题对一个或更多个文档的集合进行采样包括:对一个或更多个文档的集合执行吉布斯采样。本说明书中所描述的主题的另一方面可以用以下操作来实施,这些操作包括将词-主题矩阵的第一部分分配给第一矩阵处理器。词-主题矩阵包括一个或更多个文档的集合的多个主题。每个主题包括词集中的一个或更多个词。一个或更多个词中的每个词与相应概率相关联。词集包括来自一个或更多个文档的集合的词索引的词。操作包括将词-主题矩阵的第二部分分配给第二矩阵处理器。词-主题矩阵的第二部分不同于词-主题矩阵的第一部分。操作包括在文档处理器上执行主题提取操作。文档提取操作包括使用存储在第一矩阵处理器处的词-主题矩阵的第一部分来针对一个或更多个第一主题对一个或更多个文档的集合进行采样。操作包括在文档处理器上并且与执行主题提取操作并行地执行矩阵交换操作。矩阵操作包括获取操作或更新操作中的至少一个。获取操作包括从第二矩阵处理器获取要在针对一个或更多个第二主题对一个或更多个文档的集合进行采样时使用的词-主题矩阵的第二部分。更新操作包括,当提取到至少一个第二主题时,请求第二矩阵处理器使用所提取的第二主题更新词-主题矩阵中的第二部分,其中所提取的第二主本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】

【专利技术属性】
技术研发人员:刘志远张宇宙爱德华·Y·常
申请(专利权)人:谷歌公司
类型:
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1