文档主题的并行生成制造技术

技术编号：9995147 阅读：138 留言：0更新日期：2014-05-02 19:31

用于增强的并行隐含狄利克雷分布（PLDA+）的方法、系统和设备，包括被编码在计算机存储介质上的计算机程序。PLDA+系统是多个处理器的系统，该多个处理器被配置成生成多个文档的主题。多个处理器被指定为两种类型：文档处理器和矩阵处理器。在文档处理器之间分配文档。在矩阵处理器之间分配所生成的主题。在文档处理器和矩阵处理器上执行的任务被分成两种类型的任务：计算绑定任务和通信绑定任务。计算绑定任务是CPU密集型任务；通信绑定任务是网络密集型任务。采用数据布置和流水线策略，使得计算绑定任务和通信绑定任务以均衡方式被分发给各处理器，并且被并行执行。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】【专利摘要】用于增强的并行隐含狄利克雷分布（PLDA+）的方法、系统和设备，包括被编码在计算机存储介质上的计算机程序。PLDA+系统是多个处理器的系统，该多个处理器被配置成生成多个文档的主题。多个处理器被指定为两种类型：文档处理器和矩阵处理器。在文档处理器之间分配文档。在矩阵处理器之间分配所生成的主题。在文档处理器和矩阵处理器上执行的任务被分成两种类型的任务：计算绑定任务和通信绑定任务。计算绑定任务是CPU密集型任务；通信绑定任务是网络密集型任务。采用数据布置和流水线策略，使得计算绑定任务和通信绑定任务以均衡方式被分发给各处理器，并且被并行执行。【专利说明】文档主题的并行生成
本说明书涉及文档处理。
技术介绍
电子文档可以具有一个或更多个主题。计算机可以使用一种被称为主题模型的统计模型从电子文档中自动提取一个或更多个主题。示例主题模型为隐含狄利克雷分布(LDA)0根据LDA,主题是词的概率分布。例如,具有与词斑猫(tabby)、猫叫(purr)和小猫(kitten)相关联的指定的概率分布的主题可以是关于“猫”的主题。计算机可以分析电子文档，包括例如计算如文档中包括的词斑猫、猫叫和小猫中的每个词的概率分布。所计算的概率分布可以指示该电子文档与主题“猫”相关联的可能性。主题是抽象的。词“猫”是抽象的主题的任意标签。在LDA中，每个文档被建模为K个主题的混合，其中，每个主题k是关于W个词的词汇表的多项分布Φ,。对于任意文档4，其主题矩阵Θ ^是使用参数α从狄利克雷先验(Dirichlet prior)中得到的概率分布。对于d」中的每个第i个词Xij,从Θ...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】

【专利技术属性】
技术研发人员：刘志远，张宇宙，爱德华·Y·常，
申请(专利权)人：谷歌公司，
类型：
国别省市：

全部详细技术资料下载我是这个专利的主人