一种并行主题挖掘方法及装置制造方法及图纸

技术编号:11937223 阅读:63 留言:0更新日期:2015-08-26 08:08
本发明专利技术实施例提供一种并行主题挖掘方法及装置。该方法包括:并行主题挖掘装置中的第一节点接收第二节点发送的第二单词-主题子矩阵和第二余数子矩阵;其中,第二余数子矩阵包括余数矩阵中行累加值最大的行以及列累加值最大的列,所述第二单词-主题子矩阵包括所述余数矩阵中行累加值最大的行的行号在单词-主题矩阵中对应的行,以及所述余数矩阵中列累加值最大的列的列号在所述单词-主题矩阵中对应的列;并根据第二单词-主题子矩阵更新第一单词-主题子矩阵,根据第二余数子矩阵更新第一余数子矩阵,将更新后的第一单词-主题子矩阵和第一余数子矩阵发送至第二节点。从而减小主题挖掘过程中的通讯量,提高主题挖掘的速度。

【技术实现步骤摘要】

本专利技术涉及计算机技术,尤其涉及一种并行主题挖掘方法及装置
技术介绍
从海量文档或图片集合中挖掘具有语义相关的单词聚类称为主题挖掘。通常使用 词包矩阵表示文档集合并输入到潜在狄利克雷分配系统化atent Dirichlet Allocation, 简称;LDA)中,通过自动的推理方法,估计并输出文档-主题矩阵和单词-主题矩阵。 现有的并行主题挖掘方法,采用大规模多处理器集群,该集群包含一个母计算节 点和多个子计算节点,子计算节点和母计算节点通常通过网络进行连接通讯。在进行主题 挖掘时,LDA先将输入的词包矩阵按照文档索引均匀的分割,并分别输入到各子计算节点 中进行主题挖掘的过程,再由各子计算节点将对应的单词-主题矩阵更新后上传到母计算 节点,母计算节点将各子计算节点上传的单词-主题矩阵统一合并,再下发至各子计算节 点,重复上述过程,直至统一合并的单词-主题矩阵收敛后,LDA输出文档-主题矩阵和单 词-主题矩阵。 做大规模主题挖掘时,LDA中的通讯模块在每次循环时需要上传和下载全部单 词-主题矩阵的元素,通讯量较大,形成较大的时间延迟,并行主题挖掘的效率较低。
技术实现思路
本专利技术实施例提供一种并行主题挖掘方法及装置,W减小主题挖掘过程中的通讯 量,提高主题挖掘的速度。 第一方面,本专利技术实施例提供一种并行主题挖掘方法,包括: 并行主题挖掘装置中的第一节点接收所述并行主题挖掘装置中的第二节点发送 的第二单词-主题子矩阵和第二余数子矩阵;其中,所述第二余数子矩阵包括余数矩阵中 行累加值最大的行W及列累加值最大的列,所述第二单词-主题子矩阵包括所述余数矩阵 中行累加值最大的行的行号在单词-主题矩阵中对应的行,W及所述余数矩阵中列累加值 最大的列的列号在所述单词-主题矩阵中对应的列; 所述第一节点根据所述第二单词-主题子矩阵更新第一单词-主题子矩阵,根据 所述第二余数子矩阵更新第一余数子矩阵,并将更新后的第一单词-主题子矩阵和更新后 的第一余数子矩阵发送至所述第二节点。 结合第一方面,在第一方面的第一种可能的实现方式中,所述第一节点根据所述 第二余数子矩阵更新第一余数子矩阵,包括: 所述第一节点通过第一公式,根据所述第二余数子矩阵更新所述第一余数子矩阵 r-'d似; 其中,所述第一公式为:【主权项】1. 一种并行主题挖掘方法,其特征在于,包括: 并行主题挖掘装置中的第一节点接收所述并行主题挖掘装置中的第二节点发送的第 二单词-主题子矩阵和第二余数子矩阵;其中,所述第二余数子矩阵包括余数矩阵中行累 加值最大的行以及列累加值最大的列,所述第二单词-主题子矩阵包括所述余数矩阵中行 累加值最大的行的行号在单词-主题矩阵中对应的行,以及所述余数矩阵中列累加值最大 的列的列号在所述单词-主题矩阵中对应的列; 所述第一节点根据所述第二单词-主题子矩阵更新第一单词-主题子矩阵,根据所述 第二余数子矩阵更新第一余数子矩阵,并将更新后的第一单词-主题子矩阵和更新后的第 一余数子矩阵发送至所述第二节点。2. 根据权利要求1所述的方法,其特征在于,所述第一节点根据所述第二余数子矩阵 更新第一余数子矩阵,包括:所述第一节点通过第一公式,根据所述第二余数子矩阵更新所述第一余数子矩阵 rw,d(k); 其中,所述第一公式为: 其中,w表示余数子矩阵的第w行,d表示所述余数子矩阵的第d列,k表示所述余数 子矩阵的非零元素 k,m表示所述余数子矩阵的更新次数,表示所述第二余数子矩阵 第w行第d列的非零元素,μ;表示的消息向量值,的初始值满足第二公式:3. 根据权利要求1或2所述的方法,其特征在于,所述第一节点根据所述第二单词-主 题子矩阵更新第一单词-主题子矩阵,包括: 所述第一节点通过第三公式,根据所述第二单词-主题子矩阵更新第一单词-主题子 矩阵μ: (k); 其中,所述第三公式为其中,W表示单词-主题子矩阵的第W行,d表示所述单词-主题子矩阵的第d列,k表 示所述单词-主题子矩阵的非零元素 k,m表示所述单词-主题子矩阵的更新次数,m > 1, 为第m-l次更新第一单词-主题子矩阵时得到的文档-主题子矩阵,((C 1P)为所述 第二单词-主题子矩阵,φΜ(1〇为所述第二单词-主题子矩阵的单词数之和,W为单词表 长度,α =〇· 01,β =〇· 01。4. 一种并行主题挖掘方法,其特征在于,包括: 并行主题挖掘装置中的第二节点将接收到的、所述并行主题挖掘装置中的至少两个第 一节点发送的至少两个第一单词-主题子矩阵合并成单词-主题矩阵,将接收到的、所述至 少两个第一节点发送的至少两个第一余数子矩阵合并成余数矩阵; 所述第二节点获取第二余数子矩阵和第二单词-主题子矩阵,所述第二余数子矩阵包 括所述余数矩阵中行累加值最大的行以及列累加值最大的列,所述第二单词-主题子矩阵 包括与所述余数矩阵中行累加值最大的行的行号所对应的在单词-主题矩阵中的行、以及 与所述余数矩阵中列累加值最大的列的列号所对应的在单词-主题矩阵中的列; 所述第二节点将所述第二余数子矩阵和所述第二单词-主题子矩阵均发送到至少两 个所述第一节点;以使至少两个所述第一节点根据所述第二余数子矩阵更新所述第一余数 子矩阵,并根据所述第二单词-主题子矩阵更新所述第一单词-主题子矩阵。5. 根据权利要求4所述的方法,其特征在于,所述第二节点获取第二余数子矩阵,包 括: 所述第二节当前第1页1 2 本文档来自技高网...

【技术保护点】
一种并行主题挖掘方法,其特征在于,包括:并行主题挖掘装置中的第一节点接收所述并行主题挖掘装置中的第二节点发送的第二单词‑主题子矩阵和第二余数子矩阵;其中,所述第二余数子矩阵包括余数矩阵中行累加值最大的行以及列累加值最大的列,所述第二单词‑主题子矩阵包括所述余数矩阵中行累加值最大的行的行号在单词‑主题矩阵中对应的行,以及所述余数矩阵中列累加值最大的列的列号在所述单词‑主题矩阵中对应的列;所述第一节点根据所述第二单词‑主题子矩阵更新第一单词‑主题子矩阵,根据所述第二余数子矩阵更新第一余数子矩阵,并将更新后的第一单词‑主题子矩阵和更新后的第一余数子矩阵发送至所述第二节点。

【技术特征摘要】

【专利技术属性】
技术研发人员:曾嘉倪冰陈嘉
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1