当前位置: 首页 > 专利查询>中山大学专利>正文

一种基于Spark框架的文本聚类模型PW-LDA的并行化方法技术

技术编号:20745384 阅读:35 留言:0更新日期:2019-04-03 10:25
本发明专利技术涉及文本主题聚类领域,更具体地,涉及一种基于Spark框架的文本聚类模型PW‑LDA的并行化方法。本发明专利技术主要包括数据载入、对文本数据预处理、词向量训练、Partition提取目标段、LDA训练、计算主题向量以及文本聚类等步骤。本发明专利技术使用Spark框架,通过MapReduce以及GraphX技术对模型中各模块进行了并行化的设计与实现,大幅加速了程序运行,从而为其提供实时运行的可行性。

【技术实现步骤摘要】
一种基于Spark框架的文本聚类模型PW-LDA的并行化方法
本专利技术涉及文本主题聚类领域,更具体地,涉及一种基于Spark框架的文本聚类模型PW-LDA的并行化方法。
技术介绍
PW-LDA模型是一种新的文本聚类模型,它是主题模型LDA(LatentDirichletAllocation)与词嵌入模型Word2Vec的结合。主题模型是一种概率模型,与传统的向量空间模型相比较,不再单纯地在词频空间对文档进行分析,而是引入了主题空间,实现了将文档的分析从词频空间降维至到主题空间。词嵌入模型也是一种概率模型,它通过计算词语的向量来使向量对应的词语序列概率符合实际文本。PW-LDA中还提出了partition算法,根据词嵌入模型的向量结果,分析出文本中的不同部分,并只对用户需要的部分进行聚类分析。PW-LDA模型作为一个聚类模型在短文本聚类上表现出了良好的效果,但是其中的LDA模型与Word2Vec模型作为一种机器学习算法极为耗时,尤其是在使用大数据的情况下,模型中如文本预处理等模块的运行时间也会急剧增加。市面上许多应用针对这一问题也进行了并行优化,并行技术大多基于Hadoop框架。Ha本文档来自技高网...

【技术保护点】
1.一种基于Spark框架的文本聚类模型PW‑LDA的并行化方法,其特征在于,包括以下步骤:S1:载入科技文献的语料库数据并初始化为Spark的分布式数据类型对象;S2:对导入的语料库中文本通过Map方法进行分词、去停用词预处理得到训练样本;S3:对训练样本使用Spark的Word2Vec接口进行词向量训练;S4:根据Word2Vec的结果使用Partition算法从训练样本的文本中提取目标段并通过Map方法实现算法的并行;S5:对Partition算法提取出的目标段使用Spark的基于GraphX实现的LDA接口训练得到主题‑词语矩阵;S6:根据LDA模型得到的主题‑词语矩阵以及Word2V...

【技术特征摘要】
1.一种基于Spark框架的文本聚类模型PW-LDA的并行化方法,其特征在于,包括以下步骤:S1:载入科技文献的语料库数据并初始化为Spark的分布式数据类型对象;S2:对导入的语料库中文本通过Map方法进行分词、去停用词预处理得到训练样本;S3:对训练样本使用Spark的Word2Vec接口进行词向量训练;S4:根据Word2Vec的结果使用Partition算法从训练样本的文本中提取目标段并通过Map方法实现算法的并行;S5:对Partition算法提取出的目标段使用Spark的基于GraphX实现的LDA接口训练得到主题-词语矩阵;S6:根据LDA模型得到的主题-词语矩阵以及Word2Vec得到的词向...

【专利技术属性】
技术研发人员:陆遥夏中舟吴峻峰张勇瑞
申请(专利权)人:中山大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1