当前位置: 首页 > 专利查询>苏州大学专利>正文

基于细划分MapReduce的文本语义提取方法技术

技术编号:10668773 阅读:208 留言:0更新日期:2014-11-20 13:57
本发明专利技术涉及一种基于细划分MapReduce的文本语义提取方法。所述方法包括:将待处理文本集按照文档维度和单词表维度进行双重划分,每个划分是部分文本的部分内容;申请一定数量的Mapper,使用LDA主题模型SparseLDA算法分别训练文本集的每个划分,得到局部参数,并对不同的参数给予不同的标记,记录其所对应的Reducer;申请一定数量的Reducer,不同种类的Reducer融合不同标记的局部参数,得到全局参数,输出到文件;重复此Mapper和Reducer过程直到达到收敛条件,得到最终训练模型,用于新文本的语义解释与表达。

【技术实现步骤摘要】
【专利摘要】本专利技术涉及一种。所述方法包括:将待处理文本集按照文档维度和单词表维度进行双重划分,每个划分是部分文本的部分内容;申请一定数量的Mapper,使用LDA主题模型SparseLDA算法分别训练文本集的每个划分,得到局部参数,并对不同的参数给予不同的标记,记录其所对应的Reducer;申请一定数量的Reducer,不同种类的Reducer融合不同标记的局部参数,得到全局参数,输出到文件;重复此Mapper和Reducer过程直到达到收敛条件,得到最终训练模型,用于新文本的语义解释与表达。【专利说明】
本专利技术涉及机器学习领域,尤其涉及一种基于细划分MapReduce的文本语义提取 方法。
技术介绍
文本的语义理解是目前比较热门的研究课题,互联网中数字化信息曾指数型增 长,其中包括了网页,社交网络新闻、书籍、图片、音频、视频、微博和科学论文等,以文档形 式呈现的信息增速尤为迅猛。如何有效地组织、管理和摘要这些文本信息以及挖掘其中隐 含的知识是当前计算机科学面临的一大挑战。此外,与搜索相关的网络应用都需要高效地 语义理解模块,获得用户的主要意图,从而更好地为用户服务。例如百度的搜索引擎需要匹 配与用户查询最为相关的文本,淘宝搜索需要反馈给用户最为符合的产品。 主题模型(Topic Models)是一种无监督学习算法,不需要人工标注,节省人力资 源。目前较为成熟的主题模型是潜在狄利克雷分配(Latent Dirichlet Allocation,LDA) 算法,该算法假设一篇文档是多主题的概率分布,而一个主题是单词表上的概率分布。LDA 算法从数据集中学习出主题模型来预测新文档的主题分布。随着文档的增多,文档所包含 的主题也在增长,同时单词表的大小也在不断增长。为了更好地解释其中蕴含的主题,我们 需要稳定的,实用的,可以处理大数据高维度的处理方法。 并行是一种处理大数据高维度的直接方法,现有的并行LDA算法缺乏稳定性与可 扩展性,无法利用更多的处理器得到更高的加速比。我们选择MapReduce作为并行的基础, 分析其可扩展瓶颈,提出改进方法,增强算法的可扩展性与实用性。 有鉴于上述的缺陷,本设计人,积极加以研究创新,以期创设一种高效率语义压缩 的并行文本大数据存储方法,使其更具有产业上的利用价值。
技术实现思路
为解决上述技术问题,本专利技术的目的是提供一种扩展性强,可理解大数据、高纬度 的文本集的。 本专利技术,所述方法包括: 将待处理文本集以文档维度和单词维度两个维度分别进行划分; 将划分后的文档和单词分别经过MapReduce的多次处理直至达到收敛条件,得到 训练模型; 基于所述训练模型对文本进行语义解释与表达。 具体地,所述方法具体包括: 将待处理文本集以文档维度和单词维度两个维度分别进行划分; 对划分后的文档和单词分别进行Map阶段处理,基于预定的L D A主题模型进行 数据训练,得到若干局部参数,对不同的局部参数给予不同的标记; 记录不同标记的局部参数对应的Reduce,对所述局部参数进行Reduce处理得到 全局参数; 重复上述过程直至到达收敛条件,得到训练模型; 基于所述训练模型对文本进行语义解释与表达。 进一步地,所述的局部参数包括文档-主题分布ΘΒΧΚ,主题-单词分布φ κχ",主 题总分布Φκ,以及文本集的对数似然值log-likelihood四种参数; 所述的四种参数对应的 Reducer 分别是 Doc-Reducer,Wordstats-Reducer, Globalstats-Reducer,Likelihood-Reducer。 进一步地,每一种的Reducer都是对来源数据的对应汇总求和,并按预定的格式 输出到文件。 进一步地,不同的局部参数对应的Reducer各不相同。 借由上述方案,本专利技术至少具有以下优点: 本专利技术所述的,在实现过程中,内存 可以达到现有算法的1/M,Μ可以由用户设定,低内存消耗即表示了本方法可以做更大规模 的主题模型,无论是文本上的大规模还是主题上的大规模。在速度上,由于现有的基于细划 分MapReduce的LDA模型都是基于变分贝叶斯,而本专利技术使用SparseLDA,一种快速高精度 的LDA近似推理算法,所以在速度上有明显的加速,且精度没有下降。 【专利附图】【附图说明】 图1是本专利技术的原理图; 图2是本专利技术的2*3的文本具体划分 原理图; 图3是本专利技术的实验对比结果图; 图4是本专利技术的实验对比结果图; 图5是本专利技术的可扩展性验证图。 【具体实施方式】 下面结合附图和实施例,对本专利技术的【具体实施方式】作进一步详细描述。以下实施 例用于说明本专利技术,但不用来限制本专利技术的范围。 (l)LDA 模型: LDA模型是一种三层的贝叶斯模型。模型输入数据集大小记为D*W,其中D为文档 总数,W为单词表大小。LDA模型将D*W矩阵转变为D*K矩阵和K*W矩阵,分别记为θ M文 档主题分布和c主题单词分布。其中主题数K可以设置。推导LDA过程的算法有几种,最 实用,常用的算法即吉布斯采样(Gibbs Sampling,GS),本专利技术使用SparseLDA,一种速度优 化的GS算法,GS的主要思想是对每篇文档d的每个单词w计算一个K大小的分布,然后从 中选择一个主题k赋予对应的Θ Μ和。 SparseLDA将原始GS用于推导LDA模型的概率公式(1)变成了公式(2),从而减 少了一些重复的计算步骤,加快了模型的训练速度。 【权利要求】1. 一种,其特征在于:所述方法包括: 将待处理文本集以文档维度和单词维度两个维度分别进行划分; 将划分后的文档和单词分别经过MapReduce的多次处理直至达到收敛条件,得到训练 模型; 基于所述训练模型对文本进行语义解释与表达。2. 根据权利要求1所述的,其特征在于: 所述方法具体包括: 将待处理文本集以文档维度和单词维度两个维度分别进行划分; 对划分后的文档和单词分别进行Map阶段处理,基于预定的L D A主题模型进行数据 训练,得到若干局部参数,对不同的局部参数给予不同的标记; 记录不同标记的局部参数对应的Reduce,对所述局部参数进行Reduce处理得到全局 参数; 重复上述过程直至到达收敛条件,得到训练模型; 基于所述训练模型对文本进行语义解释与表达。3. 根据权利要求1所述的,其特征在于: 所述的局部参数包括文档-主题分布ΘΒΧΚ,主题-单词分布φκχ",主题总分布φκ,以 及文本集的对数似然值log-likelihood四种参数; 所述的四种参数对应的Reducer分别是Doc-Reducer,Wordstats-Reducer, Globalstats-Reducer,Likelihood-Reducer。4. 根据权利要求1所述的,其特征在于: 每一种的Reducer都是对来源数据的对应汇总求和,并按预定的格式输出到文件。5. 根据权利要求1所述的,其特征在于: 不同的局部参数对应的Reducer各不相同。【文档编号】G06F1本文档来自技高网
...
<a href="http://www.xjishu.com/zhuanli/55/201410379847.html" title="基于细划分MapReduce的文本语义提取方法原文来自X技术">基于细划分MapReduce的文本语义提取方法</a>

【技术保护点】
一种基于细划分MapReduce的文本语义提取方法,其特征在于:所述方法包括:将待处理文本集以文档维度和单词维度两个维度分别进行划分;将划分后的文档和单词分别经过MapReduce的多次处理直至达到收敛条件,得到训练模型;基于所述训练模型对文本进行语义解释与表达。

【技术特征摘要】

【专利技术属性】
技术研发人员:曾嘉高阳严建峰刘晓升杨璐刘志强
申请(专利权)人:苏州大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1