基于细划分MapReduce的文本语义提取方法技术

技术编号：10668773 阅读：208 留言：0更新日期：2014-11-20 13:57

本发明专利技术涉及一种基于细划分MapReduce的文本语义提取方法。所述方法包括：将待处理文本集按照文档维度和单词表维度进行双重划分，每个划分是部分文本的部分内容；申请一定数量的Mapper，使用LDA主题模型SparseLDA算法分别训练文本集的每个划分，得到局部参数，并对不同的参数给予不同的标记，记录其所对应的Reducer；申请一定数量的Reducer，不同种类的Reducer融合不同标记的局部参数，得到全局参数，输出到文件；重复此Mapper和Reducer过程直到达到收敛条件，得到最终训练模型，用于新文本的语义解释与表达。

全部详细技术资料下载

【技术实现步骤摘要】
【专利摘要】本专利技术涉及一种。所述方法包括：将待处理文本集按照文档维度和单词表维度进行双重划分，每个划分是部分文本的部分内容；申请一定数量的Mapper，使用LDA主题模型SparseLDA算法分别训练文本集的每个划分，得到局部参数，并对不同的参数给予不同的标记，记录其所对应的Reducer；申请一定数量的Reducer，不同种类的Reducer融合不同标记的局部参数，得到全局参数，输出到文件；重复此Mapper和Reducer过程直到达到收敛条件，得到最终训练模型，用于新文本的语义解释与表达。【专利说明】
本专利技术涉及机器学习领域，尤其涉及一种基于细划分MapReduce的文本语义提取方法。
技术介绍
文本的语义理解是目前比较热门的研究课题，互联网中数字化信息曾指数型增长，其中包括了网页，社交网络新闻、书籍、图片、音频、视频、微博和科学论文等，以文档形式呈现的信息增速尤为迅猛。如何有效地组织、管理和摘要这些文本信息以及挖掘其中隐含的知识是当前计算机科学面临的一大挑战。此外，与搜索相关的网络应用都需要高效地语义理解模块，获得用户的主要意图，从而更好地为用户服务。例如百度的搜索引擎需要匹配与用户查询最为相关的文本，淘宝搜索需要反馈给用户最为符合的产品。主题模型（Topic Models)是一种无监督学习算法，不需要人工标注，节省人力资源。目前较为成熟的主题模型是潜在狄利克雷分配（Latent Dirichlet Allocation,LDA) 算法，该算法假设一篇文档是多主题的概率分布，而一个主题是单词表上...
<a href="http://www.xjishu.com/zhuanli/55/201410379847.html" title="基于细划分MapReduce的文本语义提取方法原文来自X技术">基于细划分MapReduce的文本语义提取方法</a>

【技术保护点】
一种基于细划分MapReduce的文本语义提取方法，其特征在于：所述方法包括：将待处理文本集以文档维度和单词维度两个维度分别进行划分；将划分后的文档和单词分别经过MapReduce的多次处理直至达到收敛条件，得到训练模型；基于所述训练模型对文本进行语义解释与表达。

【技术特征摘要】

【专利技术属性】
技术研发人员：曾嘉，高阳，严建峰，刘晓升，杨璐，刘志强，
申请(专利权)人：苏州大学，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人