基于特征空间分解的文本大数据主题挖掘方法和装置制造方法及图纸

技术编号：8735146 阅读：223 留言：0更新日期：2013-05-26 11:44

本发明专利技术涉及一种基于特征空间分解的文本大数据主题挖掘方法和装置。该方法主要包含两个关联的部分：一是基于主题特征的空间分解方法；二是基于多子空间的模型求解并行加速方法。空间分解方法的关键在于利用模型特征对数据样本和主题集合进行解耦合，从而同时实现对数据空间和主题空间的切分和消解，得到了多个相对于全模型空间更小的子模型空间，有效降低了求解算法的存储空间复杂度；同时可以利用子空间之间的相对独立性，将其映射到各种并行实体上，从而有效降低了求解算法的计算时间复杂度。本发明专利技术方法能够充分利用计算设备的并行处理能力，实现对大型主题建模空间、大规模数据集合的并行可扩展处理。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于计算机数据挖掘
，具体涉及一种基于主题分析模型的对文本大数据进行主题挖掘的高效数据处理方法和装置，用于在互联网网页、大型数字图书馆文献等典型的大数据上高效地进行主题分析与挖掘。
技术介绍
计算机数据挖掘技术主要是利用计算机从大量数据中挖掘人可理解的信息或知识并加以利用的智能信息处理过程。知识经济的兴起和互联网的蓬勃发展，产生了对计算机数据挖掘技术的迫切需求。知识的主要载体就是自然语言的文本，未经深度处理的文本仅仅是生的数据，必须经过语义化的分析才能使得计算机从中获取有用的知识。面向互联网、服务于知识经济的计算机数据挖掘技术关键是要实现文本生数据的主题语义表示。概率主题模型从功能上提供了一种高层次文本表示和数据挖掘的理想手段，但是这类模型的经典求解算法在存储空间和计算时间方面存在严重的瓶颈:I)模型存储空间:一般是一个“主题一特征”形式的矩阵，矩阵元素为特定主题的特定特征的强度，所以存储空间的大小需要|t|*|f|，其中|τ|为文档集合(例如一定范围的所有网页)中蕴含的主题的数量，|f|为文档特征(例如用词和符号)的数量；2)统计量存储空间:一般也是“主题一特征”形式的矩阵，矩阵元素为特定主题的特定特征的统计量取值，所需存储空间和模型存储空间成正比。由于以上特点，概率主题模型这种分析技术就被限制在小规模特征集和小规模主题集上，难以在互联网网页信息、大型数字图书馆等典型的大数据上高效地进行主题分析。因此，非常有必要研究具有高可扩展性的大规模数据处理方法。
技术实现思路
本专利技术的目的在于克服现有技术中的问题，提出一种基于特征空间分解的文本大...

【技术保护点】
一种基于特征空间分解的文本大数据主题挖掘方法，其步骤包括：1）将目标文本文档表示成特征向量的形式，形成可供进行主题分析的文档库；2）将主题分析模型的空间从特征方面进行分解，形成若干子空间；3）利用分解得到的子空间进行并行求解，包括：a)将每个子空间相关的模型参数载入对应的并行执行体；b)每个并行执行体从所述文档库中载入与自身包含的子模型相适应的数据子集；c)每个并行执行体计算出相应的子统计量；d)将所有并行执行体的子统计量聚合得到全局统计量，进而估计得到当前主题分析模型；e)返回步骤a）进行迭代，直到主题分析模型收敛；4）根据步骤3）所得的主题分析模型获得特征向量格式的目标文本文档的主题构成信息，实现文本数据的挖掘。

【技术特征摘要】

【专利技术属性】
技术研发人员：李文波，孙乐，
申请(专利权)人：中国科学院软件研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人