基于特征空间分解的文本大数据主题挖掘方法和装置制造方法及图纸

技术编号:8735146 阅读:223 留言:0更新日期:2013-05-26 11:44
本发明专利技术涉及一种基于特征空间分解的文本大数据主题挖掘方法和装置。该方法主要包含两个关联的部分:一是基于主题特征的空间分解方法;二是基于多子空间的模型求解并行加速方法。空间分解方法的关键在于利用模型特征对数据样本和主题集合进行解耦合,从而同时实现对数据空间和主题空间的切分和消解,得到了多个相对于全模型空间更小的子模型空间,有效降低了求解算法的存储空间复杂度;同时可以利用子空间之间的相对独立性,将其映射到各种并行实体上,从而有效降低了求解算法的计算时间复杂度。本发明专利技术方法能够充分利用计算设备的并行处理能力,实现对大型主题建模空间、大规模数据集合的并行可扩展处理。

【技术实现步骤摘要】

本专利技术属于计算机数据挖掘
,具体涉及一种基于主题分析模型的对文本大数据进行主题挖掘的高效数据处理方法和装置,用于在互联网网页、大型数字图书馆文献等典型的大数据上高效地进行主题分析与挖掘。
技术介绍
计算机数据挖掘技术主要是利用计算机从大量数据中挖掘人可理解的信息或知识并加以利用的智能信息处理过程。知识经济的兴起和互联网的蓬勃发展,产生了对计算机数据挖掘技术的迫切需求。知识的主要载体就是自然语言的文本,未经深度处理的文本仅仅是生的数据,必须经过语义化的分析才能使得计算机从中获取有用的知识。面向互联网、服务于知识经济的计算机数据挖掘技术关键是要实现文本生数据的主题语义表示。概率主题模型从功能上提供了一种高层次文本表示和数据挖掘的理想手段,但是这类模型的经典求解算法在存储空间和计算时间方面存在严重的瓶颈:I)模型存储空间:一般是一个“主题一特征”形式的矩阵,矩阵元素为特定主题的特定特征的强度,所以存储空间的大小需要|t|*|f|,其中|τ|为文档集合(例如一定范围的所有网页)中蕴含的主题的数量,|f|为文档特征(例如用词和符号)的数量;2)统计量存储空间:一般也是“主题一特征”形式的矩阵,矩阵元素为特定主题的特定特征的统计量取值,所需存储空间和模型存储空间成正比。由于以上特点,概率主题模型这种分析技术就被限制在小规模特征集和小规模主题集上,难以在互联网网页信息、大型数字图书馆等典型的大数据上高效地进行主题分析。因此,非常有必要研究具有高可扩展性的大规模数据处理方法。
技术实现思路
本专利技术的目的在于克服现有技术中的问题,提出一种基于特征空间分解的文本大数据主题挖掘方法和装置,通过对主题分析模型的求解空间进行分解,设计高效的并行计算方法,充分利用高性能硬件设施的计算能力,最终提高该模型处理文本大数据的时间效率和空间效率。为达到上述目的,本专利技术采用如下技术方案:一种基于特征空间分解的文本大数据主题挖掘方法,其步骤包括:I)将目标文本文档表示成特征向量的形式,形成可供进行主题分析的文档库;2)将主题分析模型的空间从特征方面进行分解,形成若干子空间;3)利用分解得到的子空间进行并行求解,包括:a)将每个子空间相关的模型参数载入对应的并行执行体;b)每个并行执行体从所述文档库中载入与自身包含的子模型相适应的数据子集;c)每个并行执行体计算出相应的子统计量;d)将所有并行执行体的子统计量聚合得到全局统计量,进而估计得到当前主题分析模型;e)返回步骤a)进行迭代,直到主题分析模型收敛;4)根据步骤3)所得的主题分析模型获得特征向量格式的目标文本文档的主题构成信息,实现文本数据的挖掘。进一步地,所述并行执行体是具有并行执行能力的硬件或软件机构,典型的如:GPU的硬件线程、多核众核的核心机器上的线程;单机、集群中的进程;网格、云重的节点等实体。进一步地,所述文本文档可以是网页(代表媒体传播)、电子化的文献(代表科学教育)、企业知识库中的电子文档(代表经济活动)等。 进一步地,所述特征向量为词向量(代表语言单元)、命名实体向量(人、机构、时空等)、字符串向量(数字、特定意义的符号串等)等。一种采用上述方法的基于特征空间分解的文本大数据主题挖掘装置,其包括:预处理单元,用于将目标文本文档表示成特征向量的形式,形成可供进行主题分析的文档库;特征空间分解单元,用于将主题分析模型的空间从特征方面进行分解,形成若干子空间;并行求解单元,包括若干并行执行体,用于利用分解得到的子空间进行并行求解;主题分析单元,用于根据并行求解单元得到的主题分析模型,获得特征向量格式的目标文本文档的主题构成信息,实现文本数据的挖掘。下面进一步说明本专利技术的原理。本专利技术的主题分析模型的空间分解和并行加速方法,主要包含两个关联的部分:一是基于主题特征的空间分解方法;二是基于多子空间的模型求解并行加速方法。空间分解方法的关键在于利用模型特征对数据样本和主题集合进行解耦合,从而同时实现对数据空间和主题空间的切分和消解,得到了多个相对于全模型空间更小的子模型空间,有效降低了求解算法的存储空间复杂度;同时可以利用子空间之间的相对独立性,将其映射到各种并行实体上,从而有效降低了求解算法的计算时间复杂度。一)空间分解的方法和原则1.空间分解的方法如图1所示:两对虚线箭头反映数据规模和主题规模的扩展往往不是独立出现的,二者相伴相生表现出显著的相互增强效应:数据规模的增加,其所讨论的主题也在相应增加;反之,如果应用需要进行更加细致的主题分析,自然就需要更大量的数据作为支撑。现有技术中的方法基本是集中在直接对数据集(即数据空间)进行分解上,其缺点是不能分解模型空间,求解遇到存储障碍;还可以考虑直接对主题集(即模型空间)分解,但主题数量限定了并行执行体的上限而且主题间发生的巨大通信量导致并行性能差。所以关键是要对数据集和主题集的这种耦合关系进行解耦。解耦一个关系通常的做法就是在这种两个关联对象(比如 数据集和主题集,分别记为D、T)之间再引入一个对象(记为m),从而隔断它们之间的直接关联。这种方法要求新生成的D-n^P m-T相对于先前的D-T是更容易处理的关系,关联的中介m就是特征。本专利技术采取的方法是对特征集进行分解:对模型的特征集V进行分解Pv= IV1, V2,…,VM},满足约束V= IV1 U V2 U…U VM}。进而,根据数据集D的数据同特征子集的匹配关系再形成对数据集的分解Pd= (D1, D2,…,DN...},满足约束D= (D1 U D2 U…U Dy.}且对于i古j (I j^N), Di Π 」=Φ,即分解得到的数据子集之间没有重叠。这里要求每个数据子集Di的特征集合都至少包含于某一个特征子集' 中。这样,第一,每个执行体求解时所需的空间相对于总空间下降很多,破除了求解的空间制约;第二,执行体之间是并行的,可以实现总体计算性能的提高。二)并行加速的方法如图2所示:并行是提高算法求解效率的根本性手段,而关键是要挖掘算法中蕴藏的可并行性。本专利技术提出的求解方法就是面向并行的,具有高效并行性。1.可并行的关键步骤I)子模型载入:将(每个)子空间相关的模型参数载入对应的并行执行体;2)数据子集载入:(每个)并行执行体载入与自身包含的子模型相适应的数据子集;3)数据子集处理:(每个)并行执行体计算出相应的子统计量;2.并行执行体的实现本专利技术中的并行执行体是抽象层面的术语,在具体实现中可以映射为任何具有并行执行能力的硬件或软件机构,典型的如=GPU的硬件线程、多核众核的核心机器上的线程;单机、集群中的进程;网格、云重的节点等实体。与现有技术相比,本专利技术的数据挖掘方法和装置能够充分利用计算设备的并行处理能力,包括单机上的多内核并行架构和多机上的机群大规模并行能力,进而实现对大规模文本集合的高速处理,最终提高该模型处理数据的时间效率和空间效率。附图说明图1为本专利技术的主题分析模型的空间分解(并行加速的基础)示意图;图2为本专利技术的主题分析模型的并行加速处理过程示意图。具体实施例方式本实施例的文本数据挖掘方法,其步骤包括:1.输入准备:O)获得一个原始的文本文档(如网页)资料库;I)将每篇文本文档表示成特征向量(通常是词向量)的形式,形成可供进行主题分析的文档库;本文档来自技高网...

【技术保护点】
一种基于特征空间分解的文本大数据主题挖掘方法,其步骤包括:1)将目标文本文档表示成特征向量的形式,形成可供进行主题分析的文档库;2)将主题分析模型的空间从特征方面进行分解,形成若干子空间;3)利用分解得到的子空间进行并行求解,包括:a)将每个子空间相关的模型参数载入对应的并行执行体;b)每个并行执行体从所述文档库中载入与自身包含的子模型相适应的数据子集;c)每个并行执行体计算出相应的子统计量;d)将所有并行执行体的子统计量聚合得到全局统计量,进而估计得到当前主题分析模型;e)返回步骤a)进行迭代,直到主题分析模型收敛;4)根据步骤3)所得的主题分析模型获得特征向量格式的目标文本文档的主题构成信息,实现文本数据的挖掘。

【技术特征摘要】

【专利技术属性】
技术研发人员:李文波孙乐
申请(专利权)人:中国科学院软件研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1