基于稀疏隐式特征表达的有监督在线话题模型学习方法技术

技术编号：8907199 阅读：180 留言：0更新日期：2013-07-11 04:52

本发明专利技术公开了一种基于稀疏隐式特征表达的有监督在线话题模型学习方法，涉及数据挖掘、机器学习领域。该方法包括：采用在线学习方法对训练集中的文档及文档中的每个单词分别进行基于稀疏表达的隐式特征提取，得到多组特征向量；根据训练集的特征向量和训练集中文档的类别信息训练分类器，得到分类器的特征向量，分类器特征向量的每个类别对应于训练集中文档的类别；对待识别的所有文档提取特征向量；待识别文档的特征向量与分类器每个类别的特征向量分别做内积，内积的最大值对应训练集的类别作为待识别文档的识别结果。该方法通过采用在线学习的方式大幅度提高了模型训练的速度，同时能够利用监督信息提高分类准确率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及涉及数据挖掘、机器学习
，尤其涉及。
技术介绍
隐式话题模型在挖掘文档语义信息和处理复杂的文档结构方面都体现出了明显的优势，近年来利用隐式话题模型高效地挖掘大规模文档和流输入文档中的结构成为该领域的一个研究热点。目前已有的采用隐式话题模型挖掘文档语义结构的方法以概率模型为主。在诸多模型中，具有代表性的有隐式语义分析模型(Latent Semantic Analysis, LSA)、概率隐式语义索引模型(Probabilistic Latent Semantic Indexing, PLSI)和隐式狄利克雷模型(Latent Dirichlet Allocation, LDA)。利用隐式话题模型挖掘大规模文档中的语义结构需要解决的问题主要有:文档数量十分庞大；文档输入形式的多样化，如流输入文档；提高隐式话题模型中隐式特征学习的速度；提高隐式话题模型中隐式特征的表达能力和稀疏程度；利用监督信息提高隐式话题模型的准确性。近年来有很多针对利用话题模型处理大规模文档和流文档的工作，如2010年M.Hoffman 等人在“Online learning for latent Dirichlet allocation” 中将在线学习方法引入隐式狄利克雷模型中。该方法将大规模的文档分批输入来训练隐式狄利克雷模型，采用在线学习的方法学习字典，能够较好地处理大规模输入文档和流文档；2012年D.Mimno 等人在 “Sparse stochastic inference for latent Dirichlet allocation，，提出一种将Gibb...

【技术保护点】
一种基于稀疏隐式特征表达的有监督在线话题模型学习方法，其特征在于，包括以下步骤：S1、采用在线学习的方法对训练集中的文档和文档中的每个单词分别进行基于稀疏表达的隐式特征提取，得到多组特征向量，特征向量的每个类别对应训练集中每个类别的所有文档以及文档的所有单词；S2、根据S1所得特征向量和训练集中文档的类别更新字典；S3、根据S1所得特征向量训练分类器，得到分类器的特征向量，分类器特征向量的每个类别对应于训练集中文档的类别；S4、将步骤S1、S2和S3进行一次称为一轮迭代，若迭代轮数等于给定常数则停止迭代，进入步骤S5，否则返回步骤S1，迭代轮数加1，其中迭代轮数初始值为0；S5、对待识别的所有文档进行特征提取，得到待识别文档的特征向量；S6、对待识别文档的特征向量与步骤S3所得分类器所有类别的特征向量分别做内积；S7、将步骤S6所得内积最大值对应训练集的类别作为待识别文档的识别结果。

【技术特征摘要】

【专利技术属性】
技术研发人员：朱军，张傲南，张钹，
申请(专利权)人：清华大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人