当前位置: 首页 > 专利查询>清华大学专利>正文

基于稀疏隐式特征表达的有监督在线话题模型学习方法技术

技术编号:8907199 阅读:180 留言:0更新日期:2013-07-11 04:52
本发明专利技术公开了一种基于稀疏隐式特征表达的有监督在线话题模型学习方法,涉及数据挖掘、机器学习领域。该方法包括:采用在线学习方法对训练集中的文档及文档中的每个单词分别进行基于稀疏表达的隐式特征提取,得到多组特征向量;根据训练集的特征向量和训练集中文档的类别信息训练分类器,得到分类器的特征向量,分类器特征向量的每个类别对应于训练集中文档的类别;对待识别的所有文档提取特征向量;待识别文档的特征向量与分类器每个类别的特征向量分别做内积,内积的最大值对应训练集的类别作为待识别文档的识别结果。该方法通过采用在线学习的方式大幅度提高了模型训练的速度,同时能够利用监督信息提高分类准确率。

【技术实现步骤摘要】

本专利技术涉及涉及数据挖掘、机器学习
,尤其涉及。
技术介绍
隐式话题模型在挖掘文档语义信息和处理复杂的文档结构方面都体现出了明显的优势,近年来利用隐式话题模型高效地挖掘大规模文档和流输入文档中的结构成为该领域的一个研究热点。目前已有的采用隐式话题模型挖掘文档语义结构的方法以概率模型为主。在诸多模型中,具有代表性的有隐式语义分析模型(Latent Semantic Analysis, LSA)、概率隐式语义索引模型(Probabilistic Latent Semantic Indexing, PLSI)和隐式狄利克雷模型(Latent Dirichlet Allocation, LDA)。利用隐式话题模型挖掘大规模文档中的语义结构需要解决的问题主要有:文档数量十分庞大;文档输入形式的多样化,如流输入文档;提高隐式话题模型中隐式特征学习的速度;提高隐式话题模型中隐式特征的表达能力和稀疏程度;利用监督信息提高隐式话题模型的准确性。近年来有很多针对利用话题模型处理大规模文档和流文档的工作,如2010年M.Hoffman 等人在“Online learning for latent Dirichlet allocation” 中将在线学习方法引入隐式狄利克雷模型中。该方法将大规模的文档分批输入来训练隐式狄利克雷模型,采用在线学习的方法学习字典,能够较好地处理大规模输入文档和流文档;2012年D.Mimno 等人在 “Sparse stochastic inference for latent Dirichlet allocation,,提出一种将Gibbs采样引入在线变分推断的方法来训练隐式狄利克雷模型,使得在线学习的效率进一步提高。但以上两种方法的问题在于由于它们都采用了概率模型,因此概率模型中的归一化限制使得它们不能在模型的层面上来有效控制隐式特征的稀疏性。另外,以上两种方法并没有指出如何处理文档中可能存在的监督信息。为了提高隐式话题模型中隐式特征的表达能力和稀疏程度,朱军等人在2011年提出稀疏话题编码模型。该模型创新性地将稀疏编码引入话题模型,采用非概率建模的方式将话题模型中隐式特征表达的归一化限制去除,并引入稀疏限制项来控制隐式特征表达的稀疏程度。实验证明该模型的训练速度快于基于概率推理的隐式狄利克雷模型,并能更好地控制隐式特征表达的稀疏程度,同时,该模型也可以利用监督信息提高分类准确性。然而由于采用批量学习的方法,该模型不能用于处理大规模的文档集合,并且无法处理流输入的文档。上述领域的最新成果为提供了坚实的基础。然而这些技术尚不能有效地处理大规模文档和流文档输入,并同时有效控制话题模型中隐式特征的稀疏性
技术实现思路
(—)要解决的技术问题本专利技术要解决的技术问题是:如何提供一种,以提高话题模型对大规模文档数据集的训练速度并能处理流输入文档,同时话题模型能有效控制文档中词语隐式特征的稀疏性,并能够利用监督信息提高准确率。(二)技术方案为解决上述技术问题,本专利技术提供了一种,该方法包括以下步骤:S1、采用在线学习的方法对训练集中的文档和文档中的每个单词分别进行基于稀疏表达的隐式特征提取,得到多组特征向量,特征向量的每个类别对应训练集中每个类别的所有文档以及文档的所有单词;所述步骤SI中的在线学习及特征提取的步骤包括:S11、按照训练集中文档编号从前向后的顺序选取训练集的一个固定大小的子集,对这个子集最小化对应的损失函数,该子集损失函数与子集所含文档中每个词语的隐式特征相关;所述步骤Sll中选取训练集的一个固定大小的子集的步骤包括:在每轮迭代中顺序选取大小为M的子集,一般地,在第i轮迭代中选取的子集为编号在中的文档,其中D为训练集中的文档数量,M的取值范围为中的整数;S12、对步骤Sll中的子集的损失函数循环优化文档中每个词语的隐式特征,直至该子集的损失函数值收敛,最后更新文档隐式特征。S2、根据步骤SI所得特征向量和训练集中文档的类别更新字典;所述步骤S2中更新字典的步骤包括:S21、求得本次迭代中输入文档的损失函数之和关于字典向量的梯度;S22、根据步骤S21中求得的梯度对字典向量做单步随机梯度下降,然后将字典向量投影至LI超球上。S3、根据步骤SI所得特征向量训练分类器,得到分类器的特征向量,分类器特征向量的每个类别对应于训练集中文档的类别;所述步骤S3中的训练多分类器的步骤包括:采用梯度下降的方法优化多分类器的损失函数,损失函数为分类器对于本次迭代输入的文档的损失函数之和。S4、将步骤S1、S2和S3进行一次称为一轮迭代,若迭代轮数等于给定常数则停止迭代,进入步骤S5,否则返回步骤SI,迭代轮数加1,其中迭代轮数初始值为O ;S5、对待识别的所有文档进行特征提取,得到待识别文档的特征向量;S6、对待识别文档的特征向量与步骤S3所得分类器所有类别的特征向量分别做内积;S7、将步骤S6所得内积最大值对应训练集的类别作为待识别文档的识别结果。(三)有益效果本专利技术通过非概率建模的方式,松弛了概率模型中的归一化限制,进而引入稀疏限制项以有效控制词语隐式特征表达的稀疏程度;同时本专利技术采用了在线学习的方法,提高了文档分类的准确率和模型训练速度。另外,本专利技术还能有效利用监督信息进一步提升分类准确率。附图说明图1是本专利技术提出的的流程图;图2是依照本专利技术提出的进行实施的流程图。具体实施例方式下面结合附图和实施例,对本专利技术的具体实施方式作进一步详细描述。以下实施例用于说明本专利技术,但不用来限制本专利技术的范围。本专利技术提出的基于稀疏隐式特征表达的在线话题模型学习方法结合实施例详细说明如下。如图2所示,本实施例包 括以下步骤:步骤1、训练集中一共包含D个文档,采用在线学习的方法,从训练集的D个文档中选取M个文档,对这些文档和文档中的每个单词分别进行基于稀疏表达的隐式特征提取,得到MXK的特征矩阵T,其中T的每一行代表一个文档的特征向量,此处K为隐式特征的维数,将矩阵T中的一行或多行作为训练集的一个类别,代表训练集中的类别。步骤2、根据步骤I中求得的特征向量和训练集中文档的类别信息更新字典β。步骤3、根据步骤I中求得的特征向量训练多分类的支持向量机,得到支持向量机的特征向量W,其中W的每一行代表支持向量机每个类别的特征向量,对应于训练集中文档的相应类别。步骤4、将步骤1、步骤2、步骤3进行一次称为一轮迭代,设迭代轮数初始值为0,判断迭代次数是否达到pOxD/M」,若是则停止迭代,进入步骤5,否则返回步骤I,迭代次数加I。步骤5、对测试集中待识别的文档进行特征提取,得到待识别文档的特征向量y ;步骤6、将步骤5所得特征向量y与步骤3所得多分类的支持向量机某个类别i的特征向量分别做内积,值为Pi=Wi.y,其中Wi为W中的第i行,内积Wi.y定义为Wj-y= Wjl Xy\ +^, X V, +...+ WiK X vA-( I )其中WijU=I, 2,…,K)为向量Wi的第j个分量,y」(j=l,2,".,Κ)为y的第j个分量。步骤7、按照步骤6求出每一类对应的内积,并将内积最大值P对应训练集的类别i作为待识别文档的识别结果,P定义为:/) = ITiax/;( 2i定义为:i = argmax 厂,(3)所述步骤本文档来自技高网
...

【技术保护点】
一种基于稀疏隐式特征表达的有监督在线话题模型学习方法,其特征在于,包括以下步骤:S1、采用在线学习的方法对训练集中的文档和文档中的每个单词分别进行基于稀疏表达的隐式特征提取,得到多组特征向量,特征向量的每个类别对应训练集中每个类别的所有文档以及文档的所有单词;S2、根据S1所得特征向量和训练集中文档的类别更新字典;S3、根据S1所得特征向量训练分类器,得到分类器的特征向量,分类器特征向量的每个类别对应于训练集中文档的类别;S4、将步骤S1、S2和S3进行一次称为一轮迭代,若迭代轮数等于给定常数则停止迭代,进入步骤S5,否则返回步骤S1,迭代轮数加1,其中迭代轮数初始值为0;S5、对待识别的所有文档进行特征提取,得到待识别文档的特征向量;S6、对待识别文档的特征向量与步骤S3所得分类器所有类别的特征向量分别做内积;S7、将步骤S6所得内积最大值对应训练集的类别作为待识别文档的识别结果。

【技术特征摘要】

【专利技术属性】
技术研发人员:朱军张傲南张钹
申请(专利权)人:清华大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1