The invention discloses a semi supervised LDA model based on seed words. In the basic LDA model, the invention adds the artificial classification knowledge of words to the subject, adjusts the probability distribution of words extracted from the subject according to the prior knowledge, and constructs a semi supervised text subject extraction model; by using the prior knowledge, the words with known subject do not participate in the LDA model process It can not only reduce the calculation of probability distribution, but also improve the accuracy of clustering.
【技术实现步骤摘要】
一种基于种子词的半监督LDA模型
本专利技术涉及一种互联网通信
,特别涉及一种基于种子词的半监督LDA模型。
技术介绍
文本分类的难点在于,如何将非数字的文本转化为易于量化的数量和向量。LDA模型与其他的文本分类算法相比,有以下的优点:一,LDA模型是一种主题模型,可以将文档集中每篇文档的主题按照概率给出;二,LDA模型是一种无监督学习算法,在训练是不需要手工标注的训练集,需要的仅仅是文档集合,以及指定主题的数量k;三,对于LDA生成的每个主题,都可以用一系列的词语来描述这个主题,使主题具有语义上的意义。然而,LDA的也有一些未解决的问题:一,基于词袋法,对于词语在文档中的先后次序数据被忽略了,可能产生影响;二,无监督算法的通病,聚类效果不好,主题粒度大,并且没能利用到一部分已标记的数据,造成浪费。
技术实现思路
通过引入部分已被标注主题的词来加强算法的聚类效果。常见关键词在多篇文档中的重复出现可能性比较大,相比于为每篇文档进行人工标注,对常见关键词进行人工标注的工作量要大大减少。将这些被人工标注了的常见关键词的集合称为先验知识。在构建主题向量的过程中,当文档中出现先验知识中的词时,在使用Gibbs采样前,对其概率进行权重调整,从而使得这些词必然从属于它的人工标注的主题。如此,特定的词被主动的归入特定的主题,从而与这些词类似的词,也有更大概率属于同一个主题。本专利技术本专利技术技术方案带来的有益效果:本专利技术加入先验知识,提升聚类准确度;实质上减少了需要Gibbs采样的词的 ...
【技术保护点】
1.一种基于种子词的半监督LDA模型,该专利技术在基础的LDA模型上,加入词到主题的人工分类知识,根据这些先验知识调整从主题抽取词时的概率分布,从而构造了一个半监督的文本主题提取模型;利用先验知识,使已知所属主题的词不在参与到LDA模型过程的分布,不仅降低反推计算概率分布的计算量,还能有利于提升聚类准确度。/n
【技术特征摘要】
1.一种基于种子词的半监督LDA模型,该发明在基础的LDA模型上,加入词到主题的人工分类知识,根据这些先验知识调整从主题抽取词时的概率分布,从而构造了一个半监督的文本主题提取模型;利用先验知识,使已知所属主题的词不在参与到LDA模型过程的分布,不仅降低反推计算概率分布的计算量,还能有利于提升聚类准确度。
2.根据权利要求1所述的一种基于种子词的半监督LDA模型,其特征在于,使用先...
【专利技术属性】
技术研发人员:杨育斌,黄冠寰,柯宗贵,
申请(专利权)人:蓝盾信息安全技术有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。