一种基于半监督的主题模型文本分类方法技术

技术编号:14928291 阅读:83 留言:0更新日期:2017-03-30 20:03
本发明专利技术涉及一种半监督的主题模型的文本分类方法。本发明专利技术的方法为:根据领域本体对关键词的描述,定义关键词对领域本体的贡献度,提出基于噪声和有效信息的词的二分类方法。对于每篇文档初始化其为噪声,然后迭代计算各词属于有效信息的概率,防止有效信息被噪声淹没。迭代结束后获取到描述文本分类的有效信息集合。应用有效信息集合可计算文本属于有效文本的得分,即可完成文本分类的功能。应用该方法可对领域本体相关的文本集合进行有效的类别划分,较为准确的提取出符合约束条件的文本集合。

【技术实现步骤摘要】

本专利技术涉及文本分类领域,尤其涉及一种基于半监督的主题模型的文本分类方法。
技术介绍
文本挖掘是从大量文本数据中获取有效模式的过程,涵盖信息技术、文本分析、模式识别等诸多领域。文本分类属于文本挖掘领域,是指按照预先设定的主题类别,为文档集合中的每个文档确定一个类别的过程。对于中文文本而言,词与词之间没有明显的切分标志,因此需要对中文文本进行分词。在分词过程中,针对文本集合的属性特征需设置匹配词的专业词表。完成分词后的文本需要进行停用词删除、建立文本特征矩阵的步骤,将文本数据转化为计算机可计算的数值矩阵类型。近年来,众多的统计方法和机器学习方法应用于自动文本分类,包括支持向量机、Boosting算法、概率模型等。文本分类的关键是衡量各文本与所需模式间的相似性,概率潜在语义分析是针对文本隐含主题的建模方法。主题表现为一系列与主题概念密切相关的词,能够代表这个主题。应用词汇表上词语的条件概率分布,与主题密切相关的词,条件概率越大。一般概率潜在语义分析方法通过计算各词属于主题的条件概率完成文本分类功能。
技术实现思路
本专利技术的目的是提供一种基于半监督的主题模型的文本分类方法,实现基于领域本体的大规模文本数据中有效信息的自动获取。为解决上述技术问题,本专利技术的主要
技术实现思路
如下:一种基于领域本体的潜在语义扩展算法。传统的文本分类算法利用文本中的关键词描述文本与类别间距离。而关键词存在信息量少,难以全面表征类别信息的缺点。由于表征一篇文档是否相关的词并不全等于关键词集,因此也需要提取出关键词集中不包含的约束。领域本体作为知识描述方法较好的体现了领域内知识的不同维度。本方法的特征在于,首先定义描述分类文本的关键词词组,该词组来源于领域本体的不同属性类,利用关键词词组将待分类文本中的词全部初始化为噪声。基于公式p(x)=nkt[x][k]nktSum[k]*Σnmk[m][k]*con[x]nmkSum[m]*log(C+0.1)]]>式中,k的取值范围为{0,1本文档来自技高网...

【技术保护点】
一种基于领域本体的潜在语义扩展算法,其特征在于:首先定义描述分类文本的关键词词组,该词组来源于领域本体的不同属性类,待分类文本中的词全部初始化为噪声。基于公式(1)迭代计算各词属于有效信息的概率。p(x)=nkt[x][k]nktSum[k]*Σnmk[m][k]*con[x]nmkSum[m]*log(C+0.1)---(1)]]>式中,k的取值范围为{0,1},即代表噪声或有效信息,m为文档集内文档数目,x为词条的编号,用于区分不同的词。p(x)表示该词属于有效信息的概率,nkt代表关键词x分配为有效信息的次数,nktSum代表有效信息的总词数,nmk代表文档m中属于有效信息的词的个数,nmkSum代表文档m的总词数,con代表关键词x对所属分类别的贡献度。参数C表示文档m中,描述领域本体不同属性维度的词的类数。

【技术特征摘要】
1.一种基于领域本体的潜在语义扩展算法,其特征在于:首先定义描述
分类文本的关键词词组,该词组来源于领域本体的不同属性类,待分类文本中
的词全部初始化为噪声。基于公式(1)迭代计算各词属于有效信息的概率。
p(x)=nkt[x]&ls...

【专利技术属性】
技术研发人员:杨璐王炳蔚郑丽敏黄斌
申请(专利权)人:中国农业大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1