当前位置: 首页 > 专利查询>清华大学专利>正文

一种多标签文本分类方法及系统技术方案

技术编号:12653677 阅读:40 留言:0更新日期:2016-01-06 11:37
本发明专利技术公开了一种多标签文本分类方法及系统,包括:针对待分类文档确定待考核标签子集;对待分类文档进行分词处理;获取当前计算字词相应于当前考核标签子集中各标签的似然度;对当前计算字词相应于当前考核标签子集中各标签的似然度进行线性加权,得到当前计算字词相应于当前考核标签子集的加权似然度;确定进行线性加权的各加权系数,使得所有字词的加权似然度的连乘积最大,并将最大的连乘积作为待分类文档相应于当前考核标签子集的似然度;在待考核标签子集中,选取使得后验概率最大的标签子集作为待分类文档的分类结果。本发明专利技术的多标签分类方法及系统相对现有多标签分类方法及系统兼具总体性能高及计算量小的特点。

【技术实现步骤摘要】

本专利技术涉及文本分类领域,尤其涉及一种多标签文本分类方法及系统
技术介绍
近年来,随着互联网的高速发展,尤其是移动互联网时代的到来,人类进入大数据 时代,每天都会产生海量的数据,因此对海量数据进行分析、获取有价值的信息已成为学术 界和工业界共同关心的热点。作为海量数据的主要外在形式,文本相关的处理技术受到了 人们的极大关注,文本分类技术也进入了 一个新的发展阶段。 传统文本分类技术主要关注单标签分类,即一个文本对应一个类别标签。然而现 实生活中,一个文本的类别标签往往不止一个,如一篇介绍某个国家经济的文章,很可能同 时会涉及政治和文化,此时该文章应该同时至少对应经济、政治、文化等三个标签;一篇体 育赛况报道相关的文章,很可能也会有较大篇幅介绍某位体育明星,因此它应该至少包含 体育赛况、体育明星两个标签。由此可见,多标签分类可以提供更加丰富的分类信息,为后 续可能的应用,如文本分类管理、监控、过滤等等,提供更大的帮助,因此,多标签分类问题, 即对一篇文档给出多个标签具有实际意义。 在此,最理想的多标签分类方法是针对多标签的各个标签子集分别建模,确定各 标签子集的概率模型;随后对待分类文档,依次计算其相应于所有多标签子集的后验概率, 最后选择后验概率最大的多标签子集作为文档的分类结果。然而,多标签子集的数量随多 标签数目的增多呈指数级增长,假设一个多标签分类问题中多标签的个数为K,则理论上总 的多标签子集的个数为2K-1,当K的数值较大时,由于多标签子集的数量巨大,对所有子集 分别构建模型是不现实的。 基于上述原因,在多标签分类问题上,传统的分类方法主要采用朴素贝叶斯分类 器方法进行分类,其假设各个标签之间分布独立且各标签出现概率均等,由于每个标签将 对应一个词分布模型,该词分布模型可以看作是一个概率模型,在此基础上,现有的多标签 分类方法如下: 步骤一:针对每一个标签分别训练两个概率模型,即包含该标签的概率模型和不 包含该标签的概率模型,下面以包含该标签的概率模型为例说明概率模型的训练方法: 步骤1 :获取大量包含该标签的文本数据作为训练数据。 步骤2 :统计训练数据中各个字词的字词出现概率。 步骤3 :将上述字词出现概率的集合作为包含该标签的概率模型,用于后续计算 该标签的文档生成概率。 相应的,不包含该标签的概率模型可在采集的不包含该标签的文本数据上训练得 到。 步骤二:获取待分类文档C。 步骤三:依次判断该待分类文档C是否包含标签集合中的各标签,其中,该待分类 文档C是否包含标签X的判断方法如下: 步骤I:对待分类文档C进行分词处理,获取字词串序列Cx。 步骤2 :计算该字词串序列Cx相应于包含标签X的似然度,特别的在朴素贝叶斯 假设下,该似然度可计算为等于字词串序列Cx中各字词相应于包含某标签X的字词生成概 率的连乘积。 步骤3 :计算字词串序列Cx相应于不包含标签X的似然度。 步骤4 :计算字词串序列Cx相应于包含标签X的似然度与字词串序列Cx相应于 不包含标签X的似然度间的似然比。 步骤5 :所述似然比大于1,则认为该待分类文档包含标签X,反之则认为该待分类 文档不包含该标签。 步骤四:获取该待分类文档对应的多标签分类结果。 在以上的基于朴素贝叶斯决策的分类方法中,各个标签的文档概率分布人为假设 相互独立的,该种独立假设使得在解决多标签分类问题时具有方法简单、易于实现、效率较 高的优点。但在实际应用中,标签相互独立的假设与现实并不相符,如一篇介绍某个国家经 济的文章很可能也涉及了该国家的政治和文化,显然在经济、政治、文化三个标签之间存在 一定的概率相关性。所以,简单假设各标签之间彼此独立显然是不合理的,也正是这个原 因,上述多标签分类方法通常难以取得理想的多标签分类效果。 另一种可以精确地进行多标签文本分类的方法是针对确定的所有标签子集分别 建立概率模型,随后针对待分类文档依次计算待分类文档相应于所有标签子集的后验概 率,最后选择后验概率最大的标签子集作为文档的分类结果,该种多标签文本分类方法由 于标签子集的数量将随多标签数目的增多呈指数级增长,因此对所有标签子集分别构建概 率模型是不现实的,所以该种分类方法并未得到推广应用。
技术实现思路
本专利技术的实施例针对现有多标签文本分类方法存在的不合理问题,提供一种可实 施的分类中考虑标签子集中各标签之前的相关性的多标签文本分类方法及系统。 为实现上述目的,本专利技术采用的技术方案为:一种多标签文本分类方法,包括: 针对接收到的待分类文档确定待考核标签子集; 对所述待分类文档进行分词处理,得到各字词; 从所述待考核标签子集中依次提取一个标签子集作为当前考核标签子集; 从所述各字词中依次提取一个字词作为当前计算字词; 获取所述当前计算字词相应于所述当前考核标签子集中各标签的似然度; 对所述当前计算字词相应于所述当前考核标签子集中各标签的似然度进行线性 加权,得到所述当前计算字词相应于所述当前考核标签子集的加权似然度; 确定进行线性加权的各加权系数,使得所有字词相应于所述当前考核标签子集的 加权似然度的连乘积最大,并将最大的连乘积作为所述待分类文档相应于所述当前考核 标签子集的似然度,其中,对于所有字词的各加权系数与所述当前考核标签子集中的标签 对应,且各加权系数之和等于1 ; 根据所述待分类文档相应于所述当前考核标签子集的似然度,计算所述待分类文 档相应于所述当前考核标签子集的后验概率; 在所述待考核标签子集中,选取使得所述后验概率最大的标签子集作为所述待分 类文档的分类结果。 优选的是,所述针对接收到的待分类文档确定待考核标签子集包括: 获取包含所有标签的标签集合; 在将所述标签集合作为所述当前考核标签子集时确定的所有加权系数中,选取使 得加权系数大于等于预设门限的标签形成新标签集合; 对所述新标签集合中各标签进行组合,得到所述待考核标签子集。 优选的是,所述针对接收到的待分类文档确定待考核标签子集还包括: 在将所述标签集合作为当前考核标签子集时确定的所有加权系数均小于所述预 设门限时,选取使得加权系数最大的预设数量的标签形成所述新标签集合。 优选的是,所述确定进行线性加权的各加权系数,使得所有字词相应于所述当前 考核标签子集的加权似然度的连乘积最大包括: 利用最大期望算法确定进行线性加权的各加权系数,使得所有字词相应于所述当 前考核标签子集的加权似然度的连乘积最大。 优选的是,所述根据所述待分类文档相应于所述当前考核标签子集的似然度,计 算所述待分类文档相应于所述当前考核标签子集的后验概率包括: 计算所述当前考核标签子集的先验概率; 计算所述当前考核标签子集的先验概率与所述待分类文档相应于所述当前考核 标签子集的似然度的乘积,作为所述待分类文档相应于所述当前考核标签子集的后验概 率。 优选的是,所述计算所述当前考核标签子集的先验概率包括: 获取所有训练文档; 获取所有训练文档涉及的标签,构成训练标签集合; 对所述训练标签集合中的各标签进行排序; 对所有训练文档的多标签标注进行顺序调整,使多标签标注中各标签之间的顺序 位与训练标签集合中对应标签之间的顺序位一致;根据所有训练文档的经过顺序调整的多标签标注,训练得到离散的马尔可本文档来自技高网
...
一种多标签文本分类方法及系统

【技术保护点】
一种多标签文本分类方法,其特征在于,包括:针对接收到的待分类文档确定待考核标签子集;对所述待分类文档进行分词处理,得到各字词;从所述待考核标签子集中依次提取一个标签子集作为当前考核标签子集;从所述各字词中依次提取一个字词作为当前计算字词;获取所述当前计算字词相应于所述当前考核标签子集中各标签的似然度;对所述当前计算字词相应于所述当前考核标签子集中各标签的似然度进行线性加权,得到所述当前计算字词相应于所述当前考核标签子集的加权似然度;确定进行线性加权的各加权系数,使得所有字词相应于所述当前考核标签子集的加权似然度的连乘积最大,并将最大的连乘积作为所述待分类文档相应于所述当前考核标签子集的似然度,其中,对于所有字词的各加权系数与所述当前考核标签子集中的标签一一对应,且各加权系数之和等于1;根据所述待分类文档相应于所述当前考核标签子集的似然度,计算所述待分类文档相应于所述当前考核标签子集的后验概率;在所述待考核标签子集中,选取使得所述后验概率最大的标签子集作为所述待分类文档的分类结果。

【技术特征摘要】

【专利技术属性】
技术研发人员:贺志阳吴及吕萍何婷婷乔玉平胡国平胡郁
申请(专利权)人:清华大学科大讯飞股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1