一种获取层级分类器以及文本分类的方法及装置制造方法及图纸

技术编号:12200335 阅读:63 留言:0更新日期:2015-10-14 12:43
本发明专利技术涉及一种获取层级分类器以及进行文本分类的方法及装置。该方法包括:建立层级分类器的层级类别结构,层级类别结构包含多层,每层包含一个或多个类别节点,层级类别结构的每个分支结束的最末一个类别节点定义为叶子节点,其他类别节点定义为树干节点;依据层级类别结构对训练样本标注,获取各树干节点的分类器模型的标注数据;提取训练样本的特征信息,特征信息包含至少一个特征项;在各树干节点,通过分类器训练器利用相应树干节点的标注数据与训练样本的特征信息进行训练并获取相应树干节点的分类器模型,并与各树干节点相应的分类器模型形成具有层级类别结构的层级分类器。通过该方案能够生成多层级的分类器并快速有效地划分文本类别。

【技术实现步骤摘要】

本专利技术涉及计算机信息领域,尤其涉及一种获取层级分类器以及进行文本分类的方法及装置。
技术介绍
随着互联网在全球范围内的快速发展,人们面临的信息呈指数增加。面对纷繁芜杂的信息,如何能够快速、准确全面获取到所需要的信息已经成为人们急切要解决的问题。目前,针对众多纷繁的信息主要是以通过分类器来实现数据分类,以用在用户检索或搜索数据时可以快速获取到所需要的数据信息。所谓分类器(Classifier),是可以将获取到的数据分放到预设的各类别中。而现有技术中,对海量数据处理的方式中,一种方式是,利用词频匹配技术建立分类器。另一种方式是,采用机器学习的方式建立分类器。基于这两种方式来实现海量数据的检索、插入、索引、过滤等处理。例如,在广告检索系统中,利用词频匹配建立分类器的方式实现检索功能。其主要依靠广告商在注册的时候所提供的广告所属行业、标识、关键词等相关信息,并将这些广告信息划归到所确定的该广告所属类别标签下。进而通过简单的词频统计,为每个类别选定一个种子词表。从而可以利用词频匹配技术,确定文本的分类结果。然而,该方式完全依赖原始注册信息进行词频分析,这样往往因应用环境及时间变化会造成大量无关的词。因此,直接影响分类器数据的准确性,以及影响线上相关性,降低用户体验。或者,在该广告检索系统中,采用机器学习的方式建立分类器。即,将所有广告类别(或广告行业)都放在同一层次,即餐饮、服装等所有行业都放到同一级别上。每次确定出某一文本的分类结果,给出包括所有行业都在内的概率分布。尽管机器学习的方式比基于词频匹配的方式准确性和召回率都有所提高,但是,这种不分层的分类器,无论训练还是预测或检索准确率低,并且扩展性差。比如,当数据类别不断扩展时,训练和预测的时候需要存储的权值向量会线性增长,此时系统就无法支持更大规模的分类。
技术实现思路
本专利技术的主要目的在于提供一种,以解决现有技术存在的问题,其中:依据本专利技术的第一方面,提供了一种获取层级分类器的方法,包括:建立层级分类器的层级类别结构,所述层级类别结构包含多层,其中每一层包含一个或多个类别节点,其中层级类别结构的每个分支结束的最末一个类别节点被定义为叶子节点,其他类别节点被定义为树干节点;依据所述层级类别结构对训练样本进行标注,以获取各个树干节点处的分类器模型的标注数据;提取训练样本的特征信息,所述特征信息包含至少一个特征项;在各个树干节点处,通过分类器训练器利用相应树干节点的标注数据与该训练样本的特征信息进行训练并获取相应树干节点的分类器模型,并且与各个树干节点相应的分类器模型形成具有层级类别结构的层级分类器。根据本专利技术的方法,通过最大熵算法来在各个树干节点处通过分类器训练器利用相应树干节点的标注数据与特征信息进行训练并获取相应树干节点的分类器模型。根据本专利技术的方法,在各个树干节点处通过分类器训练器利用相应树干节点的标注数据与特征信息进行训练并获取相应树干节点的分类器模型进一步包括:在各个树干节点处将相应树干节点的特征信息与标注数据输入分类器训练器;使用最大熵算法利用相应树干节点的标注数据和特征信息在分类器训练器中进行训练以获取相应节点处的分类器模型。根据本专利技术的方法,依据所述层级类别结构对训练样本进行标注,以获取各个树干节点处的分类器模型的标注数据的步骤,进一步包括:基于层级类别结构,分别选择与各个树干节点相关的种子词;基于所述种子词并通过迭代的方式获取与各个树干节点相关的训练样本并进行标注以获取各个分类器模型的标注数据。依据本专利技术的第二方面,提供了一种文本分类的方法,其特征在于,包括:分析待分类文本,以提取与待分类文本相关的特征信息;基于所述特征信息与相应的特征值,利用层级类别结构的根节点处的分类器模型在层级类别结构的根节点处对所述待分类文本进行分类,以获取所述待分类文本属于各个第一级类别节点处的各个第一级类别的概率值,其中,所述层级类别结构是预先建立的;基于所述特征信息与相应的特征值,在所述第Π-1级类别概率值大于预设阈值的第η-1级类别节点处,利用该η-1级类别节点的分类器模型对所述待分类文本进行分类,以获取所述待分类文本在与该第η-1级类别节点相对应的各个第η级类别节点处的各个第η级类别概率值,其中,η为大于等于2的整数;当在类别概率值大于预设阈值的所有类别树干节点处的分类都完成后,将分类终结的各级的各个类别终结节点处的概率值按照预定顺序进行排序,以确定所述分类文本所属类别。根据本专利技术的方法,所述各个节点的分类器模型是按照根据本专利技术的第一方面所述的方法而获取的分类器模型。根据本专利技术的方法,针对所述特征项,基于统计方法过滤冗余特征项。依据本专利技术的第三方面,提供了一种获取层级分类器的装置,包括:层级结构建立模块,用于建立层级分类器的层级类别结构,所述层级类别结构包含多层,其中每一层包含一个或多个类别节点,其中层级类别结构的每个分支结束的最末一个类别节点被定义为叶子节点,其他类别节点被定义为树干节点;获取模块,用于依据所述层级类别结构对训练样本进行标注,以获取各个树干节点处的分类器模型的标注数据;提取模块,用于提取训练样本的特征信息,所述特征信息包含至少一个特征项;训练模块,用于在各个树干节点处,通过分类器训练器利用相应树干节点的标注数据与该训练样本的特征信息进行训练并获取相应树干节点的分类器模型,并且与各个树干节点相应的分类器模型形成具有层级类别结构的层级分类器。根据本专利技术的装置,其中:通过最大熵算法来在各个树干节点处通过分类器训练器利用相应树干节点的标注数据与特征信息进行训练并获取相应树干节点的分类器模型。根据本专利技术的装置,所述训练模块进一步包括:输入子模块,用于在各个树干节点处将相应树干节点的特征信息与标注数据输入分类器训练器;训练子模块,用于使用最大熵算法利用相应树干节点的标注数据和特征信息在分类器训练器中进行训练以获取相应节点处的分类器模型。根据本专利技术的装置,所述获取模块进一步包括:第一获取子模块,用于基于层级类别结构,分别选择与各个树干节点相关的种子词;第二获取子模块,用于基于所述种子词并通过迭代的方式获取与各个树干节点相关的训练样本并进行标注以获取各个分类器模型的标注数据。依据本专利技术的第四方面,提供了一种文本分类的装置,包括:文本分析模块,用于分析待分类文本,以提取与待分类文本相关的特征信息;第一分类模块,用于基于所述特征信息与相应的特征值,利用层级类别结构的根节点处的分类器模型在层级类别结构的根节点处对所述待分类文本进行分类,以获取所述待分类文本属于各个第一级类别节点处的各个第一级类别的概率值,其中,所述层级类别结构是预先建立的;第二分类模块,用于基于所述特征信息与相应的特征值,在所述第η-1级类别概率值大于预设阈值的第η-1级类别节点处,利用该η-1级类别节点的分类器模型对所述待分类文本进行分类,以获取所述待分类文本在与该第η-1级类别节点相对应的各个第η级类别节点处的各个第η级类别概率值,其中,η为大于等于2的整数;确定模块,用于当在类别概率值大于预设阈值的所有分类节点处的分类都完成后,将各级的各个类别节点处的概率值按照预定顺序进行排序,以确定所述分类文本所属类别。根据本专利技术的装置所述根节点的分类器模型以及各个节点的分类器模本文档来自技高网
...

【技术保护点】
一种获取层级分类器的方法,包括:建立层级分类器的层级类别结构,所述层级类别结构包含多层,其中每一层包含一个或多个类别节点,其中层级类别结构的每个分支结束的最末一个类别节点被定义为叶子节点,其他类别节点被定义为树干节点;依据所述层级类别结构对训练样本进行标注,以获取各个树干节点处的分类器模型的标注数据;提取训练样本的特征信息,所述特征信息包含至少一个特征项;在各个树干节点处,通过分类器训练器利用相应树干节点的标注数据与该训练样本的特征信息进行训练并获取相应树干节点的分类器模型,并且与各个树干节点相应的分类器模型形成具有层级类别结构的层级分类器。

【技术特征摘要】

【专利技术属性】
技术研发人员:母亦翔
申请(专利权)人:北京奇虎科技有限公司奇智软件北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1