一种获取层级分类器以及文本分类的方法及装置制造方法及图纸

技术编号：12200335 阅读：63 留言：0更新日期：2015-10-14 12:43

本发明专利技术涉及一种获取层级分类器以及进行文本分类的方法及装置。该方法包括：建立层级分类器的层级类别结构，层级类别结构包含多层，每层包含一个或多个类别节点，层级类别结构的每个分支结束的最末一个类别节点定义为叶子节点，其他类别节点定义为树干节点；依据层级类别结构对训练样本标注，获取各树干节点的分类器模型的标注数据；提取训练样本的特征信息，特征信息包含至少一个特征项；在各树干节点，通过分类器训练器利用相应树干节点的标注数据与训练样本的特征信息进行训练并获取相应树干节点的分类器模型，并与各树干节点相应的分类器模型形成具有层级类别结构的层级分类器。通过该方案能够生成多层级的分类器并快速有效地划分文本类别。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机信息领域，尤其涉及一种获取层级分类器以及进行文本分类的方法及装置。
技术介绍
随着互联网在全球范围内的快速发展，人们面临的信息呈指数增加。面对纷繁芜杂的信息，如何能够快速、准确全面获取到所需要的信息已经成为人们急切要解决的问题。目前，针对众多纷繁的信息主要是以通过分类器来实现数据分类，以用在用户检索或搜索数据时可以快速获取到所需要的数据信息。所谓分类器(Classifier)，是可以将获取到的数据分放到预设的各类别中。而现有技术中，对海量数据处理的方式中，一种方式是，利用词频匹配技术建立分类器。另一种方式是，采用机器学习的方式建立分类器。基于这两种方式来实现海量数据的检索、插入、索引、过滤等处理。例如，在广告检索系统中，利用词频匹配建立分类器的方式实现检索功能。其主要依靠广告商在注册的时候所提供的广告所属行业、标识、关键词等相关信息，并将这些广告信息划归到所确定的该广告所属类别标签下。进而通过简单的词频统计，为每个类别选定一个种子词表。从而可以利用词频匹配技术，确定文本的分类结果。然而，该方式完全依赖原始注册信息进行词频分析，这样往往因应用环境及时间变化会造成大量无关的词。因此，直接影响分类器数据的准确性，以及影响线上相关性，降低用户体验。或者，在该广告检索系统中，采用机器学习的方式建立分类器。即，将所有广告类别(或广告行业)都放在同一层次，即餐饮、服装等所有行业都放到同一级别上。每次确定出某一文本的分类结果，给出包括所有行业都在内的概率分布。尽管机器学习的方式比基于词频匹配的方式准确性和召回率都有所提高，但是，这种不分层的分...

【技术保护点】
一种获取层级分类器的方法，包括：建立层级分类器的层级类别结构，所述层级类别结构包含多层，其中每一层包含一个或多个类别节点，其中层级类别结构的每个分支结束的最末一个类别节点被定义为叶子节点，其他类别节点被定义为树干节点；依据所述层级类别结构对训练样本进行标注，以获取各个树干节点处的分类器模型的标注数据；提取训练样本的特征信息，所述特征信息包含至少一个特征项；在各个树干节点处，通过分类器训练器利用相应树干节点的标注数据与该训练样本的特征信息进行训练并获取相应树干节点的分类器模型，并且与各个树干节点相应的分类器模型形成具有层级类别结构的层级分类器。

【技术特征摘要】

【专利技术属性】
技术研发人员：母亦翔，
申请(专利权)人：北京奇虎科技有限公司，奇智软件北京有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人