【技术实现步骤摘要】
参考外部知识构建文本分类器的方法和设备
本专利技术一般地涉及信息检索和文本分类。更具体而言,本专利技术涉及参考外部知 识构建文本分类器的方法和设备。
技术介绍
随着电子化办公和因特网的飞速发展,电子文本的信息量成爆炸趋势增长,并 且大规模的自动信息处理已经成为人们更好地利用这种大规模信息的必要手段和挑战。信息检索是指信息按一定的方式组织起来,并根据信息用户的需要找出有关的 信息的过程和技术。而文本自动分类是实现信息检索的主要支撑技术之一,其基本目的 是将文本划分到预定义的类中,帮助人们检索、查询、过滤和利用信息的有效手段。早 期的文本分类采用的是基于知识工程和专家系统的方法,可是这样的方法非常复杂和缺 乏灵活性。随着机器学习的兴起和发展,很多机器学习的分类器模型被引入的文本分 类领域中,从不同的方面取得了不错的效果,目前已经成为实现自动文本分类的主流技 术。基于机器学习的文本分类通过最终构建的文本分类器来实现,而其性能很大程 度上依赖于所使用的训练数据(文本)集合,这样就造成训练数据的选择成为其中的关 键。所谓训练数据的选择是指从给定的具有类别标签的文本集合(标注 ...
【技术保护点】
一种用于构建文本分类器的方法,包括:输入标注文本集;提取所述标注文本集的内部特征;参考外部知识源构建所述标注文本集的外部特征;综合考虑所述标注文本集的内部特征和外部特征,从所述标注文本集中选择训练文本;以及利用所选择的训练文本来学习生成所述文本分类器。
【技术特征摘要】
1.一种用于构建文本分类器的方法,包括 输入标注文本集;提取所述标注文本集的内部特征;参考外部知识源构建所述标注文本集的外部特征;综合考虑所述标注文本集的内部特征和外部特征,从所述标注文本集中选择训练文 本;以及利用所选择的训练文本来学习生成所述文本分类器。2.如权利要求1所述的方法,其中提取所述标注文本集的内部特征的步骤包括对所述标注文本集中的每个标注文本进行向量化,以得到对应于该标注文本的向量 空间模型,其中各个标注文本的向量空间模型所包含的词汇一起构成所述标注文本集的内部特征。3.如权利要求1所述的方法,其中创建所述标注文本集的外部特征的步骤包括 针对每个类别对相应的类别名进行分词处理以将其分解为一组词汇; 对每个所述词汇在所述外部知识源中的每个词义进行打分; 根据打分结果选择所述词汇的得分高的一个或多个词义;以及 将所述一组词汇和每个词汇的得分高的一个或多个词义词汇组合起来,以构成所述 标注文本集的针对所述类别的外部特征。4.如权利要求3所述的方法,其中所述类别的类别名不具有自然语言的语义信息,并 且创建所述标注文本集的外部特征的步骤还包括通过分析所述类别所包含的标注文本来自动创建所述类别的准类别名;并且 其中,所述准类别名作为所述类别的类别名被用于外部特征的创建。5.如权利要求3所述的方法,其中创建所述标注文本集的外部特征的步骤还包括 从分解得到的所述一组词汇中去除停用词。6.如权利要求3所述的方法,其中所选择的每个词义在所述外部知识源中通过语义关 系外延出来的词汇也被用作所述类别的外部特征。7.如权利要求1所述的方法,其中所述外部知识源是词典。8.如权利要求3所述的方法,其中从所述标注文本集中选择训练文本的步骤包括 通过计算所述向量空间模型之间的相似性来计算两两标注文本之间的距离; 利用所述标注文本集的外部特征调整计算出的所述两两标注文本之间的距离;以及 利用统计方法、根据调整后的所述标注文本之间的距离来选择所述训练文本。9.如权利要求8所述的方法,其中选择所述训练文本的步骤包括计算以每个标注文本为中心的最大不包含其他类别的标注文本的圆形区域中所包含 的标注文本的个数;并且选择具有最少个数的标注文本的圆形区域中所包含的标注文本,作为所述训练文本。10.如权利要求8所述的方法,其中选择所述训练文本的步骤包括 计算每个标注文本到其他类别的标注文本的凸集的距离;并且选择具有最小距离的标注文本,作为所述训练文本。11.如权利要求8所述的方法,其中利用所述外部特征调整计算出的所述两两标注文 本之间的距离的步骤包括对同时出现在所述标注文本集的内部特征和外部特征中的词汇赋予更高的权重;并且根据所述权重来调整计算出的所述两两标注文本之间的距离。12.如权利要求3所述的方法,其中从所述标注文本集中选择训练文本的步骤包括 利用所述标注文本集的所述外部特征对每个所述标注文本进行初始化打分;利用所述标注文本集的所述内部特征来精化所述初始化打分结果;以及 根据各个标注文本的精化后的打分结果来选择所述训练文本。13.如权利要求12所述的方法,其中对每个所述标注文本进行初始化打分的步骤包括对于所述标注文本集中的每个类别,利用相应的外部特征所包含的词汇作为查询关 键字对该类别中的标注文本进行查询;并且将所述查询的返回结果所反映出的每个标注文本与相应类别的所述外部特征的相似 度作为该标注文本的所述初始化打分结果。14.如权利要求13所述的方法,其中精化所述初始化打分结果的步骤包括(a)根据每个所述标注文本的所述初始化打分结果,将每个类别的前的标注文本 作为训练文本集合来进行分类器学习,以获得一中间分类器;(b)利用所述中间分类器对所述标注文本集中的标注文本进行分类;(C)对于所述分类得到的每个类别,根据其中包含的每个标注文本的内部特征对该类 别中的标注文本进行新的打分排序;以及(d)根据新的打分排序结果,选择每个类别的前的标注文本作为新的训练文本集 合来进行分类器学习,以获得新的中间分类器,重复上述步骤(b)、(c)和(d),直到所选择的训练文本的集合不再发生变化为止。15.如权利要求14所述的方法,其中当根据每个标注文本的内部特征对标注文本进行 新的打分排序时,标注文本根据其所述中间分类器的超平面或者标注文本分布期望的距 离被打分排序。16.如权利要求14所述的方法,其中选择每个类别的前的标注文本作为新...
【专利技术属性】
技术研发人员:李建强,赵彧,刘博,
申请(专利权)人:日电中国有限公司,
类型:发明
国别省市:11[中国|北京]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。