一种基于级联分类器的官网识别方法技术

技术编号:16663312 阅读:34 留言:0更新日期:2017-11-30 12:10
本发明专利技术公开了一种基于级联分类器的官网识别方法,该方法的创新点在于建立一多层级的级联分类器,该分类器的建立方法是将样本集划分为带标签数据集和待预测样本集,根据带标签数据集提取官网特征,训练第一级分类器;将待预测样本集中样本代入第一级分类器,得到预测可信样本和未识别样本,从未识别样本中选取一部分进行人工打标签,根据人工打出标签的样本训练第二级分类器;依次类推,直到最后待预测样本评估准则满足预定的要求。与传统的由多个弱分类器加权组合而成的强分类器相比,级联分类器中每个子分类器以前面分类器的筛选结果作为输入,在每一层级获得的都是强分类器,能达到提高模型训练效率和逐步提高模型整体准确率的效果。

【技术实现步骤摘要】
一种基于级联分类器的官网识别方法
本专利技术涉及官网识别研究领域,更具体地,涉及一种基于级联分类器的官网识别方法。
技术介绍
官网是公开团体主办者体现其意志想法,团体信息公开,并带有专用、权威、公开性质的一种网站,在当前互联网时代,官网往往是其品牌形象的第一站,也是主办者进行信息传播的最及时的途径。因此,对于普通民众来说,准确识别和进入官网是获得相关信息的首要一步。但由于第三方挂靠网站、娱乐网站等等的影响,如何从网页样本集中准确识别出官网样本是一个技术难点。现有技术中,一般将官网识别问题看作是一个二元分类问题,传统的强分类器能够解决单个复杂分类器训练效率低下的问题,但是,各个子分类器之间在输入和训练上没有直接的关联,仅仅是由多个弱的子分类器加权组合而成。当训练数据不够全面时,例如已有训练集没有覆盖非官网样本的所有特征,训练得到强模型的泛化能力不高。当标签数据增多时,为了学习新增的样本,需要在整个数据集上重新训练强分类器,计算复杂度大,效率不高。
技术实现思路
本专利技术的目的在于克服现有技术的缺点与不足,提供一种基于级联分类器的官网识别方法,该方法分类效果好,可扩展性强。本专利技术的目的本文档来自技高网...
一种基于级联分类器的官网识别方法

【技术保护点】
一种基于级联分类器的官网识别方法,其特征在于,建立一多层级的级联分类器,该分类器的建立方法是将样本集划分为带标签数据集和待预测样本集,根据带标签数据集提取官网特征,训练第一级分类器;将待预测样本集中样本代入第一级分类器,得到预测可信样本和未识别样本,从未识别样本中选取一部分进行人工打标签,根据人工打出标签的样本训练第二级分类器;依次类推,直到最后待预测样本评估准则满足预定的要求。

【技术特征摘要】
1.一种基于级联分类器的官网识别方法,其特征在于,建立一多层级的级联分类器,该分类器的建立方法是将样本集划分为带标签数据集和待预测样本集,根据带标签数据集提取官网特征,训练第一级分类器;将待预测样本集中样本代入第一级分类器,得到预测可信样本和未识别样本,从未识别样本中选取一部分进行人工打标签,根据人工打出标签的样本训练第二级分类器;依次类推,直到最后待预测样本评估准则满足预定的要求。2.根据权利要求1所述的基于级联分类器的官网识别方法,其特征在于,包括以下步骤:S1:收集海量文本数据,构建样本集,将样本集划分为带标签数据集和待预测样本集,带标签数据集中的样本均已确定是否为官网,根据带标签数据集提取官网特征;S2:对样本集进行预处理,通过官网特征列表将输入样本从文本形式的输入空间映射到向量形式的特征空间;S3:根据带标签数据集训练第一级分类器;S4:应用当前级分类器对待预测样本集中未识别样本进行分类,得到预测可信样本和未识别样本;S5:从未识别样本中选取一部分进行人工打标签,即人工判断样本是否为官网,记为新标签样本...

【专利技术属性】
技术研发人员:陈开冉莫碧云
申请(专利权)人:广州探迹科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1