一种网页分类方法、系统、终端及存储介质技术方案

技术编号:19635008 阅读:34 留言:0更新日期:2018-12-01 15:44
本发明专利技术公开了一种网页分类方法、系统、终端及存储介质,该方法包括获取网页链接信息;将获取得到的网页链接信息输入至文本分类模型进行分类处理后,输出所述网页链接信息对应的站点分类结果;其中,所述文本分类模型是基于Boosting集成方法而训练得到的文本分类模型。该系统包括获取模块和处理模块。该终端包括用于存储程序的存储器以及用于加载程序以执行所述方法步骤的处理器。通过使用本发明专利技术,能够快速且准确地对网页进行分类。本发明专利技术作为一种网页分类方法、系统、终端及存储介质可广泛应用于文本分类领域中。

A Web Page Classification Method, System, Terminal and Storage Media

The invention discloses a web page classification method, system, terminal and storage medium. The method includes acquiring web page link information, inputting the obtained web page link information into a text classification model for classification, and outputting the site classification results corresponding to the web page link information. Type A is a text categorization model based on Boosting integration method. The system includes acquisition module and processing module. The terminal includes a memory for storing programs and a processor for loading programs to perform the method steps. By using the present invention, web pages can be classified quickly and accurately. As a web page classification method, system, terminal and storage medium, the invention can be widely used in the field of text classification.

【技术实现步骤摘要】
一种网页分类方法、系统、终端及存储介质
本专利技术涉及数据分类处理技术,尤其涉及一种网页分类方法、系统、终端及存储介质。
技术介绍
技术词解释:F1Score:F1分数,是统计学中用来衡量二分类模型精确度的一种指标,它同时兼顾了分类模型的准确率和召回率;具体地,F1分数可以看作是模型准确率和召回率的一种加权平均。Boosting:Boosting方法,其是一种用来提高弱分类算法准确度的方法,这种方法通过构造一个预测函数系列,然后以一定的方式将它们组合成一个预测函数。广告竞价系统每天需要处理上百亿级别的请求,其中,每个竞价请求中均含有页面信息、设备信息、用户信息等,并且这些信息会以日志的形式落地在服务器上,然后通过算法的分析,以抽取出所需的数据,并将其持久化在数据库中。然而,有时候竞价请求中会缺失请求页面关键词以及相关描述,而为了解决这一问题,业界目前常用的办法就是抽取请求页面链接,并将请求页面链接交给爬虫爬取这些页面的信息。然而,对于广告竞价系统,其还存有以下问题:1、在海量的竞价请求情况下,抽取出的请求页面的数据量是非常巨大的,同时从请求页面爬取出的结果的数据量也是非常巨大的,因此本文档来自技高网...

【技术保护点】
1.一种网页分类方法,其特征在于,包括以下步骤:获取网页链接信息;将获取得到的网页链接信息输入至文本分类模型进行分类处理后,输出所述网页链接信息对应的站点分类结果;其中,所述文本分类模型是基于Boosting集成方法而训练得到的文本分类模型。

【技术特征摘要】
1.一种网页分类方法,其特征在于,包括以下步骤:获取网页链接信息;将获取得到的网页链接信息输入至文本分类模型进行分类处理后,输出所述网页链接信息对应的站点分类结果;其中,所述文本分类模型是基于Boosting集成方法而训练得到的文本分类模型。2.根据权利要求1所述一种网页分类方法,其特征在于,所述网页链接信息包括网页链接对应的站点标题关键词列表。3.根据权利要求1或2所述一种网页分类方法,其特征在于,所述文本分类模型为通过以下构建步骤构建得到的文本分类模型:获取训练数据集;利用Boosting集成方法,将训练数据集输入至文本分类模型进行训练处理,以获取得到训练后的文本分类模型。4.根据权利要求3所述一种网页分类方法,其特征在于,所述构建步骤还包括:利用训练数据集对所述训练后的文本分类模型进行十折交叉验证;当模型验证通过后,利用测试数据集对验证通过的文本分类模型进行测试。5.根据权利要求3所述一种网页分类方法,其特征在于,所述利用Boosting集成方法,将训练数据集输入至文本分类模型进行训练处理,以获取得到训练后的文本分类模型这一步骤,具体包括:S1、利用当前的子样本集对当前的基本分类器进行训练后,对训练结束后得到的基本分类器进行错误率计算;S2、当计算得出的错误率收敛至阈值范围内时,则结束训练,并执行步骤S6;S3、当计算得出的错误率未收敛至阈值范围内时,则执行步骤S4;S4、根据计算出的错误率,对当前的子样本集中所包含的样本的权重进行更新,以令分类结果为错误的样本的权重增加;S5、将更新后的权重分发给训练数据集中的样本后,获取得到下一个子样本集,将下一个子样本集输入至下一个基本分类器后,返回执行步骤S1;S6、将若干个基本分类器进行集成,以集成得到训练后的文本分...

【专利技术属性】
技术研发人员:张君晖
申请(专利权)人:广州舜飞信息科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1