The invention discloses a web page classification method, system, terminal and storage medium. The method includes acquiring web page link information, inputting the obtained web page link information into a text classification model for classification, and outputting the site classification results corresponding to the web page link information. Type A is a text categorization model based on Boosting integration method. The system includes acquisition module and processing module. The terminal includes a memory for storing programs and a processor for loading programs to perform the method steps. By using the present invention, web pages can be classified quickly and accurately. As a web page classification method, system, terminal and storage medium, the invention can be widely used in the field of text classification.
【技术实现步骤摘要】
一种网页分类方法、系统、终端及存储介质
本专利技术涉及数据分类处理技术,尤其涉及一种网页分类方法、系统、终端及存储介质。
技术介绍
技术词解释:F1Score:F1分数,是统计学中用来衡量二分类模型精确度的一种指标,它同时兼顾了分类模型的准确率和召回率;具体地,F1分数可以看作是模型准确率和召回率的一种加权平均。Boosting:Boosting方法,其是一种用来提高弱分类算法准确度的方法,这种方法通过构造一个预测函数系列,然后以一定的方式将它们组合成一个预测函数。广告竞价系统每天需要处理上百亿级别的请求,其中,每个竞价请求中均含有页面信息、设备信息、用户信息等,并且这些信息会以日志的形式落地在服务器上,然后通过算法的分析,以抽取出所需的数据,并将其持久化在数据库中。然而,有时候竞价请求中会缺失请求页面关键词以及相关描述,而为了解决这一问题,业界目前常用的办法就是抽取请求页面链接,并将请求页面链接交给爬虫爬取这些页面的信息。然而,对于广告竞价系统,其还存有以下问题:1、在海量的竞价请求情况下,抽取出的请求页面的数据量是非常巨大的,同时从请求页面爬取出的结果的数据量 ...
【技术保护点】
1.一种网页分类方法,其特征在于,包括以下步骤:获取网页链接信息;将获取得到的网页链接信息输入至文本分类模型进行分类处理后,输出所述网页链接信息对应的站点分类结果;其中,所述文本分类模型是基于Boosting集成方法而训练得到的文本分类模型。
【技术特征摘要】
1.一种网页分类方法,其特征在于,包括以下步骤:获取网页链接信息;将获取得到的网页链接信息输入至文本分类模型进行分类处理后,输出所述网页链接信息对应的站点分类结果;其中,所述文本分类模型是基于Boosting集成方法而训练得到的文本分类模型。2.根据权利要求1所述一种网页分类方法,其特征在于,所述网页链接信息包括网页链接对应的站点标题关键词列表。3.根据权利要求1或2所述一种网页分类方法,其特征在于,所述文本分类模型为通过以下构建步骤构建得到的文本分类模型:获取训练数据集;利用Boosting集成方法,将训练数据集输入至文本分类模型进行训练处理,以获取得到训练后的文本分类模型。4.根据权利要求3所述一种网页分类方法,其特征在于,所述构建步骤还包括:利用训练数据集对所述训练后的文本分类模型进行十折交叉验证;当模型验证通过后,利用测试数据集对验证通过的文本分类模型进行测试。5.根据权利要求3所述一种网页分类方法,其特征在于,所述利用Boosting集成方法,将训练数据集输入至文本分类模型进行训练处理,以获取得到训练后的文本分类模型这一步骤,具体包括:S1、利用当前的子样本集对当前的基本分类器进行训练后,对训练结束后得到的基本分类器进行错误率计算;S2、当计算得出的错误率收敛至阈值范围内时,则结束训练,并执行步骤S6;S3、当计算得出的错误率未收敛至阈值范围内时,则执行步骤S4;S4、根据计算出的错误率,对当前的子样本集中所包含的样本的权重进行更新,以令分类结果为错误的样本的权重增加;S5、将更新后的权重分发给训练数据集中的样本后,获取得到下一个子样本集,将下一个子样本集输入至下一个基本分类器后,返回执行步骤S1;S6、将若干个基本分类器进行集成,以集成得到训练后的文本分...
【专利技术属性】
技术研发人员:张君晖,
申请(专利权)人:广州舜飞信息科技有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。