基于机器学习模型的网页数据抽取方法技术

技术编号：34006482 阅读：20 留言：0更新日期：2022-07-02 13:30

本发明专利技术涉及数据处理技术领域，具体涉及一种基于机器学习模型的网页数据抽取方法，包括收集多类网页，并对多类所述网页进行预处理，分别得到多个训练集和多个测试集；选取多个所述训练集的节点，分别得到多个节点特征；建立分类器模型；将多个所述节点特征带入所述分类器模型进行训练并评价，得到每类网页的准确率；基于所述准确率对多类所述网页进行选取，并将被选中的所述网页对应的所述测试集带入所述分类器模型进行测试，测试成功保存所述分类器模型，解决了现有的网页数据抽取对于不同结构的网页，要制定不同的抽取规则，降低了数据抽取效率的问题。据抽取效率的问题。据抽取效率的问题。

全部详细技术资料下载

【技术实现步骤摘要】
基于机器学习模型的网页数据抽取方法
[0001]

[0002]本专利技术涉及数据处理
，尤其涉及一种基于机器学习模型的网页数据抽取方法。
[0003]
技术介绍

[0004]信息时代网页作为互联网信息的主要载体提供了大量的文本信息，虽然图像、音视频等多媒体信息也在日益增多，但是网页文本依旧是互联网信息的主要载体，是研究以及数据挖掘的主要来源。
[0005]现有的网页数据抽取的最传统的三种方式：1、基于正则表达式的网页提取；2、基于CSS选择器的网页抽取；3、基于XPATH的网页提取，这三种网页抽取都是基于包装器(wrapper)的网页抽取，这类抽取算法的通病就在于，对于不同结构的网页，要制定不同的抽取规则，降低了数据抽取效率。
[0006]
技术实现思路

[0007]本专利技术的目的在于提供一种基于机器学习模型的网页数据抽取方法，旨在解决现有的网页数据抽取对于不同结构的网页，要制定不同的抽取规则，降低了数据抽取效率的问题。
[0008]为实现上述目的，本专利技术提供了一种基于机器学习模型的网页数据抽取方法，包括以下步骤：S1收集多类网页，并对多类所述网页进行预处理，分别得到多个训练集和多个测试集；S2选取多个所述训练集的节点，分别得到多个节点特征；S3基于所述节点特征建立分类器模型；S4将多个所述节点特征带入所述分类器模型进行训练并评价，得到每类网页的准确率；S5基于所述准确率对多类所述网页进行选取，并将被选中的所述网页对应的所述测试集带入所述分类器模型进行测试，测试成功保存所述分类器...

【技术保护点】

【技术特征摘要】
1.一种基于机器学习模型的网页数据抽取方法，其特征在于，包括以下步骤：S1收集多类网页，并对多类所述网页进行预处理，分别得到多个训练集和多个测试集；S2选取多个所述训练集的节点，分别得到多个节点特征；S3基于所述节点特征建立分类器模型；S4将多个所述节点特征带入所述分类器模型进行训练并评价，得到每类网页的准确率；S5基于所述准确率对多类所述网页进行选取，并将被选中的所述网页对应的所述测试集带入所述分类器模型进行测试，测试成功保存所述分类器模型，测试不成功，返回步骤S3。2.如权利要求1所述的基于机器学习模型的网页数据抽取方法，其特征在于，所述收集多类网页，并对多类所述网页进行预处理，分别得到多个训练集和多个测试集的具体方式为：S11收集多类网页；S12对多类所述网页进行规范化，得到多个规范化网页；S13对多个所述规范化网页...

【专利技术属性】
技术研发人员：李广，周号，
申请(专利权)人：重庆帮企科技集团有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人