基于机器学习模型的网页数据抽取方法技术

技术编号:34006482 阅读:20 留言:0更新日期:2022-07-02 13:30
本发明专利技术涉及数据处理技术领域,具体涉及一种基于机器学习模型的网页数据抽取方法,包括收集多类网页,并对多类所述网页进行预处理,分别得到多个训练集和多个测试集;选取多个所述训练集的节点,分别得到多个节点特征;建立分类器模型;将多个所述节点特征带入所述分类器模型进行训练并评价,得到每类网页的准确率;基于所述准确率对多类所述网页进行选取,并将被选中的所述网页对应的所述测试集带入所述分类器模型进行测试,测试成功保存所述分类器模型,解决了现有的网页数据抽取对于不同结构的网页,要制定不同的抽取规则,降低了数据抽取效率的问题。据抽取效率的问题。据抽取效率的问题。

【技术实现步骤摘要】
基于机器学习模型的网页数据抽取方法
[0001]

[0002]本专利技术涉及数据处理
,尤其涉及一种基于机器学习模型的网页数据抽取方法。
[0003]
技术介绍

[0004]信息时代网页作为互联网信息的主要载体提供了大量的文本信息,虽然图像、音视频等多媒体信息也在日益增多,但是网页文本依旧是互联网信息的主要载体,是研究以及数据挖掘的主要来源。
[0005]现有的网页数据抽取的最传统的三种方式:1、基于正则表达式的网页提取;2、基于CSS选择器的网页抽取;3、基于XPATH的网页提取,这三种网页抽取都是基于包装器(wrapper)的网页抽取,这类抽取算法的通病就在于,对于不同结构的网页,要制定不同的抽取规则,降低了数据抽取效率。
[0006]
技术实现思路

[0007]本专利技术的目的在于提供一种基于机器学习模型的网页数据抽取方法,旨在解决现有的网页数据抽取对于不同结构的网页,要制定不同的抽取规则,降低了数据抽取效率的问题。
[0008]为实现上述目的,本专利技术提供了一种基于机器学习模型的网页数据抽取方法,包括以下步骤:S1收集多类网页,并对多类所述网页进行预处理,分别得到多个训练集和多个测试集;S2选取多个所述训练集的节点,分别得到多个节点特征;S3基于所述节点特征建立分类器模型;S4将多个所述节点特征带入所述分类器模型进行训练并评价,得到每类网页的准确率;S5基于所述准确率对多类所述网页进行选取,并将被选中的所述网页对应的所述测试集带入所述分类器模型进行测试,测试成功保存所述分类器模型,测试不成功,返回步骤S3。
[0009]其中,所述收集多类网页,并对多类所述网页进行预处理,分别得到多个训练集和多个测试集的具体方式为:S11收集多类网页;S12对多类所述网页进行规范化,得到多个规范化网页;S13对多个所述规范化网页的正文和非正文进行人工标注,分别得到多个标注信
息;S14基于多个所述标注信息将每一所述规范化网页的所述正文抽取,并将所述正文划分为训练集和测试集。
[0010]其中,所述将多个所述节点特征带入所述分类器模型进行训练并评价,得到每类网页的准确率的具体方式为:S41将多个所述节点特征带入所述分类器模型进行训练,分别得到多个训练结果;S42使用评价指标对多个所述训练结果进行评价,分别得到每类网页的准确率。
[0011]其中,所述分类器模型包括决策树、支持向量机、神经网络、逻辑回归、朴素贝叶斯和KNN中的任意一种。
[0012]其中,所述评价指标包括查全率、查准率和F值。
[0013]本专利技术的一种基于机器学习模型的网页数据抽取方法,通过收集多类网页,并对多类所述网页进行预处理,分别得到多个训练集和多个测试集;选取多个所述训练集的节点,分别得到多个节点特征;建立分类器模型;将多个所述节点特征带入所述分类器模型进行训练并评价,得到每类网页的准确率;基于所述准确率对多类所述网页进行选取,并将被选中的所述网页对应的所述测试集带入所述分类器模型进行测试,测试成功保存所述分类器模型,经多类网页的所述训练集训练得出的所述分类模型应用于不同结构的网页,解决了现有的网页数据抽取对于不同结构的网页,要制定不同的抽取规则,降低了数据抽取效率的问题。
[0014]附图说明
[0015]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0016]图1是本专利技术提供的一种基于机器学习模型的网页数据抽取方法的流程图。
[0017]图2是收集多类网页,并对多类所述网页进行预处理,分别得到多个训练集和多个测试集的流程图。
[0018]图3是将多个所述节点特征带入所述分类器模型进行训练并评价,得到每类网页的准确率的流程图。
[0019] 具体实施方式
[0020]下面详细描述本专利技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本专利技术,而不能理解为对本专利技术的限制。
[0021]请参阅图1至图3,本专利技术提供一种基于机器学习模型的网页数据抽取方法,包括以下步骤:S1收集多类网页,并对多类所述网页进行预处理,分别得到多个训练集和多个测
试集;具体方式为:S11收集多类网页;具体的,收集大量的网页,根据网页文本内容的相似性大概分为几类,如新闻类、政府类、招投标类、博客类等。
[0022]S12对多类所述网页进行规范化,得到多个规范化网页;具体的,采用HTML Tidy工具将多类所述网页转换为规范的DOM树,DOM树是一个对象模型(DOM)节点 (nodes)的集合,补全由书写导致的标签对不全,嵌套不规范等问题,得到规范化网页。
[0023]S13对多个所述规范化网页的正文和非正文进行人工标注,分别得到多个标注信息;具体的,对多个所述规范化网页的正文和非正文进行人工标注,即需要抽取和不需要抽取的部分,所述正文为需要抽取的部分,所述非正文为不需要抽取的部分。
[0024]S14基于多个所述标注信息将每一所述规范化网页的所述正文抽取,并将所述正文划分为训练集和测试集。
[0025]具体的,基于多个所述标注信息将每一所述规范化网页的所述正文抽取,并将所述正文按比例划分为训练集和测试集。
[0026]S2选取多个所述训练集的节点,分别得到多个节点特征;具体的,以新闻类网页举例,新闻类网页存在大量的文本信息和少量的图片,现代网页结构设计一般用<p></p>标签构成段落,在<p></p>标签中每行文字嵌套在<span></span>标签对中,文章标题一般采用“文章标题”+“网站名”放在<title>标签中,且用
“‑”
或者“_”连接在一起,连着
“‑”
或者“_”及后面的文字一起删掉即为文章标题。因此,在选取网页DOM树的标签类型作为特征时,可以选择title,div,p,span,img,body等节点,选取节点时,尽量选取较固定的标签。
[0027]S3基于所述节点特征建立分类器模型;具体的,所述分类器模型包括但不限于决策树、支持向量机、神经网络、逻辑回归、朴素贝叶斯和KNN中的任意一种。
[0028]S4将多个所述节点特征带入所述分类器模型进行训练并评价,得到每类网页的准确率;具体方式为:S41将多个所述节点特征带入所述分类器模型进行训练,分别得到多个训练结果;具体的,依次将多个所述节点特征带入所述分类器模型进行训练,使得每一所述节点特征输出一个对应本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于机器学习模型的网页数据抽取方法,其特征在于,包括以下步骤:S1收集多类网页,并对多类所述网页进行预处理,分别得到多个训练集和多个测试集;S2选取多个所述训练集的节点,分别得到多个节点特征;S3基于所述节点特征建立分类器模型;S4将多个所述节点特征带入所述分类器模型进行训练并评价,得到每类网页的准确率;S5基于所述准确率对多类所述网页进行选取,并将被选中的所述网页对应的所述测试集带入所述分类器模型进行测试,测试成功保存所述分类器模型,测试不成功,返回步骤S3。2.如权利要求1所述的基于机器学习模型的网页数据抽取方法,其特征在于,所述收集多类网页,并对多类所述网页进行预处理,分别得到多个训练集和多个测试集的具体方式为:S11收集多类网页;S12对多类所述网页进行规范化,得到多个规范化网页;S13对多个所述规范化网页...

【专利技术属性】
技术研发人员:李广周号
申请(专利权)人:重庆帮企科技集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1