【技术实现步骤摘要】
一种基于决策树分类算法的融合模型网站结构解析方法
[0001]本专利技术涉及网站结构分类解析领域,具体涉及一种基于决策树分类算法的融合模型网站结构解析方法
。
技术介绍
[0002]针对数据采集需求,通过数据爬虫方式,可以通过自动化的方式从互联网上收集和提取数据
。
帮助技术人员获取大量的数据,并且可以在短时间内完成这个过程
。
传统的数据采集工作,依靠技术人员前期针对每个数据采集网站,分析页面结构,然后编写爬虫代码的方式,但随着大数据技术
、
人工智能技术的发展对数据支撑需求不断扩大,已无法低成本
、
高效率支撑
。
因此,通过一种智能化手段,实现对网站结构的智能分析方法来代替人工分析,同时依靠逐渐提高算力的高速计算设备,可将先前单独训练的模型合并训练,进而将不同训练集
、
不同模型输出融合到单一模型中获取,从而将分析结果及要素直接反馈给技术人员后,技术人员直接编写数据采集程序将大大提升人工采集升本,从而降低数据采集成本,提升技术人员开发效率,进而支撑大数据
、
人工智能技术的发展意义重大
。
技术实现思路
[0003]针对现有技术的不足,本专利技术提供了一种基于决策树分类算法的融合模型网站结构解析方法,通过快速建立二分类模型,并在实施各阶段进行模型提升与结果验证,能够快速准确地提取目标数据
。
[0004]为实现上述目的,本专利技术提供了一种基于决策树分类 ...
【技术保护点】
【技术特征摘要】
1.
一种基于决策树分类算法的融合模型网站结构解析方法,其特征在于,包括:
S1、
基于
DOM
提取技术获取待解析网站的
HTML
代码;
S2、
根据所述待解析网站的
HTML
代码获取对应解析元素特征;
S3、
利用所述解析元素特征基于决策树分类算法得到待解析网站的结构解析结果
。2.
如权利要求1所述的一种基于决策树分类算法的融合模型网站结构解析方法,其特征在于,所述基于
DOM
提取技术获取待解析网站的
HTML
代码包括:基于
DOM
提取技术获取待解析网站的初始
HTML
代码;判断所述初始
HTML
代码是否存在对应历史
HTML
代码,若是,则利用所述待解析网站的初始
HTML
代码与初始
HTML
代码对应历史
HTML
代码作为待解析网站的
HTML
代码,否则,直接输出待解析网站的初始
HTML
代码作为待解析网站的
HTML
代码
。3.
如权利要求2所述的一种基于决策树分类算法的融合模型网站结构解析方法,其特征在于,根据所述待解析网站的
HTML
代码获取对应解析元素特征包括:根据所述待解析网站的
HTML
代码获取待解析网站的文本数据;根据所述待解析网站的文本数据进行页面解析得到待解析网站的标签属性数据;利用所述待解析网站的文本数据与标签属性数据作为解析元素特征
。4.
如权利要求3所述的一种基于决策树分类算法的融合模型网站结构解析方法,其特征在于,根据所述待解析网站的文本数据进行页面解析得到待解析网站的标签属性数据包括:获取待解析网站的网站标签;根据所述待解析网站的文本数据获取对应文本数据属性;利用所述待解析网站的网站标签与文本数据属性作为待解析网站的标签属性数据;其中,所述网站标签包括页面标题
、
页面描述与关键词
。5.
如权利要求4所述的一种基于决策树分类算法的融合模型网站结构解析方法,其特征在于,利用所述解析元素特征基于决策树分类算法得到待解析网站的结构解析结果包括:
S3
‑
1、
利用所述解析元素特征基于决策树分类算法建立决策分类模型;
S3
‑
2、
利用所述解析元素特征带入决策分类模型得到待解析网站的特征决策分类结果;
S3
‑
3、
利用所述待解析网站的特征决策分类结果得到待解析网站的结构解析结果
。6.
如权利要求5所述的一种基于决策树分类算法的融合模型网站结构解析方法,其特征在于,利用所述解析元素特征基于决策树分类算法建立决策分类模型包括:
S3
‑1‑
1、
利用所述解析元素特征中待解析网站的文本数据与对应文本数据属性划分为一级数据集;
S3
‑1‑
2、
利用所述解析元素特征中标签属性数据的待解析网站的网站标签划分为二级数据集;
S3
‑1‑
3、
利用所述一级数据集与二级数据集基于决策树分类算法建立决策分类模型
。7.
如权利要求6所述的一种基于决策树分类算法的融合模型网站结构解析方法,其特征在于,利用所述一级数据集与二级数据集基于决策树分类算法建立决策分类模型包括:
S3
‑1‑3‑
1、
利用所述一级数据集作为第一训练集,基于决策树分类算法进行根节点训
练得到第一初始决策分类模型;
S3
‑1‑3‑
2、
利用所述二级数据集作为第二训练集,基于决策树分类算法进行决策树剪枝处理得到第二初始决策分类模型;
S3
‑1‑3‑
3、
判断当前一级数据集与二级数据集对应待解析网站的
HTML
代码是否存在历史
HTML
【专利技术属性】
技术研发人员:董席峰,赵志庆,侯玉柱,张雨铭威,张昊,张赛男,
申请(专利权)人:戎行技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。