【技术实现步骤摘要】
网页数据的采集方法、装置、计算机设备和存储介质
本专利技术涉及互联网
,特别是涉及一种网页数据的采集方法、装置、计算机设备和存储介质。
技术介绍
随着互联网技术的飞速发展,网络数据呈指数形式增长,数据量变得越来越大,在如今的信息时代中,从海量数据中快速准确地获取到有价值的信息显得尤为重要。在传统的数据采集方案中,主要是结合人工经验的方式从特定网站、频段和栏目等信息源中获取网页数据并分析处理,然后按照一定的数据模型输出结构化的网页数据,从而实现网页数据的采集。然而,当信息源的信息组织方式发生变化时,网页数据的采集方式也随之发生变化,需要适应性地调整网页数据的采集方式,从而会影响网页数据采集的时效性。
技术实现思路
基于此,有必要针对当信息源的信息组织方式发生变化时导致网页数据采集的时效性低的技术问题,提供一种网页数据的采集方法、装置、计算机设备和存储介质。一种网页数据的采集方法,所述方法包括:获取待采集网页的网页源代码;从所述网页源代码中提取链接地址和对应的页面链接名称;计算所述页面链接名称与预设语义词典中各关键词之间的语义相似度;从所述页面链接名称中选取语义相似 ...
【技术保护点】
1.一种网页数据的采集方法,其特征在于,包括:获取待采集网页的网页源代码;从所述网页源代码中提取链接地址和对应的页面链接名称;计算所述页面链接名称与预设语义词典中各关键词之间的语义相似度;从所述页面链接名称中选取语义相似度达到预设阈值的目标链接名称;将所述目标链接名称和对应的目标链接地址确定为目标采集的网页数据。
【技术特征摘要】
1.一种网页数据的采集方法,其特征在于,包括:获取待采集网页的网页源代码;从所述网页源代码中提取链接地址和对应的页面链接名称;计算所述页面链接名称与预设语义词典中各关键词之间的语义相似度;从所述页面链接名称中选取语义相似度达到预设阈值的目标链接名称;将所述目标链接名称和对应的目标链接地址确定为目标采集的网页数据。2.根据权利要求1所述的方法,其特征在于,所述将所述目标链接名称和对应的目标链接地址确定为目标采集的网页数据包括:判断所述目标链接地址是否为末端网页的链接地址;若是,将所述目标链接名称和所述目标链接地址作为目标采集的网页数据;若否,则加载所述目标链接地址,以得到下一级待采集页面的网页源代码,递归执行所述从所述网页源代码中提取链接地址和对应的页面链接名称的步骤,直至得到末端网页所对应的目标链接名称和目标链接地址,将所得的目标链接名称和目标链接地址作为目标采集的网页数据。3.根据权利要求1所述的方法,其特征在于,还包括:当所述目标链接地址为末端网页的链接地址、且对应的语义相似度小于所述预设阈值时,则删除所述目标链接地址和对应的目标链接名称;当所述目标链接地址为非末端网页的链接地址、且对应的语义相似度达到所述预设阈值时,则加载所述目标链接地址,以得到下一级待采集页面的网页源代码,递归执行所述从所述网页源代码中提取链接地址和对应的页面链接名称的步骤,直至得到末端网页所对应的目标链接名称和目标链接地址,将所得的目标链接名称和目标链接地址作为目标采集的网页数据。4.根据权利要求3所述的方法,其特征在于,还包括:确定最大递归次数;按照所述最大递归次数递归执行所述从所述网页源代码中提取链接地址和对应的页面链接名称的步骤;在递归过程中,当得到末端网页所对应的目标链接名称和目标链接地址时,则将所得的目标链接名称和目标链接地址作为目标采集的网页数据;当递归次数达到所述最大递归次数,若未得到末端网页所对应的目标链接名称和目标链接地址,则停止递归计算。5.根据权利要求1所述的方法,其特征在于,所述获取待采集网页的网页源代码包括:获取待采集网页的网络地址;加载所述网络地址,通过加载的网络地址获得待采集网页的网页源代码。6.根据权利要求1所述的方法,其特征在于,所述从所述网页源代码中提取链接地址和对应的页面链接名称包括:将所述网页源代码中的表征脚本、页头和页尾的源代码部分进行删除;对经过删除处理后所得的网页源代码进行字符大小写转换;在经过删除处理后所得的网页源代码中,按照预设标签提取链接地址和对应的页面链接名称;对所提取到的链接地址和页面链接进行去重处理。7.根据权利要求1所述的方法,其特征在于,所述获取待采集网页的网页源代码之前,还包括:确定采集任务;根据所述采...
【专利技术属性】
技术研发人员:何利军,
申请(专利权)人:北京金蝶管理软件有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。