数据处理方法、装置、电子设备、存储介质及程序产品制造方法及图纸

技术编号:40022200 阅读:24 留言:0更新日期:2024-01-16 16:56
本申请实施例提供了一种数据处理方法、装置、电子设备、存储介质及程序产品,涉及互联网、人工智能、云技术等领域。该方法通过对待处理网站进行解析,获得待处理网站中基于至少一个预定元素的源数据,并从源数据中提取出目标内容信息,再基于目标内容信息和至少一个预定元素分别对应的识别提示信息,通过第一AI网络对目标内容信息进行资源识别,生成至少一个预定元素的资源识别结果,每个预定元素对应的识别提示信息用于约束第一AI网络执行相应的资源识别方式,进而将至少一个预定元素的资源识别结果进行整合,得到资源文件,可以实现一种通用的针对网站内容信息解析的资源自动抓取流程,能够覆盖所有网站类型,有效提升网站资源的抓取效率。

【技术实现步骤摘要】

本申请涉及互联网,具体而言,本申请涉及一种数据处理方法、装置、电子设备、存储介质及程序产品


技术介绍

1、随着互联网的快速发展,网站成为一个巨大的共享信息资源载体,从网站中批量抓取相关资源在许多领域有着愈发重要的作用。然而网站大都以html(hyper text markuplanguage,超文本标记语言)的形式出现,而html缺少对数据本身的描述,很难被直观理解,不便于资源的抓取。

2、目前行业内最为通用的资源抓取方案,是通过将网页内容解析成对象模型树结构,再对对象模型树结构中的各节点进行逐步分析。但实际应用中,互联网中的网站类型非常多,每种类型的网站都采用逐步分析的方式,会大量耗费开发人员人力,效率十分低下。


技术实现思路

1、本申请实施例的目的旨在能解决网站资源抓取效率低下的问题。

2、根据本申请实施例的一个方面,提供了一种数据处理方法,该方法包括:

3、对待处理网站进行解析,获得待处理网站中基于至少一个预定元素的源数据;

4、从源数据中提取出目标内容本文档来自技高网...

【技术保护点】

1.一种数据处理方法,其特征在于,包括:

2.根据权利要求1所述的数据处理方法,其特征在于,还包括:

3.根据权利要求1或2所述的数据处理方法,其特征在于,所述对待处理网站进行解析,获得所述待处理网站中基于至少一个预定元素的源数据,包括:

4.根据权利要求1或2所述的数据处理方法,其特征在于,所述从所述源数据中提取出目标内容信息,包括:

5.根据权利要求1或2所述的数据处理方法,其特征在于,还包括:

6.根据权利要求1或2所述的数据处理方法,其特征在于,所述将所述至少一个预定元素的资源识别结果进行整合,得到资源文件,包括:...

【技术特征摘要】

1.一种数据处理方法,其特征在于,包括:

2.根据权利要求1所述的数据处理方法,其特征在于,还包括:

3.根据权利要求1或2所述的数据处理方法,其特征在于,所述对待处理网站进行解析,获得所述待处理网站中基于至少一个预定元素的源数据,包括:

4.根据权利要求1或2所述的数据处理方法,其特征在于,所述从所述源数据中提取出目标内容信息,包括:

5.根据权利要求1或2所述的数据处理方法,其特征在于,还包括:

6.根据权利要求1或2所述的数据处理方法,其特征在于,所述将所述至少一个预定元素的资源识别结果进行整合,得到资源文件,包括:

7.根据权利要求2所述的数据处理方法,其特征在于,所述响应于对所述待处理网站的展示指令,展示所述待处理网站中的实际资源,包括:

8.根据权利要求7所述的数据处理方法,其特征在于,若所述网址信息不符合第一条件,该方法还包括:

9.根据权利...

【专利技术属性】
技术研发人员:彭坤滨冯中良郭文学苏信豪
申请(专利权)人:北京搜狗网络技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1