多网站结构化数据获取方法、装置和计算机设备制造方法及图纸

技术编号：40556457 阅读：19 留言：0更新日期：2024-03-05 19:17

本申请涉及一种多网站结构化数据获取方法、装置和计算机设备。本申请涉及人工智能技术领域。方法包括：获取不同网页的数据信息、以及各数据信息之间的关联关系，并提取每个数据信息的数据结构信息；针对每个网页，基于网页的各数据信息的数据结构信息、以及各数据信息之间的关联关系，构建网页的数据树状图，并基于网页的数据树状图，识别各数据信息之中的结构化数据；计算相同节点层的各结构化数据之间的相似度，并确定各结构化数据之间的存储方式；基于各结构化数据之间的存储方式，对各结构化数据进行爬取存储处理，得到网页的目标爬取数据表。采用本方法能够提升对多网站的结构数据的同时爬取效率。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及人工智能，特别是涉及一种多网站结构化数据获取方法、装置和计算机设备。

技术介绍

1、爬虫技术现在已经应用非常广泛，比如想要获取某网站上的经济、交易、用户等数据，在无法直接访问该网站服务器数据库的情况下，可以利用现有的爬虫技术通过访问网页的方式抓取网页上面呈现出来的html数据，然后加工下载到自己的数据库中。不同的编程语言都有爬取html网页的方法，比如python语言自带爬虫的方法库，java语言有jsop库，可以实现爬取网页数据。

2、传统的多网站爬虫技术是通过针对不同网站定义一套爬虫程序从而进行爬取操作。但是该方式需要每一个网站都要专门定制一个程序，再对每个网站的结构数据进行爬取，从而导致对多网站的结构数据的同时爬取效率较低。

技术实现思路

1、基于此，有必要针对上述技术问题，提供一种多网站结构化数据获取方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。

2、第一方面，本申请提供了一种多网站结构化数据获取方法。所述方法包括：

3、...

【技术保护点】

1.一种多网站结构化数据获取方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述提取每个数据信息的数据结构信息，包括：

3.根据权利要求2所述的方法，其特征在于，所述基于所述网页的各数据信息的数据结构信息、以及所述网页的各数据信息之间的关联关系，构建所述网页的数据树状图，包括：

4.根据权利要求1所述的方法，其特征在于，所述基于所述网页的数据树状图，识别各所述数据信息之中的结构化数据，包括：

5.根据权利要求1所述的方法，其特征在于，所述按照所述数据树状图从根节点到叶节点的顺序，计算相同节点层的各结构化数据之间的...

【技术特征摘要】

1.一种多网站结构化数据获取方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述提取每个数据信息的数据结构信息，包括：

4.根据权利要求1所述的方法，其特征在于，所述基于所述网页的数据树状图，识别各所述数据信息之中的结构化数据，包括：

5.根据权利要求1所述的方法，其特征在于，所述按照所述数据树状图从根节点到叶节点的顺序，计算相同节点层的各结构化数据之间的相似度，包括：

6.根据权利要求1所述的方法，其特征在于，所述基于相同节点层的各结构化数据之间的相似度，确定各所述结构化...

【专利技术属性】
技术研发人员：夏晨皓，
申请(专利权)人：中国工商银行股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人