一种网站数据采集方法和装置制造方法及图纸

技术编号:38755465 阅读:10 留言:0更新日期:2023-09-10 09:40
本申请提供了一种网站数据采集方法和装置,能够实现对具有不同交互方式的不同网站进行数据采集,无需对各个目标网站定制数据采集方案,进而能够节省人力和成本,提升采集网站数据的效率。方法包括:获取目标网站的第一页面的第一源码,以及基于数据采集需求所确定的目标分类标签;确定所述第一源码中,与所述目标分类标签相匹配的至少一个第一目标文本;根据所述第一源码中记载的交互方式的信息,确定每一所述第一目标文本对应的第一交互方式;确定与所述第一交互方式对应的采集方式,使用所述采集方式采集与所述第一目标文本对应的网站数据。站数据。站数据。

【技术实现步骤摘要】
一种网站数据采集方法和装置


[0001]本申请涉及数据采集
,尤其涉及一种网站数据采集方法和装置。

技术介绍

[0002]数据采集是指从不同来源(例如网站、应用程序、传感器等)中收集和提取数据的过程,该数据包括文本、图像等。
[0003]目前通常通过自动数据采集的方式进行数据采集,自动数据采集是指利用计算机程序来自动地从不同来源中提取和收集数据。例如,一个网站可以通过计算机程序自动抓取其他网站上的内容并将其保存到自己的数据库中。
[0004]但是,目前的自动数据采集方法由于不能识别目标网站上的交互方式,导致不能采集到交互方式对应的数据,需要开发人员针对目标网站的交互方式,编写定制化的采集程序来采集交互方式对应的数据。当需要对多个目标网站进行数据采集时,会浪费人力和成本,降低网站数据采集的效率。

技术实现思路

[0005]本申请提供了一种网站数据采集方法和装置,能够实现对具有不同交互方式的不同网站进行数据采集,节省人力和成本,提升采集网站数据的效率。
[0006]第一方面,提供了一种网站数据采集方法,包括:
[0007]获取目标网站的第一页面的第一源码,以及基于数据采集需求所确定的目标分类标签;
[0008]确定第一源码中,与目标分类标签相匹配的至少一个第一目标文本;
[0009]根据第一源码中记载的交互方式的信息,确定每一第一目标文本对应的第一交互方式;
[0010]确定与第一交互方式对应的采集方式,使用采集方式采集与第一目标文本对应的网站数据。
[0011]在一种可行的设计中,确定第一源码中,与目标分类标签相匹配的至少一个第一目标文本,包括:
[0012]确定第一源码中符合预设条件的至少一个待匹配文本;
[0013]将至少一个待匹配文本与目标分类标签进行匹配,以获取与目标分类标签相匹配的至少一个第一目标文本。
[0014]在一种可行的设计中,将至少一个待匹配文本与目标分类标签进行匹配,以获取与目标分类标签相匹配的至少一个第一目标文本,包括:
[0015]向神经网络模型输入至少一个待匹配文本和目标分类标签;
[0016]通过神经网络模型,获取至少一个待匹配文本中每一待匹配文本对应的分类标签;
[0017]通过神经网络模型,将目标分类标签和每一待匹配文本对应的分类标签进行匹
配,以获取与目标分类标签相匹配的至少一个第一目标文本。
[0018]在一种可行的设计中,在向神经网络模型输入至少一个待匹配文本和目标分类标签之前,方法还包括:
[0019]获取训练文本的文本表示向量和分类标签矩阵之间的相似度向量,分类标签矩阵包括至少一个标签向量,每一标签向量对应一个分类标签,分类标签矩阵对应的分类标签包括目标分类标签;
[0020]根据训练文本对应的分类标签和相似度向量,确定第一损失函数;
[0021]对文本表示向量进行线性映射,得到训练文本的对抗向量;
[0022]根据训练文本对应的分类标签和对抗向量,确定第二损失函数;
[0023]根据第一损失函数和第二损失函数,确定神经网络模型的总损失函数;
[0024]根据总损失函数和训练文本训练神经网络模型。
[0025]在一种可行的设计中,根据第一源码中记载的交互方式的信息,确定每一第一目标文本对应的第一交互方式,包括:
[0026]根据第一源码中记载的每一第一目标文本对应的标识,确定每一第一目标文本对应的第一交互方式。
[0027]在一种可行的设计中,确定与第一交互方式对应的采集方式,使用采集方式采集与第一目标文本对应的网站数据,包括:
[0028]若第一目标文本对应的第一交互方式包括列表菜单,确定与第一交互方式对应的采集方式为,采集第一目标文本对应的列表数据;
[0029]使用采集方式采集第一目标文本对应的列表数据。
[0030]在一种可行的设计中,在使用采集方式采集第一目标文本对应的列表数据之后,方法还包括:
[0031]若第一目标文本所属的第一列表与翻页组件关联,触发翻页组件中的翻页按钮,以获取翻页按钮对应的第二列表;
[0032]获取第二列表对应的第二源码;
[0033]确定第二源码中,与目标分类标签相匹配的至少一个第二目标文本;
[0034]根据第二源码中记载的交互方式的信息,确定每一第二目标文本对应的交互方式;
[0035]确定与交互方式对应的采集方式,使用采集方式采集与第二目标文本对应的列表数据。
[0036]在一种可行的设计中,确定与第一交互方式对应的采集方式,使用采集方式采集与第一目标文本对应的网站数据,包括:
[0037]若第一目标文本对应的第一交互方式包括导航菜单,确定与第一交互方式对应的采集方式为,触发第一目标文本对应的导航链接,采集导航链接对应的第二页面的数据;
[0038]使用采集方式采集第二页面的数据,包括:
[0039]获取第二页面的第三源码;
[0040]确定第三源码中,与目标分类标签相匹配的至少一个第三目标文本;
[0041]根据第三源码中记载的交互方式的信息,确定每一第三目标文本对应的第一交互方式;
[0042]确定与第一交互方式对应的采集方式,使用采集方式采集与第二页面的数据。
[0043]在一种可行的设计中,确定与第一交互方式对应的采集方式,使用采集方式采集与第一目标文本对应的网站数据,包括:
[0044]若第一目标文本对应的交互方式包括链接,确定与第一交互方式对应的采集方式为,触发第一目标文本的链接,采集第一目标文本对应的下一页数据;
[0045]使用采集方式采集第一目标文本对应的下一页数据。
[0046]第二方面,提供了一种网站数据采集装置,包括:
[0047]源码获取模块,用于获取目标网站的第一页面的第一源码,以及基于数据采集需求所确定的目标分类标签;
[0048]目标文本确定模块,用于确定第一源码中,与目标分类标签相匹配的至少一个第一目标文本;
[0049]交互方式确定模块,用于根据第一源码中记载的交互方式的信息,确定每一第一目标文本对应的第一交互方式;
[0050]数据采集模块,用于确定与第一交互方式对应的采集方式;
[0051]数据采集模块,还用于使用采集方式,采集与第一目标文本对应的网站数据。
[0052]本申请实施例中,由于目标分类标签是基于数据采集需求所确定的,因此,从第一源码中确定的,与所述目标分类标签相匹配的至少一个第一目标文本,同样符合数据采集需求。根据第一源码中记载的交互方式的信息,确定每一第一目标文本对应的第一交互方式;进而确定与第一交互方式对应的采集方式,然后使用采集方式采集的与第一目标文本对应的网站数据,也符合数据采集需求。同时,由于本申请实施例能够根据第一源码记载的交互方式的信息,识别出第一目标文本对应的第一交互方式。因此,在本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种网站数据采集方法,其特征在于,包括:获取目标网站的第一页面的第一源码,以及基于数据采集需求所确定的目标分类标签;确定所述第一源码中,与所述目标分类标签相匹配的至少一个第一目标文本;根据所述第一源码中记载的交互方式的信息,确定每一所述第一目标文本对应的第一交互方式;确定与所述第一交互方式对应的采集方式,使用所述采集方式采集与所述第一目标文本对应的网站数据。2.根据权利要求1所述的方法,其特征在于,所述确定所述第一源码中,与所述目标分类标签相匹配的至少一个第一目标文本,包括:确定所述第一源码中符合预设条件的至少一个待匹配文本;将所述至少一个待匹配文本与所述目标分类标签进行匹配,以获取与所述目标分类标签相匹配的至少一个第一目标文本。3.根据权利要求2所述的方法,其特征在于,所述将所述至少一个待匹配文本与所述目标分类标签进行匹配,以获取与所述目标分类标签相匹配的至少一个第一目标文本,包括:向神经网络模型输入所述至少一个待匹配文本和所述目标分类标签;通过所述神经网络模型,获取所述至少一个待匹配文本中每一所述待匹配文本对应的分类标签;通过所述神经网络模型,将所述目标分类标签和每一所述待匹配文本对应的分类标签进行匹配,以获取与所述目标分类标签相匹配的至少一个第一目标文本。4.根据权利要求3所述的方法,其特征在于,在向神经网络模型输入所述至少一个待匹配文本和所述目标分类标签之前,所述方法还包括:获取训练文本的文本表示向量和分类标签矩阵之间的相似度向量,所述分类标签矩阵包括至少一个标签向量,每一所述标签向量对应一个分类标签,所述分类标签矩阵对应的分类标签包括所述目标分类标签;根据所述训练文本对应的分类标签和所述相似度向量,确定第一损失函数;对所述文本表示向量进行线性映射,得到所述训练文本的对抗向量;根据所述训练文本对应的分类标签和所述对抗向量,确定第二损失函数;根据所述第一损失函数和所述第二损失函数,确定所述神经网络模型的总损失函数;根据所述总损失函数和所述训练文本训练所述神经网络模型。5.根据权利要求1

4中任一项所述的方法,其特征在于,所述根据所述第一源码中记载的交互方式的信息,确定每一所述第一目标文本对应的第一交互方式,包括:根据所述第一源码中记载的每一所述第一目标文本对应的标识,确定每一所述第一目标文本对应的第一交互方式。6.根据权利要求1

4中任一项所述的方法,其特征在于,所述确定与所述第一交互方式对应的采集方式,使用所述采集方式采集与所述第一目标文本对应的网站数据,包括:若所述第一目...

【专利技术属性】
技术研发人员:穆晶晶张志一李健铨任宁吴相博李西臣杨蕊胡加明
申请(专利权)人:鼎富智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1