确定网站更新信息的方法、装置、设备和存储介质制造方法及图纸

技术编号:28059583 阅读:20 留言:0更新日期:2021-04-14 13:35
公开了一种确定网站更新信息的方法,涉及深度学习领域,具体的,涉及网络信息采集领域。该方法包括:抓取目标网站的多个网页,多个网页包括列表页和内容页;从抓取的多个网页中识别列表页以及与所识别的列表页关联的内容页;针对每个识别的列表页,确定与所识别的列表页关联的内容页的地址的正则表达式;以及根据正则表达式来确定与所识别的列表页关联的内容页的更新。本公开还公开了一种确定网站更新信息的装置、设备、存储介质和计算机程序产品。存储介质和计算机程序产品。存储介质和计算机程序产品。

【技术实现步骤摘要】
确定网站更新信息的方法、装置、设备和存储介质


[0001]本公开涉及深度学习领域,具体的,涉及网络信息采集领域,更具体的,涉及一种确定网站更新信息的方法、装置、设备、存储介质和一种计算机程序产品。

技术介绍

[0002]随着互联网技术的发展,越来越多的企业和职能部门通过网站来发布各种信息。为了及时获取这些信息,需要对网站的更新进行实时监控。可以通过人工的方式对网站的网页进行筛选,但需要耗费较高的人力成本,且容易遗漏链接层级较深的网页。也可以针对网站的类型、样式等设计定制化的自动监控程序进行筛选,但这种方式不易扩展且筛选准确率较低。

技术实现思路

[0003]有鉴于此,本公开提供了一种确定网站更新信息的方法、装置、设备、存储介质和计算机程序产品。
[0004]根据第一方面,提供了一种确定网站更新信息的方法,包括:
[0005]抓取目标网站的多个网页,所述多个网页包括列表页和内容页;
[0006]从抓取的多个网页中识别列表页以及与所识别的列表页关联的内容页;
[0007]针对每个识别的列表页,确定与所识别的列表页关联的内容页的地址的正则表达式;以及
[0008]根据所述正则表达式来确定与所识别的列表页关联的内容页的更新。
[0009]根据第二方面,还提供了一种确定网站更新信息的装置,包括:
[0010]抓取模块,配置为抓取目标网站的多个网页,所述多个网页包括列表页和内容页;
[0011]识别模块,配置为从抓取的多个网页中识别列表页以及与所识别的列表页关联的内容页;
[0012]表达式确定模块,配置为针对每个识别的列表页,确定与所识别的列表页关联的内容页的地址的正则表达式;以及
[0013]更新确定模块,配置为根据所述正则表达式来确定与所识别的列表页关联的内容页的更新。
[0014]根据第三方面,还提供了一种电子设备,包括:
[0015]至少一个处理器;以及
[0016]与所述至少一个处理器通信连接的存储器;其中,
[0017]所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行根据第一方面所述的方法。
[0018]根据第四方面,还提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据第一方面所述的方法。
[0019]根据第五方面,还提供了一种计算机程序产品,包括计算机程序,所述计算机程序
在被处理器执行时实现根据第一方面所述的方法。
[0020]根据本公开的实施例,通过识别网页中的列表页以及与所识别的列表页关联的内容页,并确定与所识别的列表页关联的内容页的地址的正则表达式,实现了基于正则表达式的对网站更新信息的实时监控,提高了网页筛选的准确率,有利于准确定位到所需的网页,并且能够实现对链接层级较深的网页的筛选,降低了监控成本。
[0021]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0022]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0023]图1示出了根据本公开的实施例的确定网站更新信息的方法的流程图;
[0024]图2示出了根据本公开的实施例的列表页和内容页的示例;
[0025]图3示出了根据本公开的实施例的从获取目标网站的网址到确定正则表达式的示例过程;
[0026]图4示出了根据本公开的实施例的识别网页所包括的列表页和内容页的示例过程;
[0027]图5示出了根据本公开的另一实施例的确定网站更新信息的装置的框图;以及
[0028]图6示出了可以用来实施本公开的实施例的确定网站更新信息的方法的电子设备的框图。
具体实施方式
[0029]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0030]图1示出了根据本公开的实施例的确定网站更新信息的方法100的流程图。如图1所示,根据本公开实施例的确定网站更新信息的方法100包括以下步骤:
[0031]在步骤S110中,抓取目标网站的多个网页。
[0032]在步骤S120中,从抓取的多个网页中识别列表页以及与所识别的列表页关联的内容页。
[0033]在步骤S130中,针对每个识别的列表页,确定与所识别的列表页关联的内容页的地址的正则表达式。
[0034]在步骤S140中,根据正则表达式来确定与所识别的列表页关联的内容页的更新。
[0035]具体的,在步骤S110中,目标网站可以是为了获取其数据信息而要对其进行监控的指定网站。例如,如果要获取关于企业的行政处罚的相关信息,以对企业进行实时风险告警,则可以将发布行政处罚信息的相关行政部门的门户网站作为目标网站。根据实施例,指定的目标网站可以是一个或多个,如果指定了多个目标网站,则分别从每个目标网站抓取多个网页。
[0036]根据实施例,对目标网站的网页进行全站抓取。例如,可以设置网页的抓取阈值,
并在抓取阈值所指定的范围内对网页进行抓取。在一个实施例中,可以根据链接层级的深度来设置抓取阈值。例如,将抓取阈值设置为5,则可以对链接层级在5级以内的目标网站的网页进行抓取。在另一个实施例中,可以根据要抓取的网页的数量来设置抓取阈值。例如,将抓取阈值设置为500,则可以抓取500个目标网站的网页。
[0037]根据本公开的实施例,能够对目标网站的网页抓取数量和抓取方式进行控制,有利于根据设备的处理能力调整抓取网页的数量,并且有利于获取到链接层级较深的网页,从而避免在网页抓取过程中由于网页的链接层级较深而不能有效抓取的问题。
[0038]此外,本公开实施例对所采用的网页抓取方法不做限定,可以采用任何合适的网页抓取方法。例如,在具体的实施例中,可以调用网络爬虫服务来对网页进行抓取。
[0039]根据实施例,多个网页包括列表页和内容页,在列表页上包括跳转到内容页的地址。在步骤S120中,从抓取的多个网页中识别列表页和内容页,每个目标网站可以包括多个列表页和多个内容页,具体的,如果指定了一个目标网站,则可以获取该目标网站的多个列表页,在每个列表页上可以包括跳转到多个不同内容页的多个地址。如果指定了多个目标网站,则针对多个目标网站中的每个目标网站,对网站所包括的列表页和内容页进行分类识别。根据本公开的实施例,基于海量网页数据建立神经网络模型来对列表页和内容页进行分类,可以显著地提高网页分类的准确率。
[0040]接下来,在步骤S130中,为了实现自动地从识别得到的列本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种确定网站更新信息的方法,包括:抓取目标网站的多个网页,所述多个网页包括列表页和内容页;从抓取的多个网页中识别列表页以及与所识别的列表页关联的内容页;针对每个识别的列表页,确定与所识别的列表页关联的内容页的地址的正则表达式;以及根据所述正则表达式来确定与所识别的列表页关联的内容页的更新。2.根据权利要求1所述的方法,其中,从抓取的多个网页中识别列表页以及与所识别的列表页关联的内容页包括:针对所述多个网页的网页标题进行特征提取,获得第一特征向量;针对所述多个网页的除标题以外的网页其他文本进行特征提取,获得第二特征向量;针对所述多个网页的网页地址进行特征提取,获得第三特征向量;以及利用神经网络模型对所述第一特征向量、所述第二特征向量和所述第三特征向量进行分类处理,从所述多个网页中识别列表页以及与所识别的列表页关联的内容页。3.根据权利要求2所述的方法,其中,针对所述多个网页的网页标题进行特征提取,获得第一特征向量包括:利用词典提取所述网页标题的特征;以及基于Embedding词向量转换将提取的特征转换为所述第一特征向量。4.根据权利要求2所述的方法,其中,针对所述多个网页的除标题以外的网页其他文本进行特征提取,获得第二特征向量包括:以枚举的方式提取除标题以外的网页其他文本的特征,并对提取的特征出现的次数进行统计;以及基于提取的特征和统计的次数形成所述第二特征向量。5.根据权利要求2所述的方法,其中,针对所述多个网页的网页地址进行特征提取,获得第三特征向量包括:提取所述网页地址中的关键字符串;以及基于One

Hot词向量转换将所述关键字符串转换为所述第三特征向量。6.根据权利要求2至5中任一项所述的方法,其中,所述神经网络模型包括第一子模型、第二子模型、第三子模型和第四子模型,所述利用神经网络模型对所述第一特征向量、所述第二特征向量和所述第三特征向量进行分类处理包括:分别使用所述第一子模型、所述第二子模型和所述第三子模型对所述第一特征向量、所述第二特征向量和所述第三特征向量的维度进行调整,以使所述第一特征向量、所述第二特征向量和所述第三特征向量的维度相同;将经调整的所述第一特征向量、所述第二特征向量和所述第三特征向量合并为输入向量矩阵;以及使用第四子模型对所述输入向量矩阵进行分类处理。7.根据权利要求6所述的方法,其中,所述第一子模型包括双向长短记忆网络,所述第二子模型包括全连接神经网络,所述第三子模型包括卷积神经网络,所述第四子模型包括全连接神经网络。8.根据权利要求1所述的方法,其中,确定与所识别的列表页关联的内容页的地址的正
则表达式包括:获取与所识别的列表页关联的内容页的地址的第一集合;通过对所述第一集合中所包括的地址进行聚合,确定所述第一集合中所包括的地址的字符串的公共部分;以及基于所确定的公共部分来确定所述正则表达式。9.根据权利要求1所述的方法,其中,根据所述正则表达式来确定与所识别的列表页关联的内容页的更新包括:基于所述正则表达式,通过爬虫服务周期地爬取所识别的列表页来得到与所识别的列表页关联的内容页的地址的第二集合;以及通过将当前周期爬取得到的第二集合与前一周期爬取得到的第二集合相比较,来确定所述第二集合中新增的内容页。10.根据权利要求1所述的方法,其中,抓取目标网站的多个网页包括:抓取目标网站的在预设的链接层级以内的网页或抓取预设数量的网页。11.一种确定网站更新信息的装置,包括:抓取模块,配置为抓取目标网站的多个网页,所述多个网页包括列表页和内容页;识别模块,配置为从抓取的多个网页中识别列表页以及与所识别的列表页关联的内容页;表达式确定模块,配置为针对每个识别的列表页,确定与所识别的列表页关联的内容页的地址的正则表达式;以及更新确定模块,配置为根据所述正则表达式来确定与所识别的列表页关联的内容页的...

【专利技术属性】
技术研发人员:徐军杨光许海洋王艺
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1