【技术实现步骤摘要】
确定网站更新信息的方法、装置、设备和存储介质
[0001]本公开涉及深度学习领域,具体的,涉及网络信息采集领域,更具体的,涉及一种确定网站更新信息的方法、装置、设备、存储介质和一种计算机程序产品。
技术介绍
[0002]随着互联网技术的发展,越来越多的企业和职能部门通过网站来发布各种信息。为了及时获取这些信息,需要对网站的更新进行实时监控。可以通过人工的方式对网站的网页进行筛选,但需要耗费较高的人力成本,且容易遗漏链接层级较深的网页。也可以针对网站的类型、样式等设计定制化的自动监控程序进行筛选,但这种方式不易扩展且筛选准确率较低。
技术实现思路
[0003]有鉴于此,本公开提供了一种确定网站更新信息的方法、装置、设备、存储介质和计算机程序产品。
[0004]根据第一方面,提供了一种确定网站更新信息的方法,包括:
[0005]抓取目标网站的多个网页,所述多个网页包括列表页和内容页;
[0006]从抓取的多个网页中识别列表页以及与所识别的列表页关联的内容页;
[0007]针对每个识别的列表页,确定与所识别的列表页关联的内容页的地址的正则表达式;以及
[0008]根据所述正则表达式来确定与所识别的列表页关联的内容页的更新。
[0009]根据第二方面,还提供了一种确定网站更新信息的装置,包括:
[0010]抓取模块,配置为抓取目标网站的多个网页,所述多个网页包括列表页和内容页;
[0011]识别模块,配置为从抓取的多个网页中识别列表页以及与所识别 ...
【技术保护点】
【技术特征摘要】
1.一种确定网站更新信息的方法,包括:抓取目标网站的多个网页,所述多个网页包括列表页和内容页;从抓取的多个网页中识别列表页以及与所识别的列表页关联的内容页;针对每个识别的列表页,确定与所识别的列表页关联的内容页的地址的正则表达式;以及根据所述正则表达式来确定与所识别的列表页关联的内容页的更新。2.根据权利要求1所述的方法,其中,从抓取的多个网页中识别列表页以及与所识别的列表页关联的内容页包括:针对所述多个网页的网页标题进行特征提取,获得第一特征向量;针对所述多个网页的除标题以外的网页其他文本进行特征提取,获得第二特征向量;针对所述多个网页的网页地址进行特征提取,获得第三特征向量;以及利用神经网络模型对所述第一特征向量、所述第二特征向量和所述第三特征向量进行分类处理,从所述多个网页中识别列表页以及与所识别的列表页关联的内容页。3.根据权利要求2所述的方法,其中,针对所述多个网页的网页标题进行特征提取,获得第一特征向量包括:利用词典提取所述网页标题的特征;以及基于Embedding词向量转换将提取的特征转换为所述第一特征向量。4.根据权利要求2所述的方法,其中,针对所述多个网页的除标题以外的网页其他文本进行特征提取,获得第二特征向量包括:以枚举的方式提取除标题以外的网页其他文本的特征,并对提取的特征出现的次数进行统计;以及基于提取的特征和统计的次数形成所述第二特征向量。5.根据权利要求2所述的方法,其中,针对所述多个网页的网页地址进行特征提取,获得第三特征向量包括:提取所述网页地址中的关键字符串;以及基于One
‑
Hot词向量转换将所述关键字符串转换为所述第三特征向量。6.根据权利要求2至5中任一项所述的方法,其中,所述神经网络模型包括第一子模型、第二子模型、第三子模型和第四子模型,所述利用神经网络模型对所述第一特征向量、所述第二特征向量和所述第三特征向量进行分类处理包括:分别使用所述第一子模型、所述第二子模型和所述第三子模型对所述第一特征向量、所述第二特征向量和所述第三特征向量的维度进行调整,以使所述第一特征向量、所述第二特征向量和所述第三特征向量的维度相同;将经调整的所述第一特征向量、所述第二特征向量和所述第三特征向量合并为输入向量矩阵;以及使用第四子模型对所述输入向量矩阵进行分类处理。7.根据权利要求6所述的方法,其中,所述第一子模型包括双向长短记忆网络,所述第二子模型包括全连接神经网络,所述第三子模型包括卷积神经网络,所述第四子模型包括全连接神经网络。8.根据权利要求1所述的方法,其中,确定与所识别的列表页关联的内容页的地址的正
则表达式包括:获取与所识别的列表页关联的内容页的地址的第一集合;通过对所述第一集合中所包括的地址进行聚合,确定所述第一集合中所包括的地址的字符串的公共部分;以及基于所确定的公共部分来确定所述正则表达式。9.根据权利要求1所述的方法,其中,根据所述正则表达式来确定与所识别的列表页关联的内容页的更新包括:基于所述正则表达式,通过爬虫服务周期地爬取所识别的列表页来得到与所识别的列表页关联的内容页的地址的第二集合;以及通过将当前周期爬取得到的第二集合与前一周期爬取得到的第二集合相比较,来确定所述第二集合中新增的内容页。10.根据权利要求1所述的方法,其中,抓取目标网站的多个网页包括:抓取目标网站的在预设的链接层级以内的网页或抓取预设数量的网页。11.一种确定网站更新信息的装置,包括:抓取模块,配置为抓取目标网站的多个网页,所述多个网页包括列表页和内容页;识别模块,配置为从抓取的多个网页中识别列表页以及与所识别的列表页关联的内容页;表达式确定模块,配置为针对每个识别的列表页,确定与所识别的列表页关联的内容页的地址的正则表达式;以及更新确定模块,配置为根据所述正则表达式来确定与所识别的列表页关联的内容页的...
【专利技术属性】
技术研发人员:徐军,杨光,许海洋,王艺,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。