一种公告信息采集方法、装置、设备、介质及产品制造方法及图纸

技术编号:33889851 阅读:25 留言:0更新日期:2022-06-22 17:24
本发明专利技术实施例涉及计算机技术领域,尤其涉及一种公告信息采集方法、装置、设备、介质及产品。该方法包括:接收查询参数列表,其中,所述查询参数列表包括:目标网站的标识信息、所述目标网站的登录信息、目标关键字以及待采集字段;根据所述目标网站的标识信息、所述目标网站的登录信息以及所述目标关键字获取所述目标关键字对应的目标公告;根据所述待采集字段从所述目标公告中抓取所述待采集字段对应的目标公告信息,通过本发明专利技术的技术方案,能够自动采集多个网站中的公告信息,降低人力成本,提高采集效率。提高采集效率。提高采集效率。

【技术实现步骤摘要】
一种公告信息采集方法、装置、设备、介质及产品


[0001]本专利技术实施例涉及计算机
,尤其涉及一种公告信息采集方法、装置、设备、介质及产品。

技术介绍

[0002]在企业的采购招标管理活动中,需经常对外部招标信息做汇总整理,为招标决策做数据支持。
[0003]目前国内的招投标公告分布在不同的网址中,因此采集公告信息的方法有两种,一种是人工采集数据,一种是采用网络爬虫方式采集数据。
[0004]人工采集数据需要业务人员频繁切换网站,对发布的招标公告进行人工的肉眼查询和对比,从查询结果中识别目标公告,复制关键信息,整理招标公告信息,形成信息汇总材料作为招投标决策数据支撑。但由于公告信息众多,发布时间不一,需人工频繁登录网址查询,耗时耗力,效率低下。
[0005]通过网络爬虫方式采集数据:会对网站造成一定的访问流量压力。且由于各类的反爬虫机制的出现,使用网络爬虫方式来抓取公告信息就变得不太稳定。

技术实现思路

[0006]本专利技术实施例提供一种公告信息采集方法、装置、设备、介质及产品,既解决了人工采集本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种公告信息采集方法,其特征在于,包括:接收查询参数列表,其中,所述查询参数列表包括:目标网站的标识信息、所述目标网站的登录信息、目标关键字以及待采集字段;根据所述目标网站的标识信息、所述目标网站的登录信息以及所述目标关键字获取所述目标关键字对应的目标公告;根据所述待采集字段从所述目标公告中抓取所述待采集字段对应的目标公告信息。2.根据权利要求1所述的方法,其特征在于,根据所述目标网站的标识信息、所述目标网站的登录信息以及所述目标关键字获取所述目标关键字对应的目标公告包括:获取预存网站集合和预存字段集合;若所述预存网站集合中存在和所述目标网站的标识信息相同的网站,且所述预存字段集合中存在和所述待采集字段相同的字段,则根据所述目标网站的标识信息、所述目标网站的登录信息以及所述目标关键字获取所述目标关键字对应的目标公告。3.根据权利要求2所述的方法,其特征在于,根据所述目标网站的标识信息、所述目标网站的登录信息以及所述目标关键字获取所述目标关键字对应的目标公告,包括:根据所述目标网站的标识信息和所述目标网站的登录信息登录所述目标网站;根据所述目标关键字和所述目标网站的标识信息查询所述目标网站,得到所述目标关键字对应的目标公告。4.根据权利要求3所述的方法,其特征在于,所述目标网站的登录信息包括:所述目标网站的账号和所述目标网站的密码。5.根据权利要求4所述的方法,其特征在于,根据所述目标网站的标识信息和所述目标网站的登录信息登录所述目标网站,包括:根据所述目标网站的标识信息查询所述预存网站集合,得到所述目标网站的标识信息对应的位置信息集合,其中,所述位置信息集合包括:账号框位置信息、密码框位置信息以及登录控件位置信息;根据所述账号框位置信息将所述目标网站的账号插入账号框;根据所述密码框位置信息将所述目标网站的密码插入密码框;根据所述登录控件位置信息、所述目标网站的账号以及所述目标网站的密码登录所述目标网站。6.根据权利要求5所述的方法,其特征在于,所述位置信息集合还包括:查询框位置信息。7.根据权利要求6所述的方法,其特征在于,根据所述目标关键字和所述目标网站的标识信息查询所述目标网站,得到所述目标关键字对应的目标公告,包括:根据所述查询框位置信息将所述目标关键字插入查询框,得到所述目标关键字对应的目标公告。8.根据权利要求1所述的方法,其特征在于,根据所述待采集字段从所述目标公告中抓取所述待采集字段对应的目标公告信息,包括:...

【专利技术属性】
技术研发人员:胡雪惠林震宇徐立宇林晨陈艺辉王金哲陈佳雯廖婉蓉张晓丹林晓东陈建斌
申请(专利权)人:中国建设银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1