一种招投标信息发布平台挖掘方法、装置、设备及介质制造方法及图纸

技术编号:38107066 阅读:18 留言:0更新日期:2023-07-06 09:29
本申请提供了一种招投标信息发布平台挖掘方法、装置、设备及介质,涉及数据处理技术领域,获取存量站点库;基于所述存量站点库获取栏目地址列表,并采集每个栏目地址的页面,且对每个栏目地址的页面进行解析,获取第一拓展栏目地址;基于所述存量站点库获取网站首页列表,并提取每个网站首页的友情链接,得到友情链接地址清单,且基于所述友情链接地址清单,获取第二拓展栏目地址;获取所述第一拓展栏目地址和所述第二拓展栏目地址相应页面中的文本内容,并判断所述文本内容是否包含招投标信息,以确定出目标拓展栏目地址。从而能够自动从已有招投标发布平台中挖掘出还未收录的标讯发布平台,并且挖掘效率和准确度较高。并且挖掘效率和准确度较高。并且挖掘效率和准确度较高。

【技术实现步骤摘要】
一种招投标信息发布平台挖掘方法、装置、设备及介质


[0001]本申请涉及数据处理
,具体而言,涉及一种招投标信息发布平台挖掘方法、装置、设备及介质。

技术介绍

[0002]招投标是招标投标的简称,招标和投标是一种商品交易行为,是交易过程的两个方面。是在货物、工程和服务的采购行为中,招标人通过事先公布的采购要求,吸引众多的投标人按照同等条件进行平等竞争,按照规定程序并组织技术、经济和法律等方面专家对众多的投标人进行综合评审,从中择优选定项目的中标人的行为过程。对招投标信息进行监控、采集、统计、分析,能够帮助企业实时掌握更有价值的数据,提升市场竞争力。
[0003]目前招投标信息发布平台预计有数万家,随着时间推移数量还会不断持续增涨。而人工收集标讯数据发布平台,并发现标讯平台栏目发生变动,资源成本和时间成本较大。

技术实现思路

[0004]有鉴于此,本申请的目的在于提供一种招投标信息发布平台挖掘方法、装置、设备及介质,能够利用已有资源,挖掘还未收录的招投标发布平台。
[0005]第一方面,本申请实施例提供一种招投标信息发布平台挖掘方法,所述方法包括以下步骤:获取存量站点库,其中,所述存量站点库包括已确定的用于发布招投标信息的网站首页和栏目地址;基于所述存量站点库获取栏目地址列表,并采集每个栏目地址的页面,且对每个栏目地址的页面进行解析,获取第一拓展栏目地址;基于所述存量站点库获取网站首页列表,并提取每个网站首页的友情链接,得到友情链接地址清单,且基于所述友情链接地址清单,获取第二拓展栏目地址;获取所述第一拓展栏目地址和所述第二拓展栏目地址相应页面中的文本内容,并判断所述文本内容是否包含招投标信息;其中,若判断所述文本内容包含招投标信息,将该文本内容对应的第一拓展栏目地址或者第二拓展栏目地址作为目标拓展栏目地址。
[0006]在一些实施例中,所述对每个栏目地址的页面进行解析,获取第一拓展栏目地址,包括以下步骤:针对每个栏目地址分析其页面dom树;基于所述页面dom树提取当前栏目dom节点的兄弟节点,并将其作为第一拓展栏目地址;或/和基于所述页面dom树提取当前栏目dom节点的父节点的同级兄弟节点下的所有子节点作为第一拓展栏目地址。
[0007]在一些实施例中,所述基于所述友情链接地址清单,获取第二拓展栏目地址,包括以下步骤:基于所述友情链接地址清单,采集每个友情链接地址的页面;
针对每个友情链接地址的页面进行解析,获取每个友情链接地址的页面中所有的超级链接,得到超级链接地址清单;基于所述超级链接地址清单,采集每个超级链接地址的页面源码;基于所述页面源码对其相应页面进行解析,并通过预设的特征词进行过滤,得到第二拓展栏目地址。
[0008]在一些实施例中,所述基于所述页面源码对其相应页面进行解析之前,还包括以下步骤:设定优化次数;基于所述页面源码反向获取友情链接地址清单;基于反向获取的友情链接地址清单,采集每个友情链接地址的页面,并针对每个友情链接地址的页面进行解析,获取每个友情链接地址的页面中所有的超级链接,得到优化的超级链接地址清单;基于优化的超级链接地址清单,采集每个超级链接地址的页面源码,并依此,根据设定的优化次数得到对其页面进行解析的页面源码。
[0009]在一些实施例中,所述基于所述页面源码对其相应页面进行解析,并通过预设的特征词进行过滤,得到第二拓展栏目地址,包括以下步骤:设定具有招标属性和投标属性的词组作为特征词;根据所述页面源码对其相应页面进行解析,得到页面标题名称;判断所述页面标题名称是否包含所述特征词;其中,若所述页面标题名称包含任一设定的所述特征词,将该页面标题名称对应的页面地址作为第二拓展栏目地址。
[0010]在一些实施例中,所述获取所述第一拓展栏目地址和所述第二拓展栏目地址相应页面中的文本内容,并判断所述文本内容是否包含招投标信息,包括以下步骤:基于爬虫脚本爬取所述第一拓展栏目地址和所述第二拓展栏目地址相应页面中的文本内容;利用预设的关键词组判断所述文本内容是否包含招投标信息;若所述文本内容包含所述关键词组,将该文本内容对应的第一拓展栏目地址或所述第二拓展栏目地址作为目标拓展栏目地址;其中,若所述文本内容不包含所述关键词组,基于语义分析模型判断所述文本内容是否包含招投标信息,若判断所述文本内容不包含招投标信息,将该文本内容对应的第一拓展栏目地址或者第二拓展栏目地址滤除。
[0011]在一些实施例中,基于招标信息和投标信息的参数类型将所述关键词组分为主关键词组和次关键词组,并通过如下方式利用预设的关键词组判断所述文本内容是否包含招投标信息:若所述文本内容包含所述主关键词组,将该文本内容对应的第一拓展栏目地址或所述第二拓展栏目地址作为目标拓展栏目地址;若所述文本内容不包含所述主关键词组,判断所述文本内容是否包含次关键词组,若所述文本内容包含所述次关键词组,将该文本内容对应的第一拓展栏目地址或所述第二拓展栏目地址作为目标拓展栏目地址;若所述文本内容不包含所述次关键词组,基于语义分析模型判断所述文本内容是
否包含招投标信息。
[0012]第二方面,本申请实施例提供一种招投标信息发布平台挖掘装置,所述装置包括:第一获取模块,用于获取存量站点库,其中,所述存量站点库包括已确定的用于发布招投标信息的网站首页和栏目地址;第二获取模块,用于基于所述存量站点库获取栏目地址列表,并采集每个栏目地址的页面,且对每个栏目地址的页面进行解析,获取第一拓展栏目地址;第三获取模块,用于基于所述存量站点库获取网站首页列表,并提取每个网站首页的友情链接,得到友情链接地址清单,且基于所述友情链接地址清单,获取第二拓展栏目地址;判断模块,用于获取所述第一拓展栏目地址和所述第二拓展栏目地址相应页面中的文本内容,并判断所述文本内容是否包含招投标信息;其中,若判断所述文本内容包含招投标信息,将该文本内容对应的第一拓展栏目地址或者第二拓展栏目地址作为目标拓展栏目地址。
[0013]第三方面,本申请实施例提供的一种电子设备,包括处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行上述第一方面任一项所述的招投标信息发布平台挖掘方法的步骤。
[0014]第四方面,本申请实施例提供的一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述第一方面任一项所述的招投标信息发布平台挖掘方法的步骤。
[0015]本申请所述的一种招投标信息发布平台挖掘方法、装置、电子设备及存储介质,获取存量站点库;基于所述存量站点库获取栏目地址列表,并采集每个栏目地址的页面,且对每个栏目地址的页面进行解析,获取第一拓展栏目地址;基于所述存量站点库获取网站首页列表,并提取每个网站首页的友情链接,得到友情链接地址清单,且基于所述友情链接地址清单,获取第二拓展栏目地址;获取所述第一拓展栏目地址和所述第二拓展栏目地址相应页面中的文本本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种招投标信息发布平台挖掘方法,其特征在于,所述方法包括以下步骤:获取存量站点库,其中,所述存量站点库包括已确定的用于发布招投标信息的网站首页和栏目地址;基于所述存量站点库获取栏目地址列表,并采集每个栏目地址的页面,且对每个栏目地址的页面进行解析,获取第一拓展栏目地址;基于所述存量站点库获取网站首页列表,并提取每个网站首页的友情链接,得到友情链接地址清单,且基于所述友情链接地址清单,获取第二拓展栏目地址;获取所述第一拓展栏目地址和所述第二拓展栏目地址相应页面中的文本内容,并判断所述文本内容是否包含招投标信息;其中,若判断所述文本内容包含招投标信息,将该文本内容对应的第一拓展栏目地址或者第二拓展栏目地址作为目标拓展栏目地址。2.根据权利要求1所述的一种招投标信息发布平台挖掘方法,其特征在于,所述对每个栏目地址的页面进行解析,获取第一拓展栏目地址,包括以下步骤:针对每个栏目地址分析其页面dom树;基于所述页面dom树提取当前栏目dom节点的兄弟节点,并将其作为第一拓展栏目地址;或/和基于所述页面dom树提取当前栏目dom节点的父节点的同级兄弟节点下的所有子节点作为第一拓展栏目地址。3.根据权利要求2所述的一种招投标信息发布平台挖掘方法,其特征在于,所述基于所述友情链接地址清单,获取第二拓展栏目地址,包括以下步骤:基于所述友情链接地址清单,采集每个友情链接地址的页面;针对每个友情链接地址的页面进行解析,获取每个友情链接地址的页面中所有的超级链接,得到超级链接地址清单;基于所述超级链接地址清单,采集每个超级链接地址的页面源码;基于所述页面源码对其相应页面进行解析,并通过预设的特征词进行过滤,得到第二拓展栏目地址。4.根据权利要求3所述的一种招投标信息发布平台挖掘方法,其特征在于,所述基于所述页面源码对其相应页面进行解析之前,还包括以下步骤:设定延伸挖掘次数;基于所述页面源码二次获取友情链接地址清单;基于二次获取的友情链接地址清单,采集每个友情链接地址的页面,并针对每个友情链接地址的页面进行解析,获取每个友情链接地址的页面中所有的超级链接,得到二次挖掘的超级链接地址清单;基于二次挖掘的超级链接地址清单,采集每个超级链接地址的页面源码,并依此,根据设定的延伸挖掘次数得到对其页面进行解析的页面源码。5.根据权利要求4所述的一种招投标信息发布平台挖掘方法,其特征在于,所述基于所述页面源码对其相应页面进行解析,并通过预设的特征词进行过滤,得到第二拓展栏目地址,包括以下步骤:设定具有招标属性和投标属性的词组作为特征词;根据所述页面源码对其相应页面进行解析,得到页面标题名称;判断所述页面标题名称是否包含所述特征词;其中,若所述页面标题名称包含任一设
定的所述特征词,将该页面标题名称对应的页面地址作为第二拓展栏目地址。6.根据权...

【专利技术属性】
技术研发人员:贾新田小亮张金坤
申请(专利权)人:北京拓普丰联信息科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1