招投标信息的采集方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:36811556 阅读:14 留言:0更新日期:2023-03-09 00:47
本发明专利技术提供的招投标信息的采集方法、装置、计算机设备及存储介质,所述方法包括:根据目标页面对招投标信息的展示类型,建立相对应的数据采集模型;其中,所述展示类型包括文本型、表格型和PDF型;通过数据采集模型定时从目标网页中获取与采集参数相匹配的初始数据集,所述采集参数包括时间、招标公告或中标公告的一种或任意种的组合;根据关键字对照表,对所述初始数据集进行解析得到预处理数据集;对所述预处理数据集进行数据清洗,得到目标招投标信息。本发明专利技术通过对网站页面的招投标信息进行自动采集和自动清洗整理,从而可以及时得到全面且有效的标准化招投标信息,提高了采集的效率和准确性。率和准确性。率和准确性。

【技术实现步骤摘要】
招投标信息的采集方法、装置、计算机设备及存储介质


[0001]本专利技术涉及计算机
,具体涉及一种招投标信息的采集方法、装置、计算机设备及存储介质。

技术介绍

[0002]各行各业的招投标信息分散在各个网站平台,企业为了发现商机,会经常性查询搜索各平台网站招投标信息,查找符合自身企业需要的招投标信息,这项工作非常繁琐,耗费大量人工,并容易错漏,查询出来的数据散乱和滞后,不能及时获取市场可能存在的商机信息,从而导致很难看全商机、看全市场以及不利于分析市场行情走势。
[0003]可见,现有技术中招投标信息的采集方法存在采集效率低和采集数据不全面的问题。

技术实现思路

[0004]针对现有技术中所存在的不足,本专利技术提供的招投标信息的采集方法、装置、计算机设备及存储介质,其解决了现有技术中招投标信息的采集方法存在采集效率低和采集数据不全面的问题,通过对网站页面的招投标信息进行自动采集和自动清洗整理,从而可以及时得到全面且有效的标准化招投标信息,提高了采集的效率和准确性。
[0005]第一方面,本专利技术提供一种招投标信息的采集方法,所述方法包括:根据目标页面对招投标信息的展示类型,建立相对应的数据采集模型;其中,所述展示类型包括文本型、表格型和PDF型;通过数据采集模型定时从目标网页中获取与采集参数相匹配的初始数据集,所述采集参数包括时间、招标公告或中标公告的一种或任意种的组合;根据关键字对照表,对所述初始数据集进行解析得到预处理数据集;对所述预处理数据集进行数据清洗,得到目标招投标信息。
[0006]可选地,根据关键字对照表,对所述初始数据集进行解析得到预处理数据集,包括:根据关键字对照表中每个关键字对应的每个相似性标签,对所述预处理数据集进行定位解析,并用关键字替换相对应的相似性标签,得到替换数据集;根据数据拆分规则对所述替换数据集进行信息拆分,得到所述拆分数据集;对所述拆分数据集中的每条数据进行公告类型、所属行业和所属区域分类,得到所述预处理数据集。
[0007]可选地,对所述预处理数据集进行数据清洗,得到目标招投标信息,包括:根据无效数据规则对所述预处理数据集中的公告类型和项目名称进行关键字扫描,清洗去除无效数据,得到第一清洗数据集;根据重复数据规则对所述第一清洗数据集进行重复数据清洗,得到第二清洗数据集;根据数据补全规则对所述第二清洗数据集进行缺失数据补全,得到所述目标招投标信息。
[0008]可选地,在对所述预处理数据集进行数据清洗,得到目标招投标信息之后,所述方法还包括:根据目标招投标信息中的所属行业、所属区域或所属项目,将所述目标招投标信息与相对应的对标单位进行匹配,并将所述目标招投标信息推送到相对应的对标单位。
[0009]可选地,通过数据采集模型定时从目标网页中获取与采集参数相匹配的初始数据集,包括:所述数据采集模型从URL列表中获取当前待采集的URL链接;根据所述URL链接和采集参数生成数据采集请求,并将所述数据采集请求发送到相对应的服务器,使服务器根据所述数据采集请求发送HTML页面;对所述HTML页面进行解析,获取所述初始数据集。
[0010]第二方面,本专利技术提供一种招投标信息的采集装置,所述装置包括:数据采集模型建立模块,用于根据目标页面对招投标信息的展示类型,建立相对应的数据采集模型;其中,所述展示类型包括文本型、表格型和PDF型;数据采集模块,用于通过数据采集模型定时从目标网页中获取与采集参数相匹配的初始数据集,所述采集参数包括时间、招标公告或中标公告的一种或任意种的组合;数据解析模块,用于根据关键字对照表,对所述初始数据集进行解析得到预处理数据集;数据清洗模块,用于对所述预处理数据集进行数据清洗,得到目标招投标信息。
[0011]可选地,所述数据解析模块包括:定位解析模块,用于根据关键字对照表中每个关键字对应的每个相似性标签,对所述预处理数据集进行定位解析,并用关键字替换相对应的相似性标签,得到替换数据集;信息拆分模块,用于根据数据拆分规则对所述替换数据集进行信息拆分,得到所述拆分数据集;数据分类模块,用于对所述拆分数据集中的每条数据进行公告类型、所属行业和所属区域分类,得到所述预处理数据集。
[0012]可选地,所述数据清洗模块包括:无效数据清洗模块,用于根据无效数据规则对所述预处理数据集中的公告类型和项目名称进行关键字扫描,清洗去除无效数据,得到第一清洗数据集;重复数据清洗模块,用于根据重复数据规则对所述第一清洗数据集进行重复数据清洗,得到第二清洗数据集;数据补全模块,用于根据数据补全规则对所述第二清洗数据集进行缺失数据补全,得到所述目标招投标信息。
[0013]第三方面,本专利技术提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以下步骤:根据目标页面对招投标信息的展示类型,建立相对应的数据采集模型;其中,所述展示类型包括文本型、表格型和PDF型;通过数据采集模型定时从目标网页中获取与采集参数相匹配的初始数据集,所述采集参数包括时间、招标公告或中标公告的一种或任意种的组合;根据关键字对照表,对所述初始数据集进行解析得到预处理数据集;对所述预处理数据集进行数据清洗,得到目标招投标信息。
[0014]第四方面,本专利技术提供一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:根据目标页面对招投标信息的展示类型,建立相对应的数据采集模型;其中,所述展示类型包括文本型、表格型和PDF型;通过数据采集模型定时从目标网页中获取与采集参数相匹配的初始数据集,所述采集参数包括时间、招标公告或中标公告的一种或任意种的组合;根据关键字对照表,对所述初始数据集进行解析得到预处理数据集;对所述预处理数据集进行数据清洗,得到目标招投标信息。
[0015]相比于现有技术,本专利技术具有如下有益效果:
[0016]本专利技术通过网站页面对招投标信息的展示类型建立不同的数据采集模型,使不同的采集模型定时对不同的网站进行招投标信息的采集,提高了招投标信息的数据采集范围和时效性;进一步地,本专利技术通过对数据采集模型采集到的初始数据集依次进行数据解析和清洗,可以得到全面且有效的标准化招投标信息,为看全市场、看全客户以及公司的经营
决策提供有效的数据支撑;因此,本专利技术对网站页面的招投标信息进行自动采集和自动清洗整理,从而可以及时得到全面且有效的标准化招投标信息,提高了采集的效率和准确性。
附图说明
[0017]图1所示为本专利技术实施例提供的一种招投标信息的采集方法的流程示意图;
[0018]图2所示为本专利技术实施例提供的一种招投标信息的采集方法的结构框图。
具体实施方式
[0019]为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种招投标信息的采集方法,其特征在于,所述方法包括:根据目标页面对招投标信息的展示类型,建立相对应的数据采集模型;其中,所述展示类型包括文本型、表格型和PDF型;通过数据采集模型定时从目标网页中获取与采集参数相匹配的初始数据集,所述采集参数包括时间、招标公告或中标公告的一种或任意种的组合;根据关键字对照表,对所述初始数据集进行解析得到预处理数据集;对所述预处理数据集进行数据清洗,得到目标招投标信息。2.如权利要求1所述的招投标信息的采集方法,其特征在于,根据关键字对照表,对所述初始数据集进行解析得到预处理数据集,包括:根据关键字对照表中每个关键字对应的每个相似性标签,对所述预处理数据集进行定位解析,并用关键字替换相对应的相似性标签,得到替换数据集;根据数据拆分规则对所述替换数据集进行信息拆分,得到所述拆分数据集;对所述拆分数据集中的每条数据进行公告类型、所属行业和所属区域分类,得到所述预处理数据集。3.如权利要求2所述的招投标信息的采集方法,其特征在于,对所述预处理数据集进行数据清洗,得到目标招投标信息,包括:根据无效数据规则对所述预处理数据集中的公告类型和项目名称进行关键字扫描,清洗去除无效数据,得到第一清洗数据集;根据重复数据规则对所述第一清洗数据集进行重复数据清洗,得到第二清洗数据集;根据数据补全规则对所述第二清洗数据集进行缺失数据补全,得到所述目标招投标信息。4.如权利要求1所述的招投标信息的采集方法,其特征在于,在对所述预处理数据集进行数据清洗,得到目标招投标信息之后,所述方法还包括:根据目标招投标信息中的所属行业、所属区域或所属项目,将所述目标招投标信息与相对应的对标单位进行匹配,并将所述目标招投标信息推送到相对应的对标单位。5.如权利要求1所述的招投标信息的采集方法,其特征在于,通过数据采集模型定时从目标网页中获取与采集参数相匹配的初始数据集,包括:所述数据采集模型从URL列表中获取当前待采集的URL链接;根据所述URL链接和采集参数生成数据采集请求,并将所述数据采集请求发送到相对...

【专利技术属性】
技术研发人员:余超文杰朱端武魏进汤泽军张浩蒋志宏任正建龙成杰王柏川邓涛吉弦陈清丽
申请(专利权)人:重庆市通信产业服务有限公司中冉信息分公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1