招投标公告中标金额清洗方法技术

技术编号:26532173 阅读:32 留言:0更新日期:2020-12-01 14:14
本发明专利技术公开了一种招投标公告中标金额清洗方法,旨在解决现有获取的中标金额不准确的技术问题。本发明专利技术包括:(1)数据格式转换;(2)获取该中标单位工商登记注册资本;(3)获取该中标单位历史中标项目的中标价;(4)根据工商注册资本、中标单位历史中标项目的中标价进行验证清洗。本发明专利技术的有益技术效果在于:获取数据准确,执行效率高,自动化程度强,减少人工工作强度。

【技术实现步骤摘要】
招投标公告中标金额清洗方法
本专利技术涉及互联网信息、数据处理
,具体涉及一种招投标公告中标金额清洗方法。
技术介绍
随着中国市场化进程的加速,越来越多的企业开始通过采用网络招标的方式,进行货物采购和工程项目招标。招投标信息一般是由采购单位或招标代理机构发布在特定媒体上。随着互联网技术的兴起,这些招标信息会广泛发布在各类网站平台上。招投标信息中包含大量有价值的信息,例如项目名称、采购单位名称、采购单位联系人、采购单位联系方式、项目预算、中标价、中标单位等。其中,中标价是招标信息中最重要的信息之一,但是中标价数据通过数据接口上报或者网络转载时,由于各站点规定的数据格式不同,导致站点之间数据不一致。如此一来,从这些站点获取到的中标价就不够准确,不能直接进行保存和上传,需要人工核对,工作量大,并且容易出错。
技术实现思路
本专利技术提供一种招投标公告中标金额清洗方法,以解决现有的获取中标金额不准确的技术问题。为解决上述技术问题,本专利技术采用如下技术方案:设计一种招投标公告中标金额清洗方法,包括:步骤1:从互联网爬取的招投标公告中提取中标价信息;步骤2:计算机通过文本处理程序将上述中标价信息统一为数字格式;步骤3:计算机通过互联网获取中标单位工商注册资本信息;步骤4:与步骤3同时,计算机查找该中标单位的历史中标价;步骤4:计算机对步骤2中的中标价进行判定,若中标价在中标单位历史最低中标价和最低中标价之间,则判定数据正常,若获取到的中标价超出注册资本至少10倍,则判定数据异常;步骤5:若数据出现异常,则计算机通过文本处理程序对其进行修正,然后返回步骤1直至所有数据判定完毕。优选的,在步骤2中,中标价从文字形式转换为浮点型数字形式。优选的,在步骤2中,统一格式以后的中标价单位为元。优选的,工商注册信息通过互联网公开的工商注册信息接口获取。优选的,历史中标价为经过该方法清洗过的中标价格。优选的,若所述步骤3中没有获取到历史中标价,则步骤4中不使用历史中标价对数据进行判定,仅当获取到的中标价超出注册资本至少10倍时,判定数据异常。优选的,在步骤5中,将异常数据除以10000,其结果作为最终数据。与现有技术相比,本专利技术的主要有益技术效果在于:1.本专利技术利用外部准确或权威数据,包括工商注册信息以及历史中标价作为基准进行数据判定,保证基准数据的高度正确,提高判断数据的准确度。2.本专利技术能够在获取数据的同时对数据进行校验,便于及时发现并处理问题,工作效率高,不再需要另行增加数据校对的步骤,简化操作。3.本专利技术能够自动修改异常数据,通过将数据转换为数字和统一的单位,然后对数字进行运算,不需要人工手动修改,提高效率,较少工作强度。附图说明图1为本专利技术招投标公告中标金额清洗方法流程图。具体实施方式下面结合附图和实施例来说明本专利技术的具体实施方式,但以下实施例只是用来详细说明本专利技术,并不以任何方式限制本专利技术的范围。实施例1:一种招投标公告中标金额清洗方法,参见图1,原始数据为从互联网抽取的招投标信息文本数据,开始进入步骤401。在步骤401中,首先通过NLP(自然语言处理技术)或NER(命名实体识别)或正则表达式将文本中的中标价提取出来并处理成数字,单位为元,然后同时进入步骤402和步骤404中。在步骤402中,从上述待清洗的招标信息中,同样使用NLP(自然语言处理技术)、NER(命名实体识别)或正则表达式提取中标单位的名称,然后根据中标单位名从网上公开的工商注册信息接口获取这些企业注册资本信息文本,接着进入步骤403。在步骤403中,对步骤402获取的注册资本文本信息转换为数字并保存到内存中,单位为元,比如注册资本为“300万元”,转换为“3000000元”。在步骤404中,若之前已经存在清洗过得该单位的中标价,则取出该数据,然后进入步骤405;若没有,则进入步骤406数据验证。在步骤405中,计算该单位历史中标项目的平均中标价、最低中标价、最高中标价并保存到内存中。在步骤406中,根据403和405获取的注册资本和历史中标信息对所有获取的中标金额逐个进行判断,如果获取到的中标价介于该公司最低中标价与最高中标价之间,则判定数据为正常,结束判断过程并输出该数据;如果中标价超出注册资本10倍,则判定该数据为异常数据,进入步骤407进行数据清洗;需要说明的是,上述10倍可以根据往常异常数据的统计结果进行调整,比如统计出的异常数据最小的不足10倍只有5倍,则该参数就设置为5。在步骤407中,由于一篇信息发布以后,通过数据接口上报或转载时,价格单位会出现不一致的情况,有万元、元两种,比如中标价是100000元,结果数据转载时单位是万元,就变成100000万元发布出去,此时,如果获取该数据作为中标金额,其将被步骤406判断为异常的数据,这个数据在经过步骤401的格式转换后变为1000000000元,要经过步骤407除以10000后才可得到正确的中标金额100000元。由于单位由万元到元通常比较明显,比如实际是10万元,结果变成了10元,各站点不会出现这样的错误;因此,步骤407对异常数据的处理就是除以10000,即作为最终中标金额。上面结合附图和实施例对本专利技术作了详细的说明,但是,所属
的技术人员能够理解,在不脱离本专利技术宗旨的前提下,还可以对上述实施例中的各个具体参数进行变更,形成多个具体的实施例,均为本专利技术的常见变化范围,在此不再一一详述。本文档来自技高网
...

【技术保护点】
1.一种招投标公告中标金额清洗方法,其特征在于,包括如下步骤:/n(1)从互联网爬取的招投标公告中提取中标价信息;/n(2)计算机通过文本处理程序将上述中标价信息统一为数字格式;/n(3)计算机通过互联网获取中标单位工商注册资本信息;/n(4)与所述步骤(3)同时,计算机查找该中标单位的历史中标价;/n(5)计算机对所述步骤(2)中的中标价进行判定,若中标价在中标单位历史最低中标价和最低中标价之间,则判定数据正常,若获取到的中标价超出注册资本至少10倍,则判定数据异常;/n(6)若数据出现异常,则计算机通过文本处理程序对其进行修正,然后返回(1)直至所有数据判定完毕。/n

【技术特征摘要】
1.一种招投标公告中标金额清洗方法,其特征在于,包括如下步骤:
(1)从互联网爬取的招投标公告中提取中标价信息;
(2)计算机通过文本处理程序将上述中标价信息统一为数字格式;
(3)计算机通过互联网获取中标单位工商注册资本信息;
(4)与所述步骤(3)同时,计算机查找该中标单位的历史中标价;
(5)计算机对所述步骤(2)中的中标价进行判定,若中标价在中标单位历史最低中标价和最低中标价之间,则判定数据正常,若获取到的中标价超出注册资本至少10倍,则判定数据异常;
(6)若数据出现异常,则计算机通过文本处理程序对其进行修正,然后返回(1)直至所有数据判定完毕。


2.根据权利要求1所述的招投标公告中标金额清洗方法,其特征在于,在所述步骤(2)中,将中标价信息从文字形式转换为浮点型数字形式。


3....

【专利技术属性】
技术研发人员:贾新
申请(专利权)人:河南拓普计算机网络工程有限公司
类型:发明
国别省市:河南;41

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1