开标记录信息的抽取方法、装置、电子设备和存储介质制造方法及图纸

技术编号:36770428 阅读:11 留言:0更新日期:2023-03-08 21:42
本申请提供了一种开标记录信息的抽取方法、装置、电子设备和存储介质,涉及开标记录技术领域,该方法包括:获取开标记录公告数据;对开标记录公告数据进行预处理,得到目标开标数据;基于预先设置的关键词词库对目标开标数据进行信息抽取处理,得到开标记录信息;其中,开标记录信息用于表征开标记录过程中的关键信息。本申请提升了开标记录数据抽取的准确性,降低了人工成本。降低了人工成本。降低了人工成本。

【技术实现步骤摘要】
开标记录信息的抽取方法、装置、电子设备和存储介质


[0001]本申请涉及开标记录
,尤其是涉及一种开标记录信息的抽取方法、装置、电子设备和存储介质。

技术介绍

[0002]开标记录是指在投标人提交投标文件后,招标人依据招标文件规定的时间和地点,开启投标人提交的投标文件,公开宣布投标人的名称、投标价格及其他主要内容的行为。多种投标方的数据通过数据接口上报或转载时,由于各站点规定的数据格式不同,导致站点之间数据不一致。如此一来,从这些站点获取到的数据就不够准确,不能直接进行保存和上传,需要人工核对,工作量大,并且容易出错。

技术实现思路

[0003]本申请的目的在于提供一种开标记录信息的抽取方法、装置、电子设备和存储介质,提升了开标记录数据抽取的准确性,降低了人工成本。
[0004]第一方面,本专利技术提供一种开标记录信息的抽取方法,方法包括:获取开标记录公告数据;对开标记录公告数据进行预处理,得到目标开标数据;基于预先设置的关键词词库对目标开标数据进行信息抽取处理,得到开标记录信息;其中,开标记录信息用于表征开标记录过程中的关键信息。
[0005]在可选的实施方式中,对开标记录公告数据进行预处理,得到目标开标数据,包括:对开标记录公告数据进行格式统一处理,得到目标格式对应的开标数据;其中,开标记录公告数据的数据格式至少包括PDF格式、HTML格式和Json格式;对目标格式对应的开标数据中所包含的预设字段进行清洗剔除,基于预设的符号保留规则对开标数据中的第一符号进行保留处理,并对开标数据中的第二符号进行符号格式统一处理,得到目标开标数据。
[0006]在可选的实施方式中,基于预先设置的关键词词库对目标开标数据进行信息抽取处理,得到开标记录信息,包括:确定目标开标数据中所包含的数据类型;其中,目标开标数据包括文本数据和/或表格数据;对目标开标数据的文本数据进行文本第一抽取处理,基于预先设置的关键词词库对目标开标数据的表格数据进行第二抽取处理,得到开标记录信息。
[0007]在可选的实施方式中,对目标开标数据的文本数据进行文本第一抽取处理,包括:基于预设的标注数据对初始命名实体识别模型进行训练,得到预先训练好的命名实体识别模型;基于预先训练好的命名实体识别模型和预设的正则表达式规则对目标开标数据中的文本数据进行文本抽取,确定目标开标信息;其中,目标开标信息至少包括投标单位、投标金额和开标时间中的一种或多种。
[0008]在可选的实施方式中,基于预先设置的关键词词库对目标开标数据的表格数据进行第二抽取处理,得到开标记录信息,包括:基于预先设置的关键词词库,对表格数据所包含的表头信息进行定位处理;基于表头信息确定目标查找位置,并对目标查找位置所在行
列的文本数据进行文本第一抽取处理,得到开标记录信息;其中,开标记录信息至少包括投标单位、投标金额、投标时间。
[0009]在可选的实施方式中,方法还包括:基于预设的非投标单位关键词词库对开标记录信息中的非投标单位进行清洗处理,得到排除预设过滤数据后的数据信息;预设过滤数据至少包括错误数据和非投标单位数据;对数据信息进行去重处理,得到去重后的开标记录信息;对去重后的开标记录信息进行投标金额、投标单位与投标金额的对应关系以及开标时间进行准确性验证,得到目标开标记录信息。
[0010]在可选的实施方式中,方法还包括:基于正则表达式对目标开标记录信息中的投标金额和投标时间进行处理,得到标准格式的目标开标记录信息。
[0011]第二方面,本专利技术提供一种开标记录信息的抽取装置,装置包括:数据获取模块,用于获取开标记录公告数据;预处理模块,用于对开标记录公告数据进行预处理,得到目标开标数据;抽取处理模块,用于基于预先设置的关键词词库对目标开标数据进行信息抽取处理,得到开标记录信息;其中,开标记录信息用于表征开标记录过程中的关键信息。
[0012]第三方面,本专利技术提供一种电子设备,包括处理器和存储器,存储器存储有能够被处理器执行的计算机可执行指令,处理器执行计算机可执行指令以实现前述实施方式任一项的开标记录信息的抽取方法。
[0013]第四方面,本专利技术提供一种计算机可读存储介质,计算机可读存储介质存储有计算机可执行指令,计算机可执行指令在被处理器调用和执行时,计算机可执行指令促使处理器实现前述实施方式任一项的开标记录信息的抽取方法。
[0014]本申请提供的开标记录信息的抽取方法、装置、电子设备和存储介质,该方法首先获取开标记录公告数据,然后对开标记录公告数据进行预处理,得到目标开标数据,最后对目标开标数据进行信息抽取处理,得到开标记录信息;其中,开标记录信息用于表征开标记录过程中的关键信息。该方法通过基于预先设置的关键词词库对目标开标数据进行抽取处理,可以更加符合数据抽取的标准,从而可以自动对开标记录公告数据进行抽取处理,得到用于表征开标记录过程中的关键信息的开标记录信息,提升了开标记录数据抽取的准确性,降低了人工成本。
附图说明
[0015]为了更清楚地说明本申请具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0016]图1为本申请实施例提供的一种开标记录信息的抽取方法的流程图;
[0017]图2为本申请实施例提供的一种具体的开标记录信息的抽取方法的示意图;
[0018]图3为本申请实施例提供的一种开标记录信息的抽取装置的结构图;
[0019]图4为本申请实施例提供的一种电子设备的结构图。
具体实施方式
[0020]为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例
中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。
[0021]因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0022]应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
[0023]本申请实施例提供了一种开标记录信息的抽取方法,参见图1所示,该方法主要包括以下步骤:
[0024]步骤S102,获取开标记录公告数据。
[0025]开标记录是指在投标人提交投标文件后,招标人依据招标文件规定的时间和地点,开启投标人提交的投标文件,公开宣布投标人的名称、投标价格及其他主要内容的行为。
[0026]开标记录公本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种开标记录信息的抽取方法,其特征在于,所述方法包括:获取开标记录公告数据;对所述开标记录公告数据进行预处理,得到目标开标数据;基于预先设置的关键词词库对所述目标开标数据进行信息抽取处理,得到开标记录信息;其中,所述开标记录信息用于表征开标记录过程中的关键信息。2.根据权利要求1所述的开标记录信息的抽取方法,其特征在于,对所述开标记录公告数据进行预处理,得到目标开标数据,包括:对所述开标记录公告数据进行格式统一处理,得到目标格式对应的开标数据;其中,所述开标记录公告数据的数据格式至少包括PDF格式、HTML格式和Json格式;对所述目标格式对应的开标数据中所包含的预设字段进行清洗剔除,基于预设的符号保留规则对清洗剔除后的开标数据中的第一符号进行保留处理,并对所述开标数据中的第二符号进行符号格式统一处理,得到目标开标数据。3.根据权利要求2所述的开标记录信息的抽取方法,其特征在于,基于预先设置的关键词词库对所述目标开标数据进行信息抽取处理,得到开标记录信息,包括:确定所述目标开标数据中所包含的数据类型;其中,所述目标开标数据包括文本数据和/或表格数据;对所述目标开标数据的文本数据进行文本第一抽取处理,基于预先设置的关键词词库对所述目标开标数据的表格数据进行第二抽取处理,得到所述开标记录信息。4.根据权利要求3所述的开标记录信息的抽取方法,其特征在于,对所述目标开标数据的文本数据进行文本第一抽取处理,包括:基于预设的标注数据对初始命名实体识别模型进行训练,得到预先训练好的命名实体识别模型;基于所述预先训练好的命名实体识别模型和预设的正则表达式规则对所述目标开标数据中的文本数据进行文本抽取,确定所述目标开标信息;其中,所述目标开标信息至少包括投标单位、投标金额和开标时间中的一种或多种。5.根据权利要求4所述的开标记录信息的抽取方法,其特征在于,基于预先设置的关键词词库对所述目标开标数据的表格数据进行第二...

【专利技术属性】
技术研发人员:陈道会吴许杰方必清
申请(专利权)人:杭州筑龙信息技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1