【技术实现步骤摘要】
开标记录信息的抽取方法、装置、电子设备和存储介质
[0001]本申请涉及开标记录
,尤其是涉及一种开标记录信息的抽取方法、装置、电子设备和存储介质。
技术介绍
[0002]开标记录是指在投标人提交投标文件后,招标人依据招标文件规定的时间和地点,开启投标人提交的投标文件,公开宣布投标人的名称、投标价格及其他主要内容的行为。多种投标方的数据通过数据接口上报或转载时,由于各站点规定的数据格式不同,导致站点之间数据不一致。如此一来,从这些站点获取到的数据就不够准确,不能直接进行保存和上传,需要人工核对,工作量大,并且容易出错。
技术实现思路
[0003]本申请的目的在于提供一种开标记录信息的抽取方法、装置、电子设备和存储介质,提升了开标记录数据抽取的准确性,降低了人工成本。
[0004]第一方面,本专利技术提供一种开标记录信息的抽取方法,方法包括:获取开标记录公告数据;对开标记录公告数据进行预处理,得到目标开标数据;基于预先设置的关键词词库对目标开标数据进行信息抽取处理,得到开标记录信息;其中,开标记录 ...
【技术保护点】
【技术特征摘要】
1.一种开标记录信息的抽取方法,其特征在于,所述方法包括:获取开标记录公告数据;对所述开标记录公告数据进行预处理,得到目标开标数据;基于预先设置的关键词词库对所述目标开标数据进行信息抽取处理,得到开标记录信息;其中,所述开标记录信息用于表征开标记录过程中的关键信息。2.根据权利要求1所述的开标记录信息的抽取方法,其特征在于,对所述开标记录公告数据进行预处理,得到目标开标数据,包括:对所述开标记录公告数据进行格式统一处理,得到目标格式对应的开标数据;其中,所述开标记录公告数据的数据格式至少包括PDF格式、HTML格式和Json格式;对所述目标格式对应的开标数据中所包含的预设字段进行清洗剔除,基于预设的符号保留规则对清洗剔除后的开标数据中的第一符号进行保留处理,并对所述开标数据中的第二符号进行符号格式统一处理,得到目标开标数据。3.根据权利要求2所述的开标记录信息的抽取方法,其特征在于,基于预先设置的关键词词库对所述目标开标数据进行信息抽取处理,得到开标记录信息,包括:确定所述目标开标数据中所包含的数据类型;其中,所述目标开标数据包括文本数据和/或表格数据;对所述目标开标数据的文本数据进行文本第一抽取处理,基于预先设置的关键词词库对所述目标开标数据的表格数据进行第二抽取处理,得到所述开标记录信息。4.根据权利要求3所述的开标记录信息的抽取方法,其特征在于,对所述目标开标数据的文本数据进行文本第一抽取处理,包括:基于预设的标注数据对初始命名实体识别模型进行训练,得到预先训练好的命名实体识别模型;基于所述预先训练好的命名实体识别模型和预设的正则表达式规则对所述目标开标数据中的文本数据进行文本抽取,确定所述目标开标信息;其中,所述目标开标信息至少包括投标单位、投标金额和开标时间中的一种或多种。5.根据权利要求4所述的开标记录信息的抽取方法,其特征在于,基于预先设置的关键词词库对所述目标开标数据的表格数据进行第二...
【专利技术属性】
技术研发人员:陈道会,吴许杰,方必清,
申请(专利权)人:杭州筑龙信息技术股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。