标的物参数信息抽取方法、装置、存储介质及电子设备制造方法及图纸

技术编号:30641017 阅读:6 留言:0更新日期:2021-11-04 00:36
本申请涉及计算机科学技术领域,具体涉及一种标的物参数信息抽取方法、装置、存储介质及电子设备,包括:接收招标文件,并对所述招标文件进行预处理,得到PDF格式的招标文件;对所述PDF格式的招标文件进行结构化处理,得到结构化的招标文件;构建正则规则对所述结构化的招标文件中的目标标的物的参数信息进行信息抽取;根据信息抽取过程中的中间信息建立抽取报告,得到抽取结果。本申请能够利用自然语言处理领域的技术实现对招标文本的结构化处理,同时自动高效抽取指定标的物的参数信息,节省大量人力、物力,为后续招标标准文件的编制以及其他数据分析提供了坚实的基础。及其他数据分析提供了坚实的基础。及其他数据分析提供了坚实的基础。

【技术实现步骤摘要】
标的物参数信息抽取方法、装置、存储介质及电子设备


[0001]本申请涉及计算机科学
,特别地涉及一种标的物参数信息抽取方法、装置、存储介质及电子设备。

技术介绍

[0002]招投标业务是企业进行项目管理的一项重要工作,并且标书具有相对规范化的书写要求和文本内容,在以往的招标工作中,招标文件的标的物的参数信息提取均靠人工进行抽取,需要花费大量人工及时间,耗时耗力,效率低下。
[0003]目前,用于招标文件的标的物参数信息提取的方法,主要应用两种文本自动生成的技术实现,分别是自动文摘技术和文本自动生成技术。自动文摘技术主要才是采取抽取式自动文摘方法,然后在考虑句子之间的合理指代以及连贯性和可读性。文本的自动生成技术又可分为基于规划的生成技术、基于规则的模板生成、技术深度学习的生成技术。
[0004]虽然现有的招标文件的标的物参数信息提取的方法可以完成招标文件作为文本的一种的自动生成,但是由于不考虑核心的参数诸如标的物等信息的自动生成,导致在投标文件可用性差。其次自动文摘技术的连续性和段落之间的关系,也没有考虑投标文件的信息重要性的排列顺序等等特性,而且在生成的时候,特定的参数信息会有遗漏。

技术实现思路

[0005]针对上述问题,本申请提供一种标的物参数信息抽取方法、装置、存储介质及电子设备,解决了相关技术中提取标的物参数信息的能力较差,甚至会遗漏参数信息的技术问题。
[0006]第一方面,本申请提供了一种标的物参数信息抽取方法,所述方法包括:
[0007]接收招标文件,并对所述招标文件进行预处理,得到PDF格式的招标文件;
[0008]对所述PDF格式的招标文件进行结构化处理,得到结构化的招标文件;
[0009]构建正则规则对所述结构化的招标文件中的目标标的物的参数信息进行信息抽取;
[0010]根据信息抽取过程中的中间信息建立抽取报告,得到抽取结果。
[0011]在一些实施例中,所述对所述PDF格式的招标文件进行结构化处理,得到结构化的招标文件,包括:
[0012]采用pypdf2提取PDF格式的招标文件中的书签信息;
[0013]构建正则规则对所述书签信息中的书签名称进行正则匹配,得到章节书签信息,所述章节书签信息包括各个章节的书签名称和位置;
[0014]根据所述章节书签信息对所述PDF格式的招标文件进行划分,得到招标文件中的各个章节内容;
[0015]构建正则规则对所述各个章节内容进行划分,得到每个章节内容中的各个小节的小节信息,所述小节信息包括各个小节的小节名称和位置。
[0016]在一些实施例中,所述根据所述章节书签信息对所述PDF格式的招标文件进行划分,分别得到招标文件中的各个章节内容,包括:
[0017]根据所述各个章节的书签名称构建正则规则定位各个章节,并根据各个章节的位置划分所述招标文件,得到各个章节对应的章节文件;
[0018]采用pdfplumber识别每个章节文件,得到章节文本;
[0019]采用自然语言处理技术对所述章节文本进行清洗,得到清洗后的章节文本;
[0020]将所述清洗后的章节文本以txt格式进行存储。
[0021]在一些实施例中,所述采用预设正则规则对所述结构化的招标文件中的目标标的物的参数信息进行信息抽取,包括:
[0022]构建正则规则定位目标标的物的参数信息在所述招标文件中所在的章节;
[0023]构建正则规则,在所述章节中定位目标标的物的参数信息在所述招标文件中所在的小节;
[0024]构建正则规则,将所述小节划分为多个标包,得到包含所述小节内容的各个标包;
[0025]对所述各个标包进行筛选,得到目标标的物所属的标包;
[0026]构建正则规则,定位目标标的物的参数信息在所述目标标的物所属的标包的小节内容中的定位位置;
[0027]从所述定位位置为起始,逐行进行参数识别,提取出与所述参数信息相对应的参数类型、参数名称和参数值;
[0028]将所述参数类型、参数名成和参数值,与所述参数类型、参数名成和参数值所属的招标文件名以键值对的格式一起存为python字典类型数据;
[0029]将所述python字典类型数据存储为json文件。
[0030]在一些实施例中,所述对所述各个标包进行筛选,得到目标标的物所属的标包,包括:
[0031]通过检测标包中的小节内容开头是否包含所述目标标的物的名称来判断当前标包是否为所述目标标的物所属的标包。
[0032]在一些实施例中,所述从所述定位位置为起始,逐行进行参数识别,提取出与所述参数信息相对应的参数类型、参数名称和参数值,包括:
[0033]构建正则规则,判断当前行文本是否为一级标题,若是,则得到当前行文本的参数类型,并修改当前行文本的参数类型为清洗掉标题后的文本内容;
[0034]若否,则构建正则规则,判断当前行文本是否为二级标题且包含“参数名称:参数值”格式的文本,若是,则构建正则规则提取出参数名称和参数值,与当前行文本的参数类型作为一条参数项存为python字典类型数据;
[0035]若否,则构建正则规则,判断当前行文本是否为二级标题,若是,则将当前行文本的整行文本当作参数名称,将参数值置空,并保存当前参数项;
[0036]若否,则判断当前行文本是否为三级标题,若是,则将当前行文本清洗掉标题后加入上一条参数项的参数值中;
[0037]若否,则将当前行文本加入到上一条参数项的参数值中;
[0038]切换到下一行行文本,重复上述步骤,直至识别完当前标包内的所有小节内容。
[0039]在一些实施例中,所述中间信息,包括:
[0040]招标文件数量,从招标文件中识别出的标包数量,通过筛选得到的目标标的物的标包数量,是否成功定位到参数信息,以及提取出的参数信息的项数。
[0041]第二方面,一种标的物参数信息抽取装置,所述装置包括:
[0042]预处理单元,用于接收招标文件,并对所述招标文件进行预处理,得到PDF格式的招标文件;
[0043]结构化单元,用于对所述PDF格式的招标文件进行结构化处理,得到结构化的招标文件;
[0044]抽取单元,用于构建正则规则对所述结构化的招标文件中的目标标的物的参数信息进行信息抽取;
[0045]建立单元,用于根据信息抽取过程中的中间信息建立抽取报告,得到抽取结果。
[0046]第三方面,一种存储介质,该存储介质存储的计算机程序,可被一个或多个处理器执行,可用来实现如上述第一方面所述的标的物参数信息抽取方法。
[0047]第四方面,一种电子设备,包括存储器和处理器,所述存储器上存储有计算机程序,所述存储器和所述处理器之间互相通信连接,该计算机程序被所述处理器执行时,执行如上述第一方面所述的标的物参数信息抽取方法。
[0048]本申请提供的一种标的物参数信息抽本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种标的物参数信息抽取方法,其特征在于,所述方法包括:接收招标文件,并对所述招标文件进行预处理,得到PDF格式的招标文件;对所述PDF格式的招标文件进行结构化处理,得到结构化的招标文件;构建正则规则对所述结构化的招标文件中的目标标的物的参数信息进行信息抽取;根据信息抽取过程中的中间信息建立抽取报告,得到抽取结果。2.根据权利要求1所述的方法,其特征在于,所述对所述PDF格式的招标文件进行结构化处理,得到结构化的招标文件,包括:采用pypdf2提取PDF格式的招标文件中的书签信息;构建正则规则对所述书签信息中的书签名称进行正则匹配,得到章节书签信息,所述章节书签信息包括各个章节的书签名称和位置;根据所述章节书签信息对所述PDF格式的招标文件进行划分,得到招标文件中的各个章节内容;构建正则规则对所述各个章节内容进行划分,得到每个章节内容中的各个小节的小节信息,所述小节信息包括各个小节的小节名称和位置。3.根据权利要求2所述的方法,其特征在于,所述根据所述章节书签信息对所述PDF格式的招标文件进行划分,分别得到招标文件中的各个章节内容,包括:根据所述各个章节的书签名称构建正则规则定位各个章节,并根据各个章节的位置划分所述招标文件,得到各个章节对应的章节文件;采用pdfplumber识别每个章节文件,得到章节文本;采用自然语言处理技术对所述章节文本进行清洗,得到清洗后的章节文本;将所述清洗后的章节文本以txt格式进行存储。4.根据权利要求2所述的方法,其特征在于,所述采用预设正则规则对所述结构化的招标文件中的目标标的物的参数信息进行信息抽取,包括:构建正则规则定位目标标的物的参数信息在所述招标文件中所在的章节;构建正则规则,在所述章节中定位目标标的物的参数信息在所述招标文件中所在的小节;构建正则规则,将所述小节划分为多个标包,得到包含所述小节内容的各个标包;对所述各个标包进行筛选,得到目标标的物所属的标包;构建正则规则,定位目标标的物的参数信息在所述目标标的物所属的标包的小节内容中的定位位置;从所述定位位置为起始,逐行进行参数识别,提取出与所述参数信息相对应的参数类型、参数名称和参数值;将所述参数类型、参数名成和参数值,与所述参数类型、参数名成和参数值所属的招标文件名以键值对的格式一起存为python字典类型数据;将所述python字典类型数据存储为json文...

【专利技术属性】
技术研发人员:付建卓李海华詹传鑫邰世康韩春雨
申请(专利权)人:中国神华国际工程有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1