【技术实现步骤摘要】
一种文本信息自动提取方法
本专利技术属于计算机
,涉及一种文本信息自动提取方法,具体涉及一种面向招标文本的标的物参数信息自动提取方法。
技术介绍
随着现在信息技术的智能化、自动化的不断发展,给人们的生活带来了巨大的影响和方便,能自动的把文字转换为图片,又可以将图片转换为文字,越来越智能化了,越来越方便,便捷;但是面向一些具体领域,需要的信息具体特殊性,而现有的技术很难针对性地进行信息提取,例如面向招标文本的标的物参数信息自动提取。招标文件是采购需求的集中体现,招标文件的质量直接决定了招标结果的成败。通过利用过往的招标文件编制招标标准文件,能够统一规范招标行为,提高招标质量,促进管理水平的提升,同时能够提高项目成功率,节约招标文件的编制时间。然而现有招标标准文件均靠人工编制,特别是标的物参数、技术要求等部分,需要很多精通技术的专业人员,耗费大量时间精力去提取信息。目前迫切需要一种针对特殊信息提取的技术。
技术实现思路
为了解决上述技术问题,本专利技术提供了一种文本信息自动提取方法,用于解决招标文本的标的物参数信息自动抽取问题,以替代当前耗时耗力的人工抽取方法。本专利技术所采用的技术方案是:一种文本信息自动提取方法,其特征在于,包括以下步骤:步骤1:对输入文本进行批量预处理,将输入文本转成pdf格式文本;步骤2:对pdf格式文本进行结构化处理;步骤2的具体实现包括以下子步骤:步骤2.1:输入批量pdf格式文本;步骤2.2:利用pyp ...
【技术保护点】
1.一种文本信息自动提取方法,其特征在于,包括以下步骤:/n步骤1:对输入文本进行批量预处理,将输入文本转成pdf格式文本;/n步骤2:对pdf格式文本进行结构化处理;/n步骤2的具体实现包括以下子步骤:/n步骤2.1:输入批量pdf格式文本;/n步骤2.2:利用pypdf2提取pdf格式文本中的书签信息,构建规则对书签名进行正则匹配,得到匹配出的章节书签,保存书签的名称以及页面位置信息;/n其中,根据书签名提取章节书签的规则为:Pattern=“(第.*章|第.*部分)”;/n步骤2.3:基于步骤2.2中取出的章节书签信息对pdf格式文本进行划分,分别得到文件中的各章节文本;/n步骤2.4:基于步骤2.3中获得的各章节文本,构建特定的正则规则对该章节文本进行划分,获取章节中各小节的名称以及位置;/n其中,提取小节的正则规则为:Pattern=“.*第.节.”;/n步骤3:对指定标的物的相关信息进行定位识别及抽取;/n步骤4:利用上述步骤的中间信息建立抽取报告,生成抽取结果。/n
【技术特征摘要】
1.一种文本信息自动提取方法,其特征在于,包括以下步骤:
步骤1:对输入文本进行批量预处理,将输入文本转成pdf格式文本;
步骤2:对pdf格式文本进行结构化处理;
步骤2的具体实现包括以下子步骤:
步骤2.1:输入批量pdf格式文本;
步骤2.2:利用pypdf2提取pdf格式文本中的书签信息,构建规则对书签名进行正则匹配,得到匹配出的章节书签,保存书签的名称以及页面位置信息;
其中,根据书签名提取章节书签的规则为:Pattern=“(第.*章|第.*部分)”;
步骤2.3:基于步骤2.2中取出的章节书签信息对pdf格式文本进行划分,分别得到文件中的各章节文本;
步骤2.4:基于步骤2.3中获得的各章节文本,构建特定的正则规则对该章节文本进行划分,获取章节中各小节的名称以及位置;
其中,提取小节的正则规则为:Pattern=“.*第.节.”;
步骤3:对指定标的物的相关信息进行定位识别及抽取;
步骤4:利用上述步骤的中间信息建立抽取报告,生成抽取结果。
2.根据权利要求1所述的文本信息自动提取方法,其特征在于:步骤1中,利用winAPI对输入文本进行批量预处理,利用pythonwin32库,调用word底层vba,将word格式文本转成pdf格式文本。
3.根据权利要求1所述的文本信息自动提取方法,其特征在于,步骤2.3的具体实现包括以下子步骤:
步骤2.3.1:根据书签中的书签名构建正则规则定位各章节,利用其对应的页面位置信息截取原pdf文件;
步骤2.3.2:利用pdfplumber识别截取后的章节文本;
步骤2.3.3:利用自然语言处理技术对文本进行清洗,清理文本中的无效干扰文本;
步骤2.3.4:将清洗后的各章节文本存储至txt文件。
4.根据权利要求1所述的文本信息自动提取方法,其特征在于,步骤3的具体实现包括以下子步骤:
步骤3.1:构建正则规则定位相关信息所在的章节;其中,相关信息中的技术参数内容所在章节的正则表达式为:Pattern=“.*(技术|参数|要求).*”;其他信息正则表达式构建原理与技术参数正则表达式构建原理相同;
步骤3.2:基于步骤3.1得到的章节,利用步骤2.4得到的小节信息,构建规则匹配到具体的技术参数小节;其中,匹配技术参数小节的正则表达式为:Pattern=“(.*(技术|参数).*要求)|(.*技术.*参数.*)”;
步骤3.3:利用正则匹配精准定位到具体的参数文本在小节中的位置;其中,定位具体的参数文本的正则表达式为:Pattern=“\W?\d+\W*[\u4e00-\u9fa5]*(技术|参数|要求)[\u4e00-\u9fa5]*(:|:)?”;
步骤3.4:从步骤3.3定位的内容开始,逐行进行参数识别,提取出相应的参数类型、参数名和参数值;
步骤3.5:将步骤3.4提取出的参数名和参数值,连同标的物类型,提取文件名以键值对的格式一起存入python字典类型中;
步骤3.8:将上...
【专利技术属性】
技术研发人员:刘金硕,王晨阳,邓娟,黄朔,刘宁,唐浩洲,
申请(专利权)人:武汉大学,
类型:发明
国别省市:湖北;42
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。