一种文本信息自动提取方法技术

技术编号：27935782 阅读：20 留言：0更新日期：2021-04-02 14:15

本发明专利技术公开了一种文本信息自动提取方法，现有招标文件标的物的参数信息提取均靠人工抽取，需要花费大量人工及时间，耗时耗力。本发明专利技术使用自然语言处理技术对招标文本进行自动化的参数信息抽取，设计了标书文本结构化，标的物参数信息提取，提取报告体系，标书文本结构化包括利用利用pypdf2提取书签信息，利用pdfplumber识别pdf标书文本，利用正则对文本进行清洗，随后利用规则匹配对文本进行结构化分析处理。标的物参数信息提取通过利用正则技术对结构化后的标书文本中标的物的技术参数信息进行精准识别和提取。最后利用前述过程中的信息建立抽取报告，直观反映整个抽取情况。

全部详细技术资料下载

【技术实现步骤摘要】
一种文本信息自动提取方法
本专利技术属于计算机
，涉及一种文本信息自动提取方法，具体涉及一种面向招标文本的标的物参数信息自动提取方法。
技术介绍
随着现在信息技术的智能化、自动化的不断发展，给人们的生活带来了巨大的影响和方便，能自动的把文字转换为图片，又可以将图片转换为文字，越来越智能化了，越来越方便，便捷；但是面向一些具体领域，需要的信息具体特殊性，而现有的技术很难针对性地进行信息提取，例如面向招标文本的标的物参数信息自动提取。招标文件是采购需求的集中体现，招标文件的质量直接决定了招标结果的成败。通过利用过往的招标文件编制招标标准文件，能够统一规范招标行为，提高招标质量，促进管理水平的提升，同时能够提高项目成功率，节约招标文件的编制时间。然而现有招标标准文件均靠人工编制，特别是标的物参数、技术要求等部分，需要很多精通技术的专业人员，耗费大量时间精力去提取信息。目前迫切需要一种针对特殊信息提取的技术。
技术实现思路
为了解决上述技术问题，本专利技术提供了一种文本信息自动提取方法，用于...

【技术保护点】
1.一种文本信息自动提取方法，其特征在于，包括以下步骤：/n步骤1：对输入文本进行批量预处理，将输入文本转成pdf格式文本；/n步骤2：对pdf格式文本进行结构化处理；/n步骤2的具体实现包括以下子步骤：/n步骤2.1：输入批量pdf格式文本；/n步骤2.2：利用pypdf2提取pdf格式文本中的书签信息，构建规则对书签名进行正则匹配，得到匹配出的章节书签，保存书签的名称以及页面位置信息；/n其中，根据书签名提取章节书签的规则为：Pattern＝“(第.*章|第.*部分)”；/n步骤2.3：基于步骤2.2中取出的章节书签信息对pdf格式文本进行划分，分别得到文件中的各章节文本；/n步骤2.4：...

【技术特征摘要】
1.一种文本信息自动提取方法，其特征在于，包括以下步骤：
步骤1：对输入文本进行批量预处理，将输入文本转成pdf格式文本；
步骤2：对pdf格式文本进行结构化处理；
步骤2的具体实现包括以下子步骤：
步骤2.1：输入批量pdf格式文本；
步骤2.2：利用pypdf2提取pdf格式文本中的书签信息，构建规则对书签名进行正则匹配，得到匹配出的章节书签，保存书签的名称以及页面位置信息；
其中，根据书签名提取章节书签的规则为：Pattern＝“(第.*章|第.*部分)”；
步骤2.3：基于步骤2.2中取出的章节书签信息对pdf格式文本进行划分，分别得到文件中的各章节文本；
步骤2.4：基于步骤2.3中获得的各章节文本，构建特定的正则规则对该章节文本进行划分，获取章节中各小节的名称以及位置；
其中，提取小节的正则规则为：Pattern＝“.*第.节.”；
步骤3：对指定标的物的相关信息进行定位识别及抽取；
步骤4：利用上述步骤的中间信息建立抽取报告，生成抽取结果。

2.根据权利要求1所述的文本信息自动提取方法，其特征在于：步骤1中，利用winAPI对输入文本进行批量预处理，利用pythonwin32库，调用word底层vba，将word格式文本转成pdf格式文本。

3.根据权利要求1所述的文本信息自动提取方法，其特征在于，步骤2.3的具体实现包括以下子步骤：
步骤2.3.1：根据书签中的书签名构建正则规则定位各章节，利用其对应的页面位置信息截取原pdf文件；
步骤2.3.2：利用pdfplumber识别截取后的章节文本；
步骤2.3.3：利用自然语言处理技术对文本进行清洗，清理文本中的无效干扰文本；
步骤2.3.4：将清洗后的各章节文本存储至txt文件。

4.根据权利要求1所述的文本信息自动提取方法，其特征在于，步骤3的具体实现包括以下子步骤：
步骤3.1：构建正则规则定位相关信息所在的章节；其中，相关信息中的技术参数内容所在章节的正则表达式为：Pattern＝“.*(技术|参数|要求).*”；其他信息正则表达式构建原理与技术参数正则表达式构建原理相同；
步骤3.2：基于步骤3.1得到的章节，利用步骤2.4得到的小节信息，构建规则匹配到具体的技术参数小节；其中，匹配技术参数小节的正则表达式为：Pattern＝“(.*(技术|参数).*要求)|(.*技术.*参数.*)”；
步骤3.3：利用正则匹配精准定位到具体的参数文本在小节中的位置；其中，定位具体的参数文本的正则表达式为：Pattern＝“\W？\d+\W*[\u4e00-\u9fa5]*(技术|参数|要求)[\u4e00-\u9fa5]*(:|：)？”；
步骤3.4：从步骤3.3定位的内容开始，逐行进行参数识别，提取出相应的参数类型、参数名和参数值；
步骤3.5：将步骤3.4提取出的参数名和参数值，连同标的物类型，提取文件名以键值对的格式一起存入python字典类型中；
步骤3.8：将上...

【专利技术属性】
技术研发人员：刘金硕，王晨阳，邓娟，黄朔，刘宁，唐浩洲，
申请(专利权)人：武汉大学，
类型：发明
国别省市：湖北;42

全部详细技术资料下载我是这个专利的主人