基于正则表达式和CRF模型的电力可研文档提取方法及装置制造方法及图纸

技术编号:32820710 阅读:10 留言:0更新日期:2022-03-26 20:18
本发明专利技术公开了一种基于正则表达式和CRF模型的电力可研文档提取方法和装置,所述方法包括:获取用户提交的可研报告,对所述可研报告的内容进行识别、抽取,得到待处理的文本数据;通过数据清洗对所述待处理的文本数据进行重新审查和校验;通过知识库和语义分析模型,对完成数据清洗的待处理的文本数据进行预处理;采用基于文档内容模式、基于文本语言特点模式以及基于上下文辅助信息模式分别配置相应的正则表达式,对预处理后的文本数据进行数据提取;将利用正则表达式规则提取得到的文本数据输入训练后的CRF模型进一步提取,得到可研评审指标。本发明专利技术解决了评审过程中指标提取不准确问题,增强可研智能评审系统的智能化能力,提升用户体验。提升用户体验。提升用户体验。

【技术实现步骤摘要】
基于正则表达式和CRF模型的电力可研文档提取方法及装置


[0001]本专利技术涉及文档处理
,特别涉及一种基于正则表达式和CRF模型的电力可研文档提取方法及装置。

技术介绍

[0002]近年来,新一轮电力改革形势和公司内部对精准投资的管理要求不断提高,如何提升可研经济性与财务合规性工作的质量和效率,仍是目前面临的难点。依托人工智能、自然语言处理和大数据等前沿技术,可以实现对可研报告内容更为有效的抽取、分类、储存、管理、分析等,以项目可研评审规则为基础,实现可研报告财务合规性、可研经济性和资料完整性的智能评审,有效解决可研经济性、财务合规性审核细致耗时,人工审核质量层次不齐的问题,切实提升审核质量与效率,在决策支持和流程优化等方面为审核人员赋能。
[0003]但在应用过程中,需要从项目可研报告里识别、提取相关信息;可研报告均为非结构化文本数据,目前智能评审方案采用的是基于规则梳理的文本信息进行抽取匹配,由于自然语言描述差异,各个指标的描述在文本中可能采用不同的描述方式,这将导致了抽取难度大大增加,指标的准确率难以保证。
[0004]因此,有必要提出一种新的技术方案,能够解决评审过程中指标提取不准确问题,增强可研智能评审系统的智能化能力,提升用户体验。

技术实现思路

[0005]本专利技术要解决的技术问题,在于提供一种基于正则表达式和CRF模型的电力可研文档提取方法及装置,解决评审过程中指标提取不准确问题,增强可研智能评审系统的智能化能力,提升用户体验。
[0006]第一方面,本专利技术提供了一种基于正则表达式和CRF模型的电力可研文档提取方法,包括:
[0007]获取用户提交的可研报告,对所述可研报告的内容进行识别、抽取,得到待处理的文本数据;
[0008]通过数据清洗对所述待处理的文本数据进行重新审查和校验;
[0009]通过知识库和语义分析模型,对完成数据清洗的待处理的文本数据进行预处理;
[0010]采用基于文档内容模式、基于文本语言特点模式以及基于上下文辅助信息模式分别配置相应的正则表达式,对预处理后的文本数据进行数据提取;
[0011]将利用正则表达式规则提取得到的文本数据输入训练后的CRF模型进一步提取,得到可研评审指标。
[0012]进一步地,所述通过数据清洗对所述待处理的文本数据进行重新审查和校验,具体包括:
[0013]利用分类模型对文档的文种进行自动识别分类;然后再通过句法模型对文档内容进行语块分析,把句子的描述转化成结构单元;接着通过音似词典、形似词典以及评审模型
对转化成结构单元的文档内容进行错误检测,完成数据的清洗过程。
[0014]进一步地,所述知识库包括自定义的行业特色词汇,所述预处理包括分词、词性标注和命名实体提取。
[0015]进一步地,所述CRF模型的训练过程包括:人工标注典型数据案例,通过CRF算法根据标注后的案例对提取信息的上下文特征规律进行统计、分析,得到训练后的CRF模型。
[0016]第二方面,本专利技术提供了一种基于正则表达式和CRF模型的电力可研文档提取装置,包括:数据抽取模块、数据清洗模块、预处理模块、正则提取模块以及CRF模块;
[0017]所述数据抽取模块,用于获取用户提交的可研报告,对所述可研报告的内容进行识别、抽取,得到待处理的文本数据;
[0018]所述数据清洗模块,用于通过数据清洗对所述待处理的文本数据进行校验;
[0019]所述预处理模块,用于通过知识库和语义分析模型,对完成数据清洗的待处理的文本数据进行预处理;
[0020]所述正则提取模块,用于采用基于文档内容模式、基于文本语言特点模式以及基于上下文辅助信息模式分别配置相应的正则表达式,对预处理后的文本数据进行数据提取;
[0021]所述CRF模块,用于将利用正则表达式规则提取得到的文本数据输入训练后的CRF模型进一步提取,得到可研评审指标。
[0022]进一步地,所述数据清洗模块,进一步具体用于,利用分类模型对文档的文种进行自动识别分类;然后再通过句法模型对文档内容进行语块分析,把句子的描述转化成结构单元;接着通过音似词典、形似词典以及评审模型对转化成结构单元的文档内容进行错误检测,完成数据的清洗过程。
[0023]进一步地,所述知识库包括自定义的行业特色词汇,所述预处理包括分词、词性标注和命名实体提取
[0024]进一步地,所述CRF模块中,CRF模型的训练过程包括:人工标注典型数据案例,通过CRF算法根据标注后的案例对提取信息的上下文特征规律进行统计、分析,得到训练后的CRF模型。
[0025]本专利技术实施例具有如下技术效果或优点:
[0026]本专利技术结合了正则表达式和CRF模型进行可研文档提取,利用正则表达式的灵活性高、逻辑性强等特点,完成文本的“规则提取”;利用CRF算法的函数特征和机器学习能力,结合文本知识库,更加有效、准确的完成可研评审指标的提取。对比原有方案,简化了抽取规则的配置过程,减少了人工成本的投入;而且算法具备机器学习能力,能够让算法模型在应用过程中不断的进行优化,解决了因业务描述多样化,而导致的指标无法抽取或关键指标丢失等问题。
[0027]上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的具体实施方式。
附图说明
[0028]下面参照附图结合实施例对本专利技术作进一步的说明。
[0029]图1为本专利技术实施例一中方法的流程图;
[0030]图2为本专利技术实施例一中一具体实施方式的流程图;
[0031]图3为本专利技术实施例二中装置的结构示意图。
具体实施方式
[0032]本申请实施例通过提供一种基于正则表达式和CRF模型的电力可研文档提取方法及装置,解决评审过程中指标提取不准确问题,增强可研智能评审系统的智能化能力,提升用户体验。
[0033]本申请实施例中的技术方案,总体思路如下:
[0034]为解决上述现有技术存在的问题,让文本抽取过程能够自己适应不同的自然语言差异,实现业务数据和相应指标的准确提取。本专利技术实施例在原有方案的基础上,引入了能够进行机器学习的CRF算法,条件随机场(CRF)结合了最大熵模型和隐马尔可夫模型的特点,是一种无向图模型,近年来在分词、词性标注和命名实体识别等序列标注任务中取得了很好的效果。通过引入CRF算法,实现两种提取技术的整合,提出了基于正则表达式和CRF模型的电力可研文档提取技术。该技术方案简化了原有的抽取规则配置过程,只需要制定“少而精”的正则表达式,完成初步关键指标的提取工作,然后全部交由CRF算法进行提取;同时,由于CRF算法具有机器学习的能力,解决了自然语言的差异化,业务描述的多样化问题,实现可研评审体系的智能化。
[0035]实施例一
[0036]本实施例提供一种本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于正则表达式和CRF模型的电力可研文档提取方法,其特征在于,包括:获取用户提交的可研报告,对所述可研报告的内容进行识别、抽取,得到待处理的文本数据;通过数据清洗对所述待处理的文本数据进行重新审查和校验;通过知识库和语义分析模型,对完成数据清洗的待处理的文本数据进行预处理;采用基于文档内容模式、基于文本语言特点模式以及基于上下文辅助信息模式分别配置相应的正则表达式,对预处理后的文本数据进行数据提取;将利用正则表达式规则提取得到的文本数据输入训练后的CRF模型进一步提取,得到可研评审指标。2.根据权利要求1所述的方法,其特征在于:所述通过数据清洗对所述待处理的文本数据进行重新审查和校验,具体包括:利用分类模型对文档的文种进行自动识别分类;然后再通过句法模型对文档内容进行语块分析,把句子的描述转化成结构单元;接着通过音似词典、形似词典以及评审模型对转化成结构单元的文档内容进行错误检测,完成数据的清洗过程。3.根据权利要求1所述的方法,其特征在于:所述知识库包括自定义的行业特色词汇,所述预处理包括分词、词性标注和命名实体提取。4.根据权利要求1所述的方法,其特征在于:所述CRF模型的训练过程包括:人工标注典型数据案例,通过CRF算法根据标注后的案例对提取信息的上下文特征规律进行统计、分析,得到训练后的CRF模型。5.一种基于正则表达式和CRF模型的电力可研文档提取装置,其特征在于,包括:数据...

【专利技术属性】
技术研发人员:林彧茜苏江文卢伟龙陈严纾林志忠蔡宇翔方略斌蔡映红肖琦敏郑飘飘潘丹方镇林
申请(专利权)人:福建亿榕信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1