基于正则表达式和CRF模型的电力可研文档提取方法及装置制造方法及图纸

技术编号：32820710 阅读：22 留言：0更新日期：2022-03-26 20:18

本发明专利技术公开了一种基于正则表达式和CRF模型的电力可研文档提取方法和装置，所述方法包括：获取用户提交的可研报告，对所述可研报告的内容进行识别、抽取，得到待处理的文本数据；通过数据清洗对所述待处理的文本数据进行重新审查和校验；通过知识库和语义分析模型，对完成数据清洗的待处理的文本数据进行预处理；采用基于文档内容模式、基于文本语言特点模式以及基于上下文辅助信息模式分别配置相应的正则表达式，对预处理后的文本数据进行数据提取；将利用正则表达式规则提取得到的文本数据输入训练后的CRF模型进一步提取，得到可研评审指标。本发明专利技术解决了评审过程中指标提取不准确问题，增强可研智能评审系统的智能化能力，提升用户体验。提升用户体验。提升用户体验。

全部详细技术资料下载

【技术实现步骤摘要】
基于正则表达式和CRF模型的电力可研文档提取方法及装置

[0001]本专利技术涉及文档处理
，特别涉及一种基于正则表达式和CRF模型的电力可研文档提取方法及装置。

技术介绍

[0002]近年来，新一轮电力改革形势和公司内部对精准投资的管理要求不断提高，如何提升可研经济性与财务合规性工作的质量和效率，仍是目前面临的难点。依托人工智能、自然语言处理和大数据等前沿技术，可以实现对可研报告内容更为有效的抽取、分类、储存、管理、分析等，以项目可研评审规则为基础，实现可研报告财务合规性、可研经济性和资料完整性的智能评审，有效解决可研经济性、财务合规性审核细致耗时，人工审核质量层次不齐的问题，切实提升审核质量与效率，在决策支持和流程优化等方面为审核人员赋能。
[0003]但在应用过程中，需要从项目可研报告里识别、提取相关信息；可研报告均为非结构化文本数据，目前智能评审方案采用的是基于规则梳理的文本信息进行抽取匹配，由于自然语言描述差异，各个指标的描述在文本中可能采用不同的描述方式，这将导致了抽取难度大大增加，指标的准确率难以保证。
[0本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于正则表达式和CRF模型的电力可研文档提取方法，其特征在于，包括：获取用户提交的可研报告，对所述可研报告的内容进行识别、抽取，得到待处理的文本数据；通过数据清洗对所述待处理的文本数据进行重新审查和校验；通过知识库和语义分析模型，对完成数据清洗的待处理的文本数据进行预处理；采用基于文档内容模式、基于文本语言特点模式以及基于上下文辅助信息模式分别配置相应的正则表达式，对预处理后的文本数据进行数据提取；将利用正则表达式规则提取得到的文本数据输入训练后的CRF模型进一步提取，得到可研评审指标。2.根据权利要求1所述的方法，其特征在于：所述通过数据清洗对所述待处理的文本数据进行重新审查和校验，具体包括：利用分类模型对文档的文种进行自动识别分类；然后再通过句法模型对文档内容进行语块分析，把句子的描述转化成结构单元；接着通过音似词典、形似词典以及评审模型对转化成结构单元的文档内容进行错误检测，完成数据的清洗过程。3.根据权利要求1所述的方法，其特征在于：所述知识库包括自定义的行业特色词汇，所述预处理包括分词、词性标注和命名实体提取。4.根据权利要求1所述的方法，其特征在于：所述CRF模型的训练过程包括：人工标注典型数据案例，通过CRF算法根据标注后的案例对提取信息的上下文特征规律进行统计、分析，得到训练后的CRF模型。5.一种基于正则表达式和CRF模型的电力可研文档提取装置，其特征在于，包括：数据...

【专利技术属性】
技术研发人员：林彧茜，苏江文，卢伟龙，陈严纾，林志忠，蔡宇翔，方略斌，蔡映红，肖琦敏，郑飘飘，潘丹，方镇林，
申请(专利权)人：福建亿榕信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人