一种基于正则表达式的合同信息提取系统及方法技术方案

技术编号:33534078 阅读:11 留言:0更新日期:2022-05-19 02:11
本发明专利技术涉及一种基于正则表达式的合同信息提取系统及方法,包括任务设置模块、数据采集模块、信息提取模块、数据存储模块和大数据分析模块。本发明专利技术通过正则表达式非结构化转换技术,提取关键信息,把信息存储为结构化的数据,根据固有的规则进行数据筛选。根据固有的规则进行数据筛选。根据固有的规则进行数据筛选。

【技术实现步骤摘要】
一种基于正则表达式的合同信息提取系统及方法


[0001]本专利技术属于智能审计
,涉及一种审计信息提取系统,尤其是一种基于正则表达式的合同信息提取系统及方法。

技术介绍

[0002]传统从文件中信息提取的方法,只是简单的对文件进行翻阅,手工进行记录信息,容易出现误差,并且提取信息效率低,并不能高效的形成结构化的信息数据。现阶段传统方法已不能满足现有工作的需要,随着科学技术的不断发展,推进了大数据化、智能化,创新性审计模式、创新数据分析技术与方法,一种面向审计信息的有效信息提取系统及方法应运而生。
[0003]经检索,未发现与本专利技术相同或相似的现有技术的公开文献。

技术实现思路

[0004]本专利技术的目的在于克服现有技术的不足,提出一种基于正则表达式的合同信息提取系统及方法,通过正则表达式非结构化转换技术,提取关键信息,把信息存储为结构化的数据,根据固有的规则进行数据筛选。
[0005]本专利技术解决其现实问题是采取以下技术方案实现的:
[0006]一种基于正则表达式的合同信息提取系统,包括任务设置模块、数据采集模块、信息提取模块、数据存储模块和大数据分析模块;所述任务设置模块的输出端与数据采集模块相连接,用于预设置任务及参数;所述数据采集模块的输出端与信息提取模块相连接,用于根据任务设置模块预设置的任务及参数,通过流程自动化作业终端实现目标数据的精准采集流,为信息提取模块提供数据源;所述信息提取模块的输出端与数据存储模块相连接,用于对数据采集模块所获取数据的处理,对于非结构数据采用正则表达式匹配算法,挖掘审计需要的关键信息,运用正则表达式建立相应的自动机进行字符串的匹配;所述信息提取模块的输出端与数据存储模块相连接,用于存储数据采集模块和信息提取模块的数据;所述数据存储模块的输出端与大数据分析模块相连接,用于对数据存储模块的数据进行进一步的数据分析。
[0007]而且,所述运用正则表达式建立相应的自动机进行字符串的匹配的方法为:先将正则表达式转化为不确定的自动机,再将不确定的自动机转化为确定的自动机。
[0008]一种基于正则表达式的合同信息提取方法,包括以下步骤:
[0009]步骤1、设置任务,构建审计任务清单;
[0010]步骤2、根据步骤1的审计任务清单,通过流程自动化作业终端进行目标数据的采集;
[0011]步骤3、将步骤2中所采集的目标数据进行信息提取。
[0012]而且,所述步骤1的具体步骤包括:
[0013](1)根据审计人员给定明确的所需数据的字段,明确字段的含义,设计合同信息审
计中间表;
[0014](2)同时设定数据采集路径,模仿审计人员工作操作,预编程操作;
[0015](3)根据审计任务设定审计任务清单。
[0016]而且,所述步骤2的具体方法为:
[0017]根据任务设置的采集路径、模拟操作、数据中间表、审计任务清单,流程自动化作业终端采集业务系统中的合同信息,将非结构化的合同文件下载。
[0018]而且,所述步骤3的具体步骤包括:
[0019](1)将数据采集阶段采集到的合同文件,使用机器人的读取技术,读取为文本信息。
[0020](2)根据读取出的文本信息,使用基于正则表达式的信息提取技术,进行非结构化数据转换,根据正则表达式的语法元素的组合构建、匹配关键信息的表达式构建自动机,挖掘文本关键信息;
[0021]而且,所述步骤3第(2)步的正则表达式的语法元素包括:普通字符、字符集合、匹配次数限定符、分组表达式、选择表达式和转义字符。
[0022]而且,所述步骤3之后还包括如下步骤:
[0023]步骤4、对步骤3所提取的数据进行分析处理,输出审计疑点;
[0024]所述步骤4的具体方法为:
[0025]首先审计人员按照采集的数据分析查找数据间的逻辑,通过业务逻辑转换构建出固定的审计模型,并将业务逻辑与程序开发人员再次交互,其次是程序开发人员将业务逻辑转换成计算机语言,通过逻辑运算,自动判断输出审计疑点。
[0026]步骤5、对步骤4输出的疑点进行核实;
[0027]所述步骤5的具体方法为:
[0028]合同审计机器人自动将审计疑点发送至审计人员的邮箱,辅助进行疑点核实,审计人员核实确认后直接锁定审计问题,流程结束。
[0029]本专利技术的优点和有益效果:
[0030]1、本专利技术采用流程自动化(Robotic Process Automation)技术和正则表达式(Regular Expression)技术,以RPA机器人作为虚拟劳动力,以正则表达式为非结构化数据转换的算法,RPA机器人预设定审计任务,进行自动化进行信息提取,数据存储,数据分析。可以有效的优化传统办公流程,提升工作效率,间接优化企业劳动资源配置,助力企业数字化升级。
[0031]2、本专利技术应用RPA与正则表达式技术,制定RPA机器人工作任务来定时自动执行,不依赖人工进行触发,是24小时不间断工作模式,整个工作过程可以实现工作闭环。运用正则表达式的算法,将需要的文件有效信息进行准确高效的提取,以辅助RPA机器人对文件中关键信息进行数据分析。本专利技术相较于传统的方法,传统方法主要依靠大量人力进行文件审查,人工进行关键信息摘录,手动粘贴或手动书写,再整理成规范化的有效信息,再用于工作之中。本专利技术则可以代替工作流程中重复性高、复杂性低的手工操作,按照单位、时间、范围等预设置,按照预设定的自动化流程,从系统中自动采集所需数据,批量下载文件等,通过正则表达式非结构化转换技术,提取关键信息,把信息存储为结构化的数据,根据固有的规则进行数据筛选。本专利技术可统称为“信息提取机器人”,上述自动化流程可生成直观的
结构化数据结果,供工作人员对文件进行快速审阅。
附图说明
[0032]图1为本专利技术的系统构成图;
[0033]图2为本专利技术的数据采集模块的处理流程图;
[0034]图3(a)为本专利技术的数据提取模块的A/B不确定自动机示意图;
[0035]图3(b)为本专利技术的数据提取模块的A*不确定自动机示意图;
[0036]图3(c)为本专利技术的数据提取模块的正则表达式(A/B)*ABB的不确定自动机示意图;
[0037]图3(d)为本专利技术的数据提取模块的正则表达式(A/B)*ABB的确定自动机示意图;
[0038]图4为本专利技术的处理流程图。
具体实施方式
[0039]以下结合附图对本专利技术实施例作进一步详述:
[0040]一种基于正则表达式的合同信息提取系统,如图1所示,包括任务设置模块、数据采集模块、信息提取模块、数据存储模块和大数据分析模块;所述任务设置模块的输出端与数据采集模块相连接,用于预设置任务及参数;所述数据采集模块的输出端与信息提取模块相连接,用于根据任务设置模块预设置的任务及参数,通过流程自动化作业终端实现目标数据的精准采集流,为信息提取模本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于正则表达式的合同信息提取系统,其特征在于:包括任务设置模块、数据采集模块、信息提取模块、数据存储模块和大数据分析模块;所述任务设置模块的输出端与数据采集模块相连接,用于预设置任务及参数;所述数据采集模块的输出端与信息提取模块相连接,用于根据任务设置模块预设置的任务及参数,通过流程自动化作业终端实现目标数据的精准采集流,为信息提取模块提供数据源;所述信息提取模块的输出端与数据存储模块相连接,用于对数据采集模块所获取数据的处理,对于非结构数据采用正则表达式匹配算法,挖掘审计需要的关键信息,运用正则表达式建立相应的自动机进行字符串的匹配;所述信息提取模块的输出端与数据存储模块相连接,用于存储数据采集模块和信息提取模块的数据;所述数据存储模块的输出端与大数据分析模块相连接,用于对数据存储模块的数据进行进一步的数据分析。2.根据权利要求1所述的一种基于正则表达式的合同信息提取系统,其特征在于:所述运用正则表达式建立相应的自动机进行字符串的匹配的方法为:先将正则表达式转化为不确定的自动机,再将不确定的自动机转化为确定的自动机。3.一种基于正则表达式的合同信息提取方法,其特征在于:包括以下步骤:步骤1、设置任务,构建审计任务清单;步骤2、根据步骤1的审计任务清单,通过流程自动化作业终端进行目标数据的采集;步骤3、将步骤2中所采集的目标数据进行信息提取。4.根据权利要求3所述的一种基于正则表达式的合同信息提取方法,其特征在于:所述步骤1的具体步骤包括:(1)根据审计人员给定明确的所需数据的字段,明确字段的含义,设计合同信息审计中间表;(2)同时设定数据采集路径,模仿审计人员工作操作,...

【专利技术属性】
技术研发人员:孙常鹏戴斐斐高静赵猛贾晓亮李博刘德玉张耀心
申请(专利权)人:国家电网有限公司国网天津市电力公司信息通信公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1