一种基于自动机器学习平台的智能信息抽取系统构建方法技术方案

技术编号:32519406 阅读:15 留言:0更新日期:2022-03-02 11:20
本发明专利技术涉及自然语言处理的文档信息抽取技术领域,公开了一种基于自动机器学习平台的智能信息抽取系统构建方法,基于知识工程的方法和自动机器学习平台复合抽取的方法来完成信息抽取的任务,基于自动机器学习平台完成模型算子的自动选择,自动对用户的输入进行预处理、建模分析、标准输出和服务提供,同时,基于知识工程的方法用于对特定字段的抽取,自动机器学习平台极大地优化现有基于深度学习的信息抽取效果,而基于传统的知识工程的方法提升信息抽取的覆盖度和不同场景的抽取效果,通过综合两类抽取方法,对于文档的结构信息、上下文信息、特殊信息都能够有更加全面的定位和认知。知。知。

【技术实现步骤摘要】
一种基于自动机器学习平台的智能信息抽取系统构建方法


[0001]本专利技术涉及自然语言处理的文档信息抽取
,具体为一种基于自动机器学习平台的智能信息抽取系统构建方法。

技术介绍

[0002]信息抽取是指从海量的自然语言语料库中,抽取出特定的事件或事实信息,对海量文档中的内容实现自动分类、重要信息提取、生成摘要信息和重构文本结构等。随着自然语言处理技术的不断突破和发展,信息抽取技术已经在众多领域解决了具有基础性的地位,可以较好地解决文本、信息、知识获取、知识加工、文档组织、企业管理等应用场景中的文本处理问题。
[0003]目前的信息抽取按照建模过程的差异,可大致分为三种:一种是基于知识工程的方法,借助于专家对于文本语料库的认知和分析,人工制作模板和规则去匹配海量文本以实现信息抽取。这种方法的缺点是需要耗费大量的时间成本和人力成本,复用性不高,无法处理新的字段信息。第二种基于传统的机器学习方法,通过机器学习方法(例如隐马尔科夫模型、LSTM模型等)来推导抽取规则和抽取方式,例如中英文人命的抽取、地名的抽取等,具备一定的泛化性,但是抽取性能较差,无法实现多字段的抽取和上下文的理解。第三种方法是基于深度神经网络来实现抽取,基于大规模训练语料、预训练模型、深度神经网络来训练一个泛化性较好的抽取器,例如Bert模型、Transformer模型等。这种方法能够在前两种方法中取得平衡,既提升抽取效果,又能够降低人工成本,但是存在算法复杂度较高、抽取效果仍然有限的缺点。
[0004]针对上述问题,本专利技术提供了一种基于自动机器学习平台的智能信息抽取系统构建方法。

技术实现思路

[0005]本专利技术的目的在于提供一种基于自动机器学习平台的智能信息抽取系统构建方法,自动机器学习平台极大地优化现有基于深度学习的信息抽取效果,而基于传统的知识工程的方法提升信息抽取的覆盖度和不同场景的抽取效果,通过综合两类抽取方法,对于文档的结构信息、上下文信息、特殊信息都能够有更加全面的定位和认知,从而解决了
技术介绍
中的问题。
[0006]为实现上述目的,本专利技术提供如下技术方案:一种基于自动机器学习平台的智能信息抽取系统构建方法,包括以下步骤:
[0007]S01:设计自动机器学习平台系统架构,包括前端设计、算法设计、后台部署三个板块;
[0008]S02:构建信息抽取公开数据集资源库,同时融合用户提供的数据集形成增强数据集;
[0009]S03:构建数据集标注系统,用户可对需要抽取的部分重要信息进行标注,将标注
好的数据作为训练数据;
[0010]S04:设计OCR算子,实现多种类型文档的智能解析,转换为信息抽取系统可用的数据集格式;
[0011]S05:构建文本对齐算子、词向量转换算子、数据集增强算子,对数据集进行预处理和数据增强;
[0012]S06:构建自动机器学习平台,基于主流的bert类算子、bilstm算子、crf算子等构建模型算子空间,设计完备的算子超参数搜索空间,通过实验论证各参数的最优取值范围;
[0013]S07:基于知识工程和模式识别的方法构建模板规则库,从传统的信息抽取方法上实现抽取流程;
[0014]S08:构建自动机器学习的训练pipeline、离线测试pipeline和在线推理pipeline,同时完成微服务部署;
[0015]S09:将两种方案的结果进行融合输出,并做信息抽取结果的校验和评估,最后以结构化的方式进行输出。
[0016]进一步地,步骤S01中,设计自动机器学习平台的UI界面,包括登录注册、上传数据、选择项目类型、构建任务、自动配置模型参数组合、自动构建模型算子组合、执行训练pipeline、执行离线测试pipeline、部署在线服务pipeline、配置数据导出模型、查看解决方案等功能模块。
[0017]进一步地,步骤S02中,增强后的数据集按照一定的比例进行训练集、测试集的划分,且训练集不仅用于深度学习模型的训练,同时也输入到专家系统用于特征分析、模板构建和规则制定。
[0018]进一步地,步骤S03中,提供用户标注的平台,用户直接上传无标签数据,同时通过标注平台进行智能标注,同时优化标注平台的操作流程、标注效率,实现同类信息自动标注、相关信息推荐标注。
[0019]进一步地,步骤S06中,构建完备的超参数搜索空间和模型算子空间,每次试验通过优化算法自动选择一组解决方案进行训练,得到训练结果后再调整解决方案的算子选择,不断迭代得到最优模型。
[0020]进一步地,模型训练过程中,超参数的定义方式为,定义一个全范围的搜索空间,包括学习率、迭代轮次、批处理大小、分字策略、数据集划分比例,在这个空间中,每一次实验就按照一定的优化策略对每一类超参数确定一个取值,去迭代模型,得到模型结果后,模型选择一个更好的解决方案的值。
[0021]进一步地,步骤S07中,根据特征工程的方法对数据集进行分析,总结出信息抽取的规则集合,按照集合去抽取对应字段的信息,同时对抽取结果进行评估,调整规则集合,对规则集合中的元素进行增加、删除和修改,以迭代模型和优化抽取效果。
[0022]进一步地,基于自然语言文本中的模式识别和模式匹配方法从海量文本中抽取不同种类的信息,不局限于使用单一模式进行信息抽取,基于深度学习模型和模板规则同时进行抽取,对不同字段涉及不同的抽取方案,最终将抽取结果进行汇总,作为最终输出。
[0023]进一步地,对于模板规则的方法进行不断迭代,每一轮迭代都需要对抽取效果进行评估后,根据指标结果进行动态调整;
[0024]信息抽取模型的指标定义为精确率、召回率和F1值三类,其中精确率是信息抽取
正确的字段和所有抽取到的字段数的比率,召回率是指抽取正确的字段和所有抽取正确的字段的比率;
[0025]为了同时考虑查全率和查准率,引入F1值指标,F1值定义为正确率和召回率的调和平均值,其计算公式为:
[0026]F1值=正确率*召回率*2/(正确率+召回率)。
[0027]进一步地,信息抽取后,对抽取效果进行校验,添加多重校验机制,通过校验算子对抽取结果进行格式化整理和校验,允许用户在线校验抽取结果,记录并保存抽取正确的字段用以迭代算法模型,优化抽取效果。
[0028]与现有技术相比,本专利技术的有益效果如下:
[0029]1、本专利技术提供的一种基于自动机器学习平台的智能信息抽取系统构建方法,结合了当前自然语言处理中各种场景下信息抽取任务最经典的模型算法进行建模分析,采用了所有的经典网络结构算法构建搜索空间,将目前主流的词向量转换模型均进行构建,动态地调整网络中的各参数值,实现自动优化,而不需要人工手动调参,极大地解决人力成本的问题,根据任务不断进行搜索空间的探索,得到最优的算子搜索空间定义,在完成初步的搜索空间定义后,再逐步优化,较好地解决了信息抽取效果不佳的问题。
[0030]2、本专利技术提供的一种基于自动机器学习平台的智本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于自动机器学习平台的智能信息抽取系统构建方法,其特征在于,包括以下步骤:S01:设计自动机器学习平台系统架构,包括前端设计、算法设计、后台部署三个板块;S02:构建信息抽取公开数据集资源库,同时融合用户提供的数据集形成增强数据集;S03:构建数据集标注系统,用户对需要抽取的部分重要信息进行标注,将标注好的数据作为训练数据;S04:设计OCR算子,实现多种类型文档的智能解析,转换为信息抽取系统可用的数据集格式;S05:构建文本对齐算子、词向量转换算子、数据集增强算子,对数据集进行预处理和数据增强;S06:构建自动机器学习平台,基于主流的bert类算子、bilstm算子、crf算子等构建模型算子空间,设计完备的算子超参数搜索空间,通过实验论证各参数的最优取值范围;S07:基于知识工程和模式识别的方法构建模板规则库,从传统的信息抽取方法上实现抽取流程;S08:构建自动机器学习的训练pipeline、离线测试pipeline和在线推理pipeline,同时完成微服务部署;S09:将两种方案的结果进行融合输出,并做信息抽取结果的校验和评估,最后以结构化的方式进行输出。2.根据权利要求1所述的一种基于自动机器学习平台的智能信息抽取系统构建方法,其特征在于,步骤S01中,设计自动机器学习平台的UI界面,包括登录注册、上传数据、选择项目类型、构建任务、自动配置模型参数组合、自动构建模型算子组合、执行训练pipeline、执行离线测试pipeline、部署在线服务pipeline、配置数据导出模型、查看解决方案等功能模块。3.根据权利要求1所述的一种基于自动机器学习平台的智能信息抽取系统构建方法,其特征在于,步骤S02中,增强后的数据集按照一定的比例进行训练集、测试集的划分,且训练集不仅用于深度学习模型的训练,同时也输入到专家系统用于特征分析、模板构建和规则制定。4.根据权利要求1所述的一种基于自动机器学习平台的智能信息抽取系统构建方法,其特征在于,步骤S03中,提供用户标注的平台,用户直接上传无标签数据,同时通过标注平台进行智能标注,同时优化标注平台的操作流程、标注效率,实现同类信息自动标注、相关信息推荐标注。5.根据权利要求1所述的一种基于自动机器学习平台的智能信息抽取系统构建方法...

【专利技术属性】
技术研发人员:曹勇吴承霖张杨陈焕坤
申请(专利权)人:深圳深度赋智科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1