一种基于自动机器学习平台的智能信息抽取系统构建方法技术方案

技术编号：32519406 阅读：15 留言：0更新日期：2022-03-02 11:20

本发明专利技术涉及自然语言处理的文档信息抽取技术领域，公开了一种基于自动机器学习平台的智能信息抽取系统构建方法，基于知识工程的方法和自动机器学习平台复合抽取的方法来完成信息抽取的任务，基于自动机器学习平台完成模型算子的自动选择，自动对用户的输入进行预处理、建模分析、标准输出和服务提供，同时，基于知识工程的方法用于对特定字段的抽取，自动机器学习平台极大地优化现有基于深度学习的信息抽取效果，而基于传统的知识工程的方法提升信息抽取的覆盖度和不同场景的抽取效果，通过综合两类抽取方法，对于文档的结构信息、上下文信息、特殊信息都能够有更加全面的定位和认知。知。知。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于自动机器学习平台的智能信息抽取系统构建方法

[0001]本专利技术涉及自然语言处理的文档信息抽取
，具体为一种基于自动机器学习平台的智能信息抽取系统构建方法。

技术介绍

[0002]信息抽取是指从海量的自然语言语料库中，抽取出特定的事件或事实信息，对海量文档中的内容实现自动分类、重要信息提取、生成摘要信息和重构文本结构等。随着自然语言处理技术的不断突破和发展，信息抽取技术已经在众多领域解决了具有基础性的地位，可以较好地解决文本、信息、知识获取、知识加工、文档组织、企业管理等应用场景中的文本处理问题。
[0003]目前的信息抽取按照建模过程的差异，可大致分为三种：一种是基于知识工程的方法，借助于专家对于文本语料库的认知和分析，人工制作模板和规则去匹配海量文本以实现信息抽取。这种方法的缺点是需要耗费大量的时间成本和人力成本，复用性不高，无法处理新的字段信息。第二种基于传统的机器学习方法，通过机器学习方法(例如隐马尔科夫模型、LSTM模型等)来推导抽取规则和抽取方式，例如中英文人命的抽取、地名的抽取等，具备一定的泛化性，但是抽取性能较差，无法实现多字段的抽取和上下文的理解。第三种方法是基于深度神经网络来实现抽取，基于大规模训练语料、预训练模型、深度神经网络来训练一个泛化性较好的抽取器，例如Bert模型、Transformer模型等。这种方法能够在前两种方法中取得平衡，既提升抽取效果，又能够降低人工成本，但是存在算法复杂度较高、抽取效果仍然有限的缺点。
[0004]针对上述问题，本专利技术提供了...

【技术保护点】

【技术特征摘要】
1.一种基于自动机器学习平台的智能信息抽取系统构建方法，其特征在于，包括以下步骤：S01：设计自动机器学习平台系统架构，包括前端设计、算法设计、后台部署三个板块；S02：构建信息抽取公开数据集资源库，同时融合用户提供的数据集形成增强数据集；S03：构建数据集标注系统，用户对需要抽取的部分重要信息进行标注，将标注好的数据作为训练数据；S04：设计OCR算子，实现多种类型文档的智能解析，转换为信息抽取系统可用的数据集格式；S05：构建文本对齐算子、词向量转换算子、数据集增强算子，对数据集进行预处理和数据增强；S06：构建自动机器学习平台，基于主流的bert类算子、bilstm算子、crf算子等构建模型算子空间，设计完备的算子超参数搜索空间，通过实验论证各参数的最优取值范围；S07：基于知识工程和模式识别的方法构建模板规则库，从传统的信息抽取方法上实现抽取流程；S08：构建自动机器学习的训练pipeline、离线测试pipeline和在线推理pipeline，同时完成微服务部署；S09：将两种方案的结果进行融合输出，并做信息抽取结果的校验和评估，最后以结构化的方式进行输出。2.根据权利要求1所述的一种基于自动机器学习平台的智能信息抽取系统构建方法，其特征在于，步骤S01中，设计自动机器学习平台的UI界面，包括登录注册、上传数据、选择项目类型、构建任务、自动配置模型参数组合、自动构建模型算子组合、执行训练pipeline、执行离线测试pipeline、部署在线服务pipeline、配置数据导出模型、查看解决方案等功能模块。3.根据权利要求1所述的一种基于自动机器学习平台的智能信息抽取系统构建方法，其特征在于，步骤S02中，增强后的数据集按照一定的比例进行训练集、测试集的划分，且训练集不仅用于深度学习模型的训练，同时也输入到专家系统用于特征分析、模板构建和规则制定。4.根据权利要求1所述的一种基于自动机器学习平台的智能信息抽取系统构建方法，其特征在于，步骤S03中，提供用户标注的平台，用户直接上传无标签数据，同时通过标注平台进行智能标注，同时优化标注平台的操作流程、标注效率，实现同类信息自动标注、相关信息推荐标注。5.根据权利要求1所述的一种基于自动机器学习平台的智能信息抽取系统构建方法...

【专利技术属性】
技术研发人员：曹勇，吴承霖，张杨，陈焕坤，
申请(专利权)人：深圳深度赋智科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人