一种基于规则模板的信息抽取方法和系统技术方案

技术编号：37160255 阅读：15 留言：0更新日期：2023-04-06 22:24

本发明专利技术涉及一种基于规则模板的信息抽取方法和系统，利用规则模板融合行业术语词典与自然语言处理中常见的命名实体识别模型进行信息抽取，具体包括：基于抽取需求训练命名实体识别模型，得到训练好的命名实体识别模型；基于所述抽取需求建立信息抽取规则模板；解析所述信息抽取规则模板，调用行业术语词典和训练好的所述命名实体识别模型，对待抽取文本进行信息抽取得到抽取结果。本发明专利技术通过配置规则模板，有效融合行业术语与命名实体识别模型，解决了单以信息抽取模型抽取的信息内容规范固定、不够灵活的问题；以及行业信息抽取常见的长文本抽取中，抽取的信息之间的顺序性、规则性、关联性关系，避免了单一信息抽取模型的信息割裂。信息割裂。信息割裂。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于规则模板的信息抽取方法和系统

[0001]本专利技术属于信息抽取领域，尤其涉及一种基于规则模板的信息抽取方法和系统。

技术介绍

[0002]随着大数据技术的发展，行业中的数据和信息的丰富程度呈指数级爆炸增长，但同时也让我们陷入无法快速找到所需信息的困境中，如何从这些海量数据中快速、准确地分析出真正有用的信息，显得尤为关键和紧迫，为此信息抽取技术应运而生。信息抽取技术广泛用于各个行业，从文本信息中抽取有意义的事实信息，这些文本可以是结构化、半结构化或非结构化的数据，被抽取的事实信息以结构化的形式进行描述，并可以存入结构化数据库中，供人们分析和利用。
[0003]现有的信息抽取技术中，通常分为两类：基于固定的行业术语词典进行匹配和基于自然语言处理的模型抽取。以上两种方法各自都有一定局限性。基于行业词典匹配方法里，词典里的元素通常是可枚举的、固定不可变，灵活性天然不足。基于自然语言模型的抽取方式通常需要从零开始手机大量数据进行训练，训练后模型可抽取的元素也是固化的，如果需要进行模型迭代则需要重新标注、重新训练，此过程需耗费大量时间，效率过低、准确率不高并且不够灵活。
[0004]面对现有行业中数据的快速增长和业务的快速变化，特定数量的文本信息抽取方法在大数据中应用时可能会出现不适应信息之间存在关联的抽取问题，需要一种新的具有高准确率、能灵活配置、快速迭代的信息抽取技术。

技术实现思路

[0005]鉴于上述的分析，本专利技术旨在提供一种基于规则模板的信息...

【技术保护点】

【技术特征摘要】
1.一种基于规则模板的信息抽取方法，其特征在于，包括如下步骤：基于抽取需求训练命名实体识别模型，得到训练好的命名实体识别模型；基于所述抽取需求建立信息抽取规则模板；解析所述信息抽取规则模板，调用行业术语词典和训练好的所述命名实体识别模型，对待抽取文本进行信息抽取得到抽取结果。2.根据权利要求1所述的信息抽取方法，其特征在于，所述基于所述抽取需求建立信息抽取规则模板，包括：基于抽取需求确定多个抽取字段；基于所述多个抽取字段确定抽取元素，所述抽取元素包括行业术语元素、实体元素和正则表达式元素；利用用于限定业务格式匹配的元素、多个所述抽取元素以及各元素之间的顺序关系，得到所述信息抽取规则模板。3.根据权利要求2所述的信息抽取方法，其特征在于，所述用于限定业务格式匹配的元素包括固定文本和任意匹配文本；其中，所述固定文本基于抽取字段获得，用于限定模板的匹配结果；所述任意匹配文本为只限定长度不限定内容的文本。4.根据权利要求1所述的信息抽取方法，其特征在于，所述训练命名实体识别模型包括：基于抽取需求确定所属行业；基于所属行业获取所属行业业务运行过程中的文本数据作为训练数据集；对所述训练数据集进行实体序列数据标注；使用标注好的训练数据集对预训练框架ERNIE3.0进行训练，得到训练后的命名实体识别模型；基于训练数据集获取测试数据集；使用所述测试数据集对训练后的命名实体识别模型进行测试，得到评估指标；基于业务目标和评估指标判断模型是否训练完毕：当评估指标低于业务目标时，重新获取训练集进行训练；当评估指标高于业务目标时，训练结束，得到训练好的命名实体识别模型。5.根据权利要求3所述的信息抽取方法，其特征在于，在解析所述信息抽取规则模板前，还包括配置所述信息抽取规则模板的使用规则，包括是否允许模板匹配多次以及从文本开始处匹配或从文本结尾处匹配；解析所述信息抽取规则模板，得到解析后的信息抽取规则模板；基于所述使用规则使用解析后的信息抽取规则模板调用行业术语词典和所述命名实体识别模型，对待抽取文本进行信息抽取。6.根据权利要求5所述的信息抽取方法，其特征在于，所述解析所述信息抽取规则模板，调用行业术语词典和所述命名实体识别模型，对待抽取文本进行信息抽取得到抽取结果包括：解析并转换模板中的固定文本和任意匹配文本，解析并转换模板中的所述行业...

【专利技术属性】
技术研发人员：彭龙，杨亮，杜宏博，王乐和，葛天恒，薛行，葛晋鹏，崔琳，许童，王强，
申请(专利权)人：中国兵器工业计算机应用技术研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人