一种基于规则模板的信息抽取方法和系统技术方案

技术编号:37160255 阅读:15 留言:0更新日期:2023-04-06 22:24
本发明专利技术涉及一种基于规则模板的信息抽取方法和系统,利用规则模板融合行业术语词典与自然语言处理中常见的命名实体识别模型进行信息抽取,具体包括:基于抽取需求训练命名实体识别模型,得到训练好的命名实体识别模型;基于所述抽取需求建立信息抽取规则模板;解析所述信息抽取规则模板,调用行业术语词典和训练好的所述命名实体识别模型,对待抽取文本进行信息抽取得到抽取结果。本发明专利技术通过配置规则模板,有效融合行业术语与命名实体识别模型,解决了单以信息抽取模型抽取的信息内容规范固定、不够灵活的问题;以及行业信息抽取常见的长文本抽取中,抽取的信息之间的顺序性、规则性、关联性关系,避免了单一信息抽取模型的信息割裂。信息割裂。信息割裂。

【技术实现步骤摘要】
一种基于规则模板的信息抽取方法和系统


[0001]本专利技术属于信息抽取领域,尤其涉及一种基于规则模板的信息抽取 方法和系统。

技术介绍

[0002]随着大数据技术的发展,行业中的数据和信息的丰富程度呈指数级 爆炸增长,但同时也让我们陷入无法快速找到所需信息的困境中,如何 从这些海量数据中快速、准确地分析出真正有用的信息,显得尤为关键 和紧迫,为此信息抽取技术应运而生。信息抽取技术广泛用于各个行业, 从文本信息中抽取有意义的事实信息,这些文本可以是结构化、半结构 化或非结构化的数据,被抽取的事实信息以结构化的形式进行描述,并 可以存入结构化数据库中,供人们分析和利用。
[0003]现有的信息抽取技术中,通常分为两类:基于固定的行业术语词典 进行匹配和基于自然语言处理的模型抽取。以上两种方法各自都有一定 局限性。基于行业词典匹配方法里,词典里的元素通常是可枚举的、固 定不可变,灵活性天然不足。基于自然语言模型的抽取方式通常需要从 零开始手机大量数据进行训练,训练后模型可抽取的元素也是固化的, 如果需要进行模型迭代则需要重新标注、重新训练,此过程需耗费大量 时间,效率过低、准确率不高并且不够灵活。
[0004]面对现有行业中数据的快速增长和业务的快速变化,特定数量的文 本信息抽取方法在大数据中应用时可能会出现不适应信息之间存在关联 的抽取问题,需要一种新的具有高准确率、能灵活配置、快速迭代的信 息抽取技术。

技术实现思路

[0005]鉴于上述的分析,本专利技术旨在提供一种基于规则模板的信息抽取方 法和系统,利用规则模板融合行业术语词典与自然语言处理中常见的命 名实体识别模型进行信息抽取。
[0006]一方面,本专利技术提供了一种基于规则模板的信息抽取方法,具体包 括如下步骤:
[0007]基于抽取需求训练命名实体识别模型,得到训练好的命名实体识别 模型;
[0008]基于所述抽取需求建立信息抽取规则模板;
[0009]解析所述信息抽取规则模板,调用行业术语词典和训练好的所述命 名实体识别模型,对待抽取文本进行信息抽取得到抽取结果。
[0010]进一步的,所述基于所述抽取需求建立信息抽取规则模板,包括:
[0011]基于抽取需求确定多个抽取字段;
[0012]基于所述多个抽取字段确定抽取元素,所述抽取元素包括行业术语 元素、实体元素和正则表达式元素;
[0013]利用用于限定业务格式匹配的元素、多个所述抽取元素以及各元素 之间的顺序关系,得到所述信息抽取规则模板。
[0014]进一步的,所述用于限定业务格式匹配的元素包括固定文本和任意 匹配文本;其
中,所述固定文本基于抽取字段获得,用于限定模板的匹 配结果;所述任意匹配文本为只限定长度不限定内容的文本。
[0015]进一步的,所述训练命名实体识别模型包括:
[0016]基于抽取需求确定所属行业;
[0017]基于所属行业获取所属行业业务运行过程中的文本数据作为训练数 据集;
[0018]对所述训练数据集进行实体序列数据标注;
[0019]使用标注好的训练数据集对预训练框架ERNIE进行训练,得到训练 后的命名实体识别模型;
[0020]基于训练数据集获取测试数据集;
[0021]使用所述测试数据集对训练后的命名实体识别模型进行测试,得到 评估指标;
[0022]基于业务目标和评估指标判断模型是否训练完毕:当评估指标低于 业务目标时,重新获取训练集进行训练;当评估指标高于业务目标时, 训练结束,得到训练好的命名实体识别模型。
[0023]进一步的,在解析所述信息抽取规则模板前,还包括配置所述信息 抽取规则模板的使用规则,包括是否允许模板匹配多次以及从文本开始 处匹配或从文本结尾处匹配;
[0024]解析所述信息抽取规则模板,得到解析后的信息抽取规则模板;
[0025]基于所述使用规则使用解析后的信息抽取规则模板调用行业术语词 典和所述命名实体识别模型,对待抽取文本进行信息抽取。
[0026]进一步的,所述解析所述信息抽取规则模板,调用行业术语词典和 所述命名实体识别模型,对待抽取文本进行信息抽取得到抽取结果包括:
[0027]解析并转换模板中的固定文本和任意匹配文本,解析并转换模板中 的所述行业术语元素、所述实体元素和所述正则表达式元素,得到所述 规则模板的正则表达式;
[0028]使用所述模板的正则表达式对待抽取文本进行匹配得到匹配结果, 所述匹配结果为按抽取元素类型分组的包含抽取字段的文本片段集合;
[0029]对各抽取元素类型对应的文本片段集合进行抽取;其中,基于所述 行业术语词典对对应于行业术语元素的文本片段集合进行抽取,使用所 述训练好的命名实体识别模型对对应于实体元素的文本片段集合进行抽 取;
[0030]将对应行业术语元素和实体元素的抽取结果文本和正则表达式元素 的抽取结果组合,得到待抽取文本的抽取结果。
[0031]另一方面,本专利技术还提供了一种基于规则模板的信息抽取系统,包 括:
[0032]抽取字段管理模块:用于基于抽取需求配置和管理信息抽取字段;
[0033]行业术语词典模块:用于基于所述抽取字段配置和管理行业术语词 典;
[0034]命名实体识别模型模块:用于基于抽取需求,配置和管理命名实体 识别模型、配置和管理训练数据集和测试数据集、训练命名实体识别模 型以及模型评估;
[0035]规则模板管理模块:用于基于抽取需求配置和管理信息抽取规则模 板;
[0036]信息抽取模块:用于使用信息抽取规则模板调用行业术语词典和训 练好的命名实体识别模型对待抽取文本进行信息抽取。
[0037]进一步的,所述行业术语词典模块包括:
[0038]基于抽取字段管理模块配置好的抽取字段和业务运行过程中的术语, 的到行业
术语字典的基本行业术语字段;
[0039]基于所述基本行业术语字段,对其中同义词进行配置管理,得到枚 举行业术语;
[0040]基于所述基本行业术语字段,使用正则规则配置行业术语,得到正 则行业术语;
[0041]基于所述基本行业术语字段、所述枚举行业术语和所述正则行业术 语得到行业术语词典。
[0042]进一步的,所述命名实体识别模型模块包括基于抽取需求确定是否 存在训练好的命名实体识别模型:
[0043]如果不存在,则新建命名实体识别模型,并基于抽取需求训练进行 训练,得到训练好的命名实体识别模型;
[0044]如果存在,则提供给规则模板管理模块配置信息抽取规则模板。
[0045]进一步的,所述信息抽取模块用于使用信息抽取规则模板对待抽取 文本进行信息抽取包括,
[0046]配置所述信息抽取规则模板的使用规则;
[0047]解析所述信息抽取规则模板得到模板的正则表达式;
[0048]使用所述模板的正则表达式调用本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于规则模板的信息抽取方法,其特征在于,包括如下步骤:基于抽取需求训练命名实体识别模型,得到训练好的命名实体识别模型;基于所述抽取需求建立信息抽取规则模板;解析所述信息抽取规则模板,调用行业术语词典和训练好的所述命名实体识别模型,对待抽取文本进行信息抽取得到抽取结果。2.根据权利要求1所述的信息抽取方法,其特征在于,所述基于所述抽取需求建立信息抽取规则模板,包括:基于抽取需求确定多个抽取字段;基于所述多个抽取字段确定抽取元素,所述抽取元素包括行业术语元素、实体元素和正则表达式元素;利用用于限定业务格式匹配的元素、多个所述抽取元素以及各元素之间的顺序关系,得到所述信息抽取规则模板。3.根据权利要求2所述的信息抽取方法,其特征在于,所述用于限定业务格式匹配的元素包括固定文本和任意匹配文本;其中,所述固定文本基于抽取字段获得,用于限定模板的匹配结果;所述任意匹配文本为只限定长度不限定内容的文本。4.根据权利要求1所述的信息抽取方法,其特征在于,所述训练命名实体识别模型包括:基于抽取需求确定所属行业;基于所属行业获取所属行业业务运行过程中的文本数据作为训练数据集;对所述训练数据集进行实体序列数据标注;使用标注好的训练数据集对预训练框架ERNIE3.0进行训练,得到训练后的命名实体识别模型;基于训练数据集获取测试数据集;使用所述测试数据集对训练后的命名实体识别模型进行测试,得到评估指标;基于业务目标和评估指标判断模型是否训练完毕:当评估指标低于业务目标时,重新获取训练集进行训练;当评估指标高于业务目标时,训练结束,得到训练好的命名实体识别模型。5.根据权利要求3所述的信息抽取方法,其特征在于,在解析所述信息抽取规则模板前,还包括配置所述信息抽取规则模板的使用规则,包括是否允许模板匹配多次以及从文本开始处匹配或从文本结尾处匹配;解析所述信息抽取规则模板,得到解析后的信息抽取规则模板;基于所述使用规则使用解析后的信息抽取规则模板调用行业术语词典和所述命名实体识别模型,对待抽取文本进行信息抽取。6.根据权利要求5所述的信息抽取方法,其特征在于,所述解析所述信息抽取规则模板,调用行业术语词典和所述命名实体识别模型,对待抽取文本进行信息抽取得到抽取结果包括:解析并转换模板中的固定文本和任意匹配文本,解析并转换模板中的所述行业...

【专利技术属性】
技术研发人员:彭龙杨亮杜宏博王乐和葛天恒薛行葛晋鹏崔琳许童王强
申请(专利权)人:中国兵器工业计算机应用技术研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1