混合提示学习与规则的领域命名实体识别方法技术

技术编号：42222708 阅读：17 留言：0更新日期：2024-08-02 13:41

本发明专利技术公开了一种混合提示学习与规则的领域命名实体识别方法，以解决现有的领域命名实体识别需要批注数据量大、分类精确性不足的技术问题。本发明专利技术先将利用少样本标注数据集获取到规则模式集合，然后通过快速匹配算法DAAC_BM，对句子中的具有相同前后缀的未标记实例标记类别。然后筛选本体中的规则，将其作为提示信息来标注句子中不能通过规则模式匹配而获取类别的实体。它将前一个组件提出的标注实体类别作为输入，将本体中所有包含了及其关系的三元组提取出来。接下来，将所有的规则与输入句子转化为谓词逻辑形式并进行对比，提取其中可信度最高的规则作为提示信息，与句子一同交给预训练模型进行NER。把模型分类出的结果返回给第二部分，通过自监督训练模型。混合提示学习与规则，解决了中文领域命名实体识别中缺乏批注数据集、提示学习中模板需要手工构造以及提示模板过长的问题。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及领域命名实体识别，具体涉及一种混合提示学习与规则的领域命名实体识别方法。

技术介绍

1、领域命名实体识别旨在从文本中提取出各种类型的实体，其结果可用于领域中后续的其他复杂任务诸如关系提取、领域知识图谱的构建等。但领域命名实体识别面临着数据缺乏与实体形式更加复杂的问题。目前，基于提示的调优学习已经成为自然语言处理领域的新范式，基于提示的调优学习可以通过改造下游任务，增加专家知识，减少模型对大型监督数据集的需求，从而在少样本场景中获得良好的效果，十分契合领域命名实体识别任务的特性。

2、但是，目前基于提示的调优学习多应用于文本分类或文本生成领域,在命名实体识别领域的应用较少。目前已经发表的基于提示学习的ner方法具有如下缺陷：需要人工构造提示信息模板,所以需要耗费大量的人力物力且容易出错；需要对序列中的每一个单词都构造提示信息,当输入序列较长时，无疑会再度增加序列的长度，增加模型的计算复杂度；提示信息模式较为固定,在面对领域内复杂类型实体时表现性能较差。

技术实现思路

>1、本专利技术提供本文档来自技高网...

【技术保护点】

1.一种混合提示学习与规则的领域命名实体识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的混合提示学习与规则的领域命名实体识别方法，其特征在于，在步骤S2中，自动批注方法为Bootstrapping方法，使用Bootstrapping方法在每轮训练中不断更新实体列表并对数据集中未批注实体进行批注。

3.根据权利要求1所述的混合提示学习与规则的领域命名实体识别方法，其特征在于，在步骤S3中，将Double-array trie算法用于AC_BM算法进行中文字符的存储和匹配，在将AC_BM算法的查找树存储入Double-array trie时，将根节点存入...

【技术特征摘要】

1.一种混合提示学习与规则的领域命名实体识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的混合提示学习与规则的领域命名实体识别方法，其特征在于，在步骤s2中，自动批注方法为bootstrapping方法，使用bootstrapping方法在每轮训练中不断更新实体列表并对数据集中未批注实体进行批注。

3.根据权利要求1所述的混合提示学习与规则的领域命名实体识别方法，其特征在于，在步骤s3中，将double-array trie算法用于ac_bm算法进行中文字符的存储和匹配，在将ac_bm算法的查找树存储入double-array trie时，将根节点存入base[0],将root所有子节点入队，初始parentint为0，出队一个节点作为nownode，利用字符编码将nownode转为数字nowint，初始化baseint为0，当nownode所有子节点转为数字加baseint的下标在base数组中不冲突时，将baseint存入base[parentint+nowint]中，并使得cheeck[parentint+nowint]等于父节点在base数组中下标，入队nownode的子节点，然后不断出队节点，并更新父节点，计算baseint存入base数组，然后更新check数组，将整个查找树存入两个数组中，进行匹配时，将根节点作为父节点，第一个待匹配字转为数字nint，将base[0]+nint找到数组下标，...

【专利技术属性】
技术研发人员：张铖方，张晗，张亚洲，
申请(专利权)人：郑州大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人