【技术实现步骤摘要】
本专利技术涉及领域命名实体识别,具体涉及一种混合提示学习与规则的领域命名实体识别方法。
技术介绍
1、领域命名实体识别旨在从文本中提取出各种类型的实体,其结果可用于领域中后续的其他复杂任务诸如关系提取、领域知识图谱的构建等。但领域命名实体识别面临着数据缺乏与实体形式更加复杂的问题。目前,基于提示的调优学习已经成为自然语言处理领域的新范式,基于提示的调优学习可以通过改造下游任务,增加专家知识,减少模型对大型监督数据集的需求,从而在少样本场景中获得良好的效果,十分契合领域命名实体识别任务的特性。
2、但是,目前基于提示的调优学习多应用于文本分类或文本生成领域,在命名实体识别领域的应用较少。目前已经发表的基于提示学习的ner方法具有如下缺陷:需要人工构造提示信息模板,所以需要耗费大量的人力物力且容易出错;需要对序列中的每一个单词都构造提示信息,当输入序列较长时,无疑会再度增加序列的长度,增加模型的计算复杂度;提示信息模式较为固定,在面对领域内复杂类型实体时表现性能较差。
技术实现思路
【技术保护点】
1.一种混合提示学习与规则的领域命名实体识别方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的混合提示学习与规则的领域命名实体识别方法,其特征在于,在步骤S2中,自动批注方法为Bootstrapping方法,使用Bootstrapping方法在每轮训练中不断更新实体列表并对数据集中未批注实体进行批注。
3.根据权利要求1所述的混合提示学习与规则的领域命名实体识别方法,其特征在于,在步骤S3中,将Double-array trie算法用于AC_BM算法进行中文字符的存储和匹配,在将AC_BM算法的查找树存储入Double-array tr
...【技术特征摘要】
1.一种混合提示学习与规则的领域命名实体识别方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的混合提示学习与规则的领域命名实体识别方法,其特征在于,在步骤s2中,自动批注方法为bootstrapping方法,使用bootstrapping方法在每轮训练中不断更新实体列表并对数据集中未批注实体进行批注。
3.根据权利要求1所述的混合提示学习与规则的领域命名实体识别方法,其特征在于,在步骤s3中,将double-array trie算法用于ac_bm算法进行中文字符的存储和匹配,在将ac_bm算法的查找树存储入double-array trie时,将根节点存入base[0],将root所有子节点入队,初始parentint为0,出队一个节点作为nownode,利用字符编码将nownode转为数字nowint,初始化baseint为0,当nownode所有子节点转为数字加baseint的下标在base数组中不冲突时,将baseint存入base[parentint+nowint]中,并使得cheeck[parentint+nowint]等于父节点在base数组中下标,入队nownode的子节点,然后不断出队节点,并更新父节点,计算baseint存入base数组,然后更新check数组,将整个查找树存入两个数组中,进行匹配时,将根节点作为父节点,第一个待匹配字转为数字nint,将base[0]+nint找到数组下标,...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。