当前位置: 首页 > 专利查询>东南大学专利>正文

基于本体和语义一致性示例检索的低资源实体识别方法技术

技术编号:41704313 阅读:19 留言:0更新日期:2024-06-19 12:36
本发明专利技术提出基于本体和语义一致性示例检索的低资源实体识别方法,在第一阶段,利用大语言模型以零样本方式预识别样本中的潜在实体,使得后续能够利用其中包含的局部信息。在第二阶段,针对当前测试样本进行示例检索。(1)考虑本体一致性,在词袋模型基础上,设计本体词袋模型和本体分布表示以过滤示例并构建示例候选集。(2)考虑语义一致性,在原型网络基础上,设计基于自注意力机制的实体感知的上下文表示,以过滤示例候选集并构建最终示例集。在第三阶段,针对当前测试集进行示例检索。标注高频示例以构成支持集,结合大语言模型以少样本方式进行命名实体识别。本发明专利技术从本体、语义维度检索出高相关度的示例以解决低资源实体识别任务。

【技术实现步骤摘要】

本专利技术涉及基于本体和语义一致性示例检索的低资源实体识别方法,属于人工智能自然语言处理领域。


技术介绍

1、命名实体识别是多种自然语言处理任务的基础,例如实体链接、事件提取和问答。现有的使用预训练语言模型的命名实体识别方法通过采用标准的全监督范式已经取得了出色的性能。然而,这种监督范式严重依赖于大规模标注数据。因此,在现实场景中,当遇到低资源场景时,现有方法往往会遇到困难。

2、为了解决低资源命名实体识别任务的挑战,多种方法已经被提出,包括元学习、提示学习和上下文学习。在这些方法中,上下文学习通过将命令和少样本示例拼接起来,以提示大语言模型进行预测。这种学习方法是即插即用的,不需要额外的归纳偏差学习或复杂的模板设计。

3、一般来说,上下文学习的主要研究可以分为两个方向:命令形式和示例检索。命令形式的差异可能会导致模型预测结果的显著差异。比如,和直接将简单指令用作命令的方法相比,根据实体类型进行多轮问答可以改善命名实体识别任务的性能。然而,命令通常是人类手动创建的,这导致命令设计成为了一个工程问题,需要大量的人类经验和时间。

本文档来自技高网...

【技术保护点】

1.基于本体和语义一致性示例检索的低资源实体识别方法,其特征在于,具体步骤如下:

2.根据权利要求1所述的基于本体和语义一致性示例检索的低资源实体识别方法,其特征在于:对所述步骤1)中的基于大语言模型的预识别具体如下,

3.根据权利要求1所述的基于本体和语义一致性示例检索的低资源实体识别方法,其特征在于:对所述步骤2)中的基于本体的示例过滤具体如下,

4.根据权利要求1所述的基于本体和语义一致性示例检索的低资源实体识别方法,其特征在于:对所述步骤3)中的基于语义的示例检索具体如下,

5.根据权利要求1所述的基于本体和语义一致性示例检索的低资...

【技术特征摘要】

1.基于本体和语义一致性示例检索的低资源实体识别方法,其特征在于,具体步骤如下:

2.根据权利要求1所述的基于本体和语义一致性示例检索的低资源实体识别方法,其特征在于:对所述步骤1)中的基于大语言模型的预识别具体如下,

3.根据权利要求1所述的基于本体和语义一致性示例检索的低资源实体识别方法,其特征在于:对所述...

【专利技术属性】
技术研发人员:吴陈霄柯文俊汪鹏
申请(专利权)人:东南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1