一种无区间表征向量的实体共指消解方法技术

技术编号:45022011 阅读:26 留言:0更新日期:2025-04-18 17:04
本发明专利技术公开了一种无区间表征向量的实体共指消解方法,涉及自然语言处理技术领域,包括以下步骤:预先通过Bert微调模型编码区间内部和外部的信息,生成每个单词包含上下文信息的词嵌入表征向量,并将每一个单词的词嵌入表征向量作为输入;通过区间的开始token和结束token,来计算该区间是否是一个实体的得分。本发明专利技术消除了对区间表征向量、手工构造特征和语法解析的依赖,使可以在一个批次中处理多个文档而无需截断或滑动窗口,同时无需使用先验知识和修剪算法。该模型与基准线模型相比具有竞争力,占用内存更少,同时更简单、更高效。

【技术实现步骤摘要】

本专利技术涉及自然语言处理,具体来说,涉及一种无区间表征向量的实体共指消解方法


技术介绍

1、共指消解(coreference resolution)是nlp(自然语言处理)里面一种常见的任务,可以识别一段文本中指代相同对象的部分。实体共指消解形式上,是将代表同一实体的不同指称划分到一个等价集合(指代链)的过程称为共指消解。它通常通过识别实体提及(连续的文本区间),并预测引用先前提到的实体的每个区间的先行词提及,否则预测空区间查询来建模。共指消解能够有效解决文本当中的指代不明问题,是nlp领域一项基础性研究,在机器阅读理解,信息抽取,多轮对话等任务中都起到重要作用。

2、在2017年之前共指消解通常要利用语法解析和手动特征工程等技术,效果不理想。后来lee等人发表了使用神经网络进行端到端指代消解的论文《end-to-end neuralcoreference resolution》,该方法超越了之前的所有共指消解方法,后续很多技术都用到了这一论文的思想。

3、在引入transformer架构之前,最广泛使用的序列转换模型是建立在高本文档来自技高网...

【技术保护点】

1.一种无区间表征向量的实体共指消解方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的无区间表征向量的实体共指消解方法,其特征在于,步骤所述生成每个单词包含上下文信息的词嵌入表征向量,包括以下步骤:

3.根据权利要求2所述的无区间表征向量的实体共指消解方法,其特征在于,步骤所述计算区间c和区间q指代同一个实体对象的得分,包括以下步骤:

4.根据权利要求3所述的无区间表征向量的实体共指消解方法,其特征在于,还包括以下步骤:

5.根据权利要求4所述的无区间表征向量的实体共指消解方法,其特征在于,还包括以下步骤:

【技术特征摘要】

1.一种无区间表征向量的实体共指消解方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的无区间表征向量的实体共指消解方法,其特征在于,步骤所述生成每个单词包含上下文信息的词嵌入表征向量,包括以下步骤:

3.根据权利要求2所述的无区间表征向量的实体共指消解...

【专利技术属性】
技术研发人员:蔡志宏张如浩孟睿佳陈建宝时凯
申请(专利权)人:南京禄口国际机场空港科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1