基于去重采样的文档级关系抽取方法、装置、设备和介质制造方法及图纸

技术编号:44938455 阅读:26 留言:0更新日期:2025-04-12 01:15
本申请涉及自然语言处理技术领域。本申请公开了一种基于去重采样的文档级关系抽取方法、装置、设备和介质,其能够降低关系类别分布不平衡对关系抽取结果的准确性的影响,从而提高关系抽取结果的精度。所述基于去重采样的文档级关系抽取方法包括获取文本文档;采用预设标记对所述文本文档进行标记处理,获得已标记文档,所述已标记文档包含至少一组实体对;将所述已标记文档输入文档关系抽取模型,所述文档关系抽取模型对所述已标记文档进行去重采样和关系抽取处理,获得关系抽取结果。

【技术实现步骤摘要】

本申请涉及自然语言处理。更具体地说,本申请涉及一种基于去重采样的文档级关系抽取方法、装置、设备和介质


技术介绍

1、传统的文档级关系抽取方法是通过获取文档文本,对文档文本进行转换得到目标实体对向量和非目标实体对向量;将目标实体对向量和非目标实体对向量相结合,得到实体对结合向量;将实体对结合向量输入分类器,得到关系抽取结果。但是,大多数的文档文本均存在关系类别分布不平衡的现象,该方法在将这种关系类别分布不平衡的文档文本转换成目标实体对向量和非目标实体对向量的过程中,容易忽视低频的关系类别,从而使得关系抽取结果不够准确。


技术实现思路

1、本申请实施例的目的是,提供一种基于去重采样的文档级关系抽取方法、装置、设备和介质,其能够降低关系类别分布不平衡对关系抽取结果的准确性的影响,从而提高关系抽取结果的精度。本申请实施例主要通过下述技术方案实现:

2、本申请实施例的第一方面,提供了一种基于去重采样的文档级关系抽取方法,包括:

3、获取文本文档;

4、采用预设标记对所述文本文档进行本文档来自技高网...

【技术保护点】

1.一种基于去重采样的文档级关系抽取方法,其特征在于,包括:

2.根据权利要求1所述的基于去重采样的文档级关系抽取方法,其特征在于,将所述已标记文档输入文档关系抽取模型,所述文档关系抽取模型对所述已标记文档进行去重采样和关系抽取处理,获得关系抽取结果的步骤包括:

3.根据权利要求2所述的基于去重采样的文档级关系抽取方法,其特征在于,将所述已标记文档输入所述文档关系抽取模型的去重模块进行去重采样处理,获得待处理实体对集合的步骤包括:

4.根据权利要求2所述的基于去重采样的文档级关系抽取方法,其特征在于,将所述已标记文档输入所述文档关系抽取模型的多粒度文本...

【技术特征摘要】

1.一种基于去重采样的文档级关系抽取方法,其特征在于,包括:

2.根据权利要求1所述的基于去重采样的文档级关系抽取方法,其特征在于,将所述已标记文档输入文档关系抽取模型,所述文档关系抽取模型对所述已标记文档进行去重采样和关系抽取处理,获得关系抽取结果的步骤包括:

3.根据权利要求2所述的基于去重采样的文档级关系抽取方法,其特征在于,将所述已标记文档输入所述文档关系抽取模型的去重模块进行去重采样处理,获得待处理实体对集合的步骤包括:

4.根据权利要求2所述的基于去重采样的文档级关系抽取方法,其特征在于,将所述已标记文档输入所述文档关系抽取模型的多粒度文本编码模块进行编码处理,获得上下文嵌入向量的步骤包括:

5.根据权利要求2所述的基于去重采样的文档级关系抽取方法,其特征在于,将所述待处理实体对集合输入所述文档关系抽取模型的图卷积神经网络进行计算处理,获得目标实体对中主体的第一全局嵌入表示和客体的第二全局嵌入表示,其中,所述目标实体对是所述待处理实体对集合中的任意一个实...

【专利技术属性】
技术研发人员:李敏敏盛小俊唐岭军赵军杨琦李奕言魏仕龙郭仁忠
申请(专利权)人:深圳市规划和自然资源数据管理中心深圳市空间地理信息中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1