一种基于数据分布自适应间隔的少样本复杂关系抽取方法技术

技术编号：32540784 阅读：23 留言：0更新日期：2022-03-05 11:37

本发明专利技术公开了一种基于数据分布自适应间隔的少样本复杂关系抽取方法，属于计算机自然语言处理领域。本发明专利技术针对文本中包含多个实体、多种关系的复杂场景，设计了元任务构造方法，引入了基于数据分布自适应间隔，并以此调整度量空间边界，同时引入负样本机制，解决None

全部详细技术资料下载

【技术实现步骤摘要】
一种基于数据分布自适应间隔的少样本复杂关系抽取方法

[0001]本专利技术属于计算机自然语言处理领域，是一种基于任务内部数据分布调整度量空间划分范围的少样本复杂关系抽取方法。

技术介绍

[0002]随着计算机和互联网的快速发展和普及，在这个信息爆炸的时代，如何快速地分析和处理信息，从文本中抽取出有价值的信息成为了研究的热点和急需解决的问题。其中，信息抽取技术将非结构化或半结构化描述的自然语言文本转化成结构化数据，在领域知识图谱构建、任务型对话系统、知识问答系统等诸多应用场景中发挥着重要的作用。通过信息抽取，从大量的数据中提取有价值的信息，使它们能够被机器理解，意义重大。
[0003]信息抽取是自然语言处理的一种运用，其任务为自动地从非结构化或半结构化文档中抽取出结构化信息。通过对文档信息进行建模，能够使计算机在大量的文本中抽取出重要的信息，节省了大量人力物力。
[0004]关系抽取是信息抽取领域的重要任务，目的在于从自然语言文本中抽取出指定实体对之间的语义关系。例如，“中国海军”和“中国”之间存在关系“所属国...

【技术保护点】

【技术特征摘要】
1.一种基于数据分布自适应间隔的少样本复杂关系抽取方法，其特征在于，通过构造元任务，基于数据分布自适应间隔和负样本机制，对复杂关系进行抽取。2.根据权利要求1所述的一种基于数据分布自适应间隔的少样本复杂关系抽取方法，其特征在于，包括以下步骤：步骤1，将包含文本实例、关系三元组的训练数据按照N
‑
way k
‑
shot的方式划分为一系列元任务，存放在任务列表[Task0,Task1,
…
]中；每个元任务均包含支持集和查询集，支持集与查询集中实例数量之比为2:1～3:1；步骤2，构建编码阶段预训练网络，对每个元任务中的数据进行处理，获得对文本的编码；步骤3，对步骤1得到的支持集/查询集的文本进行编码，得到向量表示；取当前实例中实体对应位置的向量，进行聚合，得到每个...

【专利技术属性】
技术研发人员：张岐坦，翟利志，钟麟，汪涛，高学攀，杜楚，卜毅明，任海洋，陈路路，陈金勇，苌军红，
申请(专利权)人：中国电子科技集团公司第五十四研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人