一种低资源场景下的知识三元组抽取方法技术

技术编号：26762777 阅读：40 留言：0更新日期：2020-12-18 23:16

本发明专利技术公开了一种低资源场景下的知识三元组抽取方法，通过使用元训练语料训练元模型的方式，指导测试语料训练出泛化性能很好的模型。在元模型训练阶段，通过构造实体对原型和关系原型的方式学习度量查询集与支持集的距离，保证了元模型可以更好的利用低资源的少量样本。同时在抽取知识三元组的过程中，引入知识约束，保证了实体对和关系的内在交互性，可以同时增强两者抽取的性能。

全部详细技术资料下载

【技术实现步骤摘要】
一种低资源场景下的知识三元组抽取方法
本专利技术属于数据存储处理
，具体涉及一种低资源场景下的知识三元组抽取方法。
技术介绍
知识图谱以结构化的形式描述客观世界中的概念、实体及其关系，将互联网的信息表达成更接近人类认知世界的形式，提供了一种更好地组织、管理和理解互联网海量信息的能力。知识图谱主要包含实体、关系和三元组，每一个三元组表示一条知识。当两个实体之间存在某一种关系时，用<h，r，t>表示一个三元组，其中h，t分别表示头实体和尾实体，r表示关系，例如<浙江，省会，杭州>即表示了“杭州是浙江的省会”这么一条知识。知识三元组抽取是知识图谱构建和信息抽取中的一个关键环节，具有重要的理论意义和广阔的应用前景，为多种应用提供重要的支持。如大规模知识图谱自动化构建，包括WordNet、HowNet等常识知识图谱中的通用语义知识，以及金融、医疗等垂直应用领域的定制知识图谱。信息检索、智能推荐、问答系统等知识图谱应用技术的优劣程度也严重依赖于上层图谱构建的质量。目前知识三元组抽取的方法，主...

【技术保护点】
1.一种低资源场景下的知识三元组抽取方法，其特征在于，包括以下步骤：/n(1)采集低资源场景下的文本语句作为测试样本；从元训练语料中采样与测试样本的关系类别个数相同的一批文本语句组成元支持集，再从元训练语料中采样与测试样本的关系类别个数相同的另外一批文本语句组成元查询集；/n(2)构建包括编码单元、标注单元、原型构建单元、匹配单元的元模型，其中，编码单元用于对文本语句编码得到文本编码向量，标注单元用于对文本编码向量进行头尾实体标注，原型构建单元用于根据标注的文本编码向量构建每个关系类别的头实体原型、尾实体原型和关系原型，匹配单元用于根据其他文本语句的文本编码向量与头实体原型、尾实体原型和关系原...

【技术特征摘要】
1.一种低资源场景下的知识三元组抽取方法，其特征在于，包括以下步骤：
(1)采集低资源场景下的文本语句作为测试样本；从元训练语料中采样与测试样本的关系类别个数相同的一批文本语句组成元支持集，再从元训练语料中采样与测试样本的关系类别个数相同的另外一批文本语句组成元查询集；
(2)构建包括编码单元、标注单元、原型构建单元、匹配单元的元模型，其中，编码单元用于对文本语句编码得到文本编码向量，标注单元用于对文本编码向量进行头尾实体标注，原型构建单元用于根据标注的文本编码向量构建每个关系类别的头实体原型、尾实体原型和关系原型，匹配单元用于根据其他文本语句的文本编码向量与头实体原型、尾实体原型和关系原型相匹配，以提取文本语句中三元组；
(3)根据标注单元的标注损失和匹配单元的匹配损失构建元模型的总损失，将元支持集和元查询集作为元模型的训练样本集，利用总损失对元模型进行训练，以优化编码单元和标注单元参数，得到预训练好的元模型；
(4)利用测试文本语句对预训练好的元模型再训练，得到适用于低资源场景的抽取模型和头实体原型、尾实体原型和关系原型；
(5)将查询文本语句输入至抽取模型中，通过对查询样本的向量编码、向量标注以及原型匹配，得到抽取的知识三元组。

2.如权利要求1所述的低资源场景下的知识三元组抽取方法，其特征在于，所述编码单元采用语言预训练模型BERT，将文本语句中词语映射成词嵌入向量，组成文本编码向量。

3.如权利要求1所述的低资源场景下的知识三元组抽取方法，其特征在于，所述标注单元采用条件随机场(CRF)对文本编码向量做序列标注任务，获得文本语句中头尾实体位置，实体标记集合为：{B-Head,I-Head,B-Tail,I-Tail,O}，其中，B-Head,I-Head分别表示头实体的开始位置和之后位置信息，B-Tail,I-Tail分别表示尾实体的开始位置和之后位置信息，O为非实体标注信息。

4.如权利要求1所述的低资源场景下的知识三元组抽取方法，其特征在于，所述原型构建单元根据标注的文本编码向量构建每个关系类别的头实体原型、尾实体原型和关系原型的过程为：
以头实体、尾实体的第一个位置向量表征整个头实体信息、尾实体信息；
根据每个关系类别对应的所有文本语句中的头实体信息和尾实体信息，计算每个关系类别对应的头实体原型Headproto、尾实体原型Tailproto和关系原型Relationproto：

...

【专利技术属性】
技术研发人员：陈华钧，余海阳，张宁豫，邓淑敏，
申请(专利权)人：浙江大学，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人