【技术实现步骤摘要】
一种低资源场景下的知识三元组抽取方法
本专利技术属于数据存储处理
,具体涉及一种低资源场景下的知识三元组抽取方法。
技术介绍
知识图谱以结构化的形式描述客观世界中的概念、实体及其关系,将互联网的信息表达成更接近人类认知世界的形式,提供了一种更好地组织、管理和理解互联网海量信息的能力。知识图谱主要包含实体、关系和三元组,每一个三元组表示一条知识。当两个实体之间存在某一种关系时,用<h,r,t>表示一个三元组,其中h,t分别表示头实体和尾实体,r表示关系,例如<浙江,省会,杭州>即表示了“杭州是浙江的省会”这么一条知识。知识三元组抽取是知识图谱构建和信息抽取中的一个关键环节,具有重要的理论意义和广阔的应用前景,为多种应用提供重要的支持。如大规模知识图谱自动化构建,包括WordNet、HowNet等常识知识图谱中的通用语义知识,以及金融、医疗等垂直应用领域的定制知识图谱。信息检索、智能推荐、问答系统等知识图谱应用技术的优劣程度也严重依赖于上层图谱构建的质量。目前知识三元组抽取的方法,主要分为基于规则的方法和基于机器学习的方法。传统专家依靠预定义好的规则手工编撰的方式构建知识库,不仅费时费力,而且存在知识覆盖率低、数据稀疏、更新缓慢等缺点。基于机器学习的方法则可以自动化地抽取三元组。自从深度学习发展起来后,学者侧重于使用深度神经网络模型处理知识抽取任务。深度学习的方法抽取知识三元组,目前主要有多步抽取和端到端抽取两种方式。多步抽取即先识别出文本语料中的实体,标注出头实体h ...
【技术保护点】
1.一种低资源场景下的知识三元组抽取方法,其特征在于,包括以下步骤:/n(1)采集低资源场景下的文本语句作为测试样本;从元训练语料中采样与测试样本的关系类别个数相同的一批文本语句组成元支持集,再从元训练语料中采样与测试样本的关系类别个数相同的另外一批文本语句组成元查询集;/n(2)构建包括编码单元、标注单元、原型构建单元、匹配单元的元模型,其中,编码单元用于对文本语句编码得到文本编码向量,标注单元用于对文本编码向量进行头尾实体标注,原型构建单元用于根据标注的文本编码向量构建每个关系类别的头实体原型、尾实体原型和关系原型,匹配单元用于根据其他文本语句的文本编码向量与头实体原型、尾实体原型和关系原型相匹配,以提取文本语句中三元组;/n(3)根据标注单元的标注损失和匹配单元的匹配损失构建元模型的总损失,将元支持集和元查询集作为元模型的训练样本集,利用总损失对元模型进行训练,以优化编码单元和标注单元参数,得到预训练好的元模型;/n(4)利用测试文本语句对预训练好的元模型再训练,得到适用于低资源场景的抽取模型和头实体原型、尾实体原型和关系原型;/n(5)将查询文本语句输入至抽取模型中,通过对查询 ...
【技术特征摘要】
1.一种低资源场景下的知识三元组抽取方法,其特征在于,包括以下步骤:
(1)采集低资源场景下的文本语句作为测试样本;从元训练语料中采样与测试样本的关系类别个数相同的一批文本语句组成元支持集,再从元训练语料中采样与测试样本的关系类别个数相同的另外一批文本语句组成元查询集;
(2)构建包括编码单元、标注单元、原型构建单元、匹配单元的元模型,其中,编码单元用于对文本语句编码得到文本编码向量,标注单元用于对文本编码向量进行头尾实体标注,原型构建单元用于根据标注的文本编码向量构建每个关系类别的头实体原型、尾实体原型和关系原型,匹配单元用于根据其他文本语句的文本编码向量与头实体原型、尾实体原型和关系原型相匹配,以提取文本语句中三元组;
(3)根据标注单元的标注损失和匹配单元的匹配损失构建元模型的总损失,将元支持集和元查询集作为元模型的训练样本集,利用总损失对元模型进行训练,以优化编码单元和标注单元参数,得到预训练好的元模型;
(4)利用测试文本语句对预训练好的元模型再训练,得到适用于低资源场景的抽取模型和头实体原型、尾实体原型和关系原型;
(5)将查询文本语句输入至抽取模型中,通过对查询样本的向量编码、向量标注以及原型匹配,得到抽取的知识三元组。
2.如权利要求1所述的低资源场景下的知识三元组抽取方法,其特征在于,所述编码单元采用语言预训练模型BERT,将文本语句中词语映射成词嵌入向量,组成文本编码向量。
3.如权利要求1所述的低资源场景下的知识三元组抽取方法,其特征在于,所述标注单元采用条件随机场(CRF)对文本编码向量做序列标注任务,获得文本语句中头尾实体位置,实体标记集合为:{B-Head,I-Head,B-Tail,I-Tail,O},其中,B-Head,I-Head分别表示头实体的开始位置和之后位置信息,B-Tail,I-Tail分别表示尾实体的开始位置和之后位置信息,O为非实体标注信息。
4.如权利要求1所述的低资源场景下的知识三元组抽取方法,其特征在于,所述原型构建单元根据标注的文本编码向量构建每个关系类别的头实体原型、尾实体原型和关系原型的过程为:
以头实体、尾实体的第一个位置向量表征整个头实体信息、尾实体信息;
根据每个关系类别对应的所有文本语句中的头实体信息和尾实体信息,计算每个关系类别对应的头实体原型Headproto、尾实体原型Tailproto和关系原型Relationproto:
...
【专利技术属性】
技术研发人员:陈华钧,余海阳,张宁豫,邓淑敏,
申请(专利权)人:浙江大学,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。