当前位置: 首页 > 专利查询>浙江大学专利>正文

一种基于知识图谱的生成式零样本预测方法技术

技术编号:26762753 阅读:45 留言:0更新日期:2020-12-18 23:15
本发明专利技术公开了一种基于知识图谱的生成式零样本预测方法,包括以下步骤:以层次结构化的类别为类别节点,并为类别连接属性描述、文本描述以及外部知识作为附加节点,来构建融合各类语义信息的知识图谱;采用图神经网络算法对知识图谱的语义信息进行编码,生成类别向量表示;将生成类别向量表示作为生成模型的输入,以生成该类别的样本,用于零样本学习算法的学习和预测。通过构建融合各类语义信息的知识图谱,并基于该知识图谱为每个不可见类别生成特征更加丰富且更具有类间区分度的样本,以更好地解决不可见类别样本的预测问题。

【技术实现步骤摘要】
一种基于知识图谱的生成式零样本预测方法
本专利技术涉及生成式零样本学习领域,尤其涉及一种基于知识图谱的生成式零样本预测方法。
技术介绍
零样本学习(Zero-shotLearning,ZSL)是迁移学习领域的一个重要分支,主要用于处理监督学习中样本缺失的问题。典型的监督学习需要人工标记训练样本从而指导机器学习模型进行特征的提取,而样本的标记工作往往需要耗费巨大的人力和财力,尤其是在分类问题中,当出现一些新的类别时,需要人工标记上百或上千个训练样本。繁重的样本标记工作使得模型难以泛化。零样本学习技术则可以处理训练样本缺失情况下,模型的学习和预测问题,即利用样本标签之间的语义先验知识,将模型从已知标签的训练样本中学习到的样本特征迁移到未知的、缺少训练样本的新标签中,从而处理新标签的样本预测问题。近年来,ZSL及其相关算法在图像分类、文本分类、关系分类等领域取得了广泛的应用,在此任务中,已有训练样本的类别一般定义为可见类(即在训练数据集中可见),而训练样本缺失的类别一般定义为不可见类(即在训练数据集中不可见)。以图像分类为例,典型的ZSL算法假设“语义相似的类别(即在语义空间相近)也有相似的视觉特征(即在样本空间相近)”,因此,一些ZSL算法通过学习空间映射函数将样本特征与语义特征映射到相同的向量空间,在该向量空间进行最近邻的计算,从而预测样本的类别。然而,由于缺少不可见类别的训练样本,此类算法在训练时只有可见类的训练样本参与,容易导致算法模型在预测时的偏置,即将不可见类别的样本预测为可见类的标签,尤其是当样本空间中同时包含可见类和不可见类时。为了解决此问题,一些ZSL算法提出使用生成模型生成不可见类别的样本,具体地,利用类别的语义先验信息生成该类别的样本,典型的生成模型如生成对抗网络(Generativeadversarialnetwork,GAN)。此类生成式的零样本学习方法通过生成不可见类别的训练样本,将零样本学习转化为传统的监督学习,从而有效地解决零样本学习中样本缺失的问题。然而,大多数生成式零样本学习方法在生成样本时利用的语义先验信息较为单一,如类别的属性描述、类别的层次结构或类别的文本描述等。类别的属性详细地描述了类别的语义特征包括视觉特征诸如颜色、形状、非视觉特征(如动物类别的栖息地)以及其他特征。然而,相同的属性在不同的类别中表现可能不同,如在分类“斑马”和“猪”这两类动物时,相同的属性“尾巴”在两类动物中表现不同。类别的层次结构定义了类别所属的分类体系,如“马”和“斑马”同属于“马科”,然而由于这两类动物在分类层次上属于同一级别,它们的语义信息并不具备区分度。类别的文本描述为类别提供了详细的介绍,如“老虎是一种大型猫科动物,它有敏锐的听力、夜视力,可自由伸缩的尖爪和粗壮的犬齿,以及皮毛上黑色的垂直条纹”。然而这些描述中具有较多的噪声,有用信息的提取具有一定的难度。
技术实现思路
鉴于上述,本专利技术的目的是提供一种基于知识图谱的生成式零样本预测方法,通过构建融合各类语义信息的知识图谱,并基于该知识图谱为每个不可见类别生成特征更加丰富且更具有类间区分度的样本,以更好地解决不可见类别样本的预测问题。为实现上述专利技术目的,本专利技术提供以下技术方案:一种基于知识图谱的生成式零样本预测方法,包括以下步骤:以层次结构化的类别为类别节点,并为类别连接属性描述、文本描述以及外部知识作为附加节点,来构建融合各类语义信息的知识图谱;采用图神经网络算法对知识图谱的语义信息进行编码,生成类别向量表示;将生成的类别向量表示作为生成模型的输入,以生成该类别的样本,用于零样本类别的学习和预测。该基于知识图谱的生成式零样本预测方法中,融合各类别语义信息,综合各类语义信息的特点,并进行优势互补,如在属性描述中加入类别层面的约束、以及在类别层次结构中引入具有区分度的属性,同时,在此基础上,与一些外部知识库如ConceptNet、DBpedia等进行融合,引入更加丰富的类别语义信息,从而结合生成模型为每个不可见类生成特征更加丰富且更具有类间区分度的样本。优选地,构建知识图谱时,基于词汇知识库中蕴含的上位词、下位词关系,构建层次化的骨架结构,其中,每个类别作为一个类别节点,对应一个词汇,不同类别节点依据词汇知识库中的语义结构通过子类关系进行连接;将类别的属性描述和文本描述作为附加节点,并与类别节点进行连接,其中,每个类别与标注的属性描述通过包含属性关系进行连接,每个类别与描述文本通过存在描述关系进行连接。优选地,构建知识图谱时,将类别与外部知识库中实体对齐,将外部知识库中的实体的外部知识作为附件节点,通过包含外部知识关系将外部知识与类别进行连接。融合外部知识的具体方式为:利用现有的工具或平台将类别关键字与外部知识库的实体进行对齐,基于对齐后的实体,利用现有的KPI或查询工具查询实体(即类别)对应的外部知识,随后将查询到的外部知识进行合理组合,并通过包含外部知识关系与当前图谱中的类别节点进行连接。优选地,所述采用图神经网络算法对知识图谱的语义信息进行编码,生成类别向量表示包括:将知识图谱按照关系划分成多个子图,所述关系包括子类关系、包含属性关系、存在描述关系、包含外部知识关系;采用图神经网络分别对子图进行编码,得到融合每类语义信息的类别子向量表示,并将所有的类别子向量表示进行拼接,得到类别向量表示。本专利技术中,对不同的子图分别使用图神经网络算法进行编码时,在不同节点间进行信息传播的同时融合不同节点的语义信息,从而在向量空间得到每个节点的语义表示。采用图神经网络对子图进行编码之前,为子图中的每个类别节点和附加节点采用词向量进行初始化。具体地,使用词向量算法如word2vec、GloVe等在Wikipedia语料上进行训练得到预训练的词向量,此语料中包含类别、属性及文本描述所涉及的词汇。基于预训练的词向量,对每个节点进行表示,其中对于包含单个词汇的节点如“马”等,节点的初始化表示为对应词汇的词向量;对于包含多个词汇的节点如“长尾”等及文本描述节点(通常为一个句子),节点的初始化表示为所涉及词汇词向量的平均。其中,所述词汇知识库采用WordNet,所述外部知识库采用ConceptNet、DBpedia。优选地,所述生成模型基于生成对抗网络构建得到。生成模型在以类别向量表示作输入的条件下,结合服从一定分布的随机噪声,生成该类别的样本特征,从而用于零样本学习算法的学习和预测。与现有技术相比,本专利技术具有的有益效果至少包括:(1)本专利技术基于知识图谱融合现有的类别语义信息(类别属性描述、类别层次结构及类别文本描述)并进行优势互补,其中,属性描述可在层次结构中引入具有区分度的语义特征,而层次结构可以为属性描述增加类别层面的约束,三种语义信息的融合相比单一的且存在一定噪声的文本描述包含了更多语义信息。除此之外,本专利技术提出将类别链接到外部知识库从而在知识图谱中引入更多的外部知识,因此,本专利技术提出的知识图谱中包含了更全面的类别语义先验知识本文档来自技高网
...

【技术保护点】
1.一种基于知识图谱的生成式零样本预测方法,其特征在于,包括以下步骤:/n以层次结构化的类别为类别节点,并为类别连接属性描述、文本描述以及外部知识作为附加节点,来构建融合各类语义信息的知识图谱;/n采用图神经网络算法对知识图谱的语义信息进行编码,生成类别向量表示;/n将生成的类别向量表示作为生成模型的输入,以生成该类别的样本,用于零样本类别的学习和预测。/n

【技术特征摘要】
1.一种基于知识图谱的生成式零样本预测方法,其特征在于,包括以下步骤:
以层次结构化的类别为类别节点,并为类别连接属性描述、文本描述以及外部知识作为附加节点,来构建融合各类语义信息的知识图谱;
采用图神经网络算法对知识图谱的语义信息进行编码,生成类别向量表示;
将生成的类别向量表示作为生成模型的输入,以生成该类别的样本,用于零样本类别的学习和预测。


2.如权利要求1所述的基于知识图谱的生成式零样本预测方法,其特征在于,构建知识图谱时,基于词汇知识库中蕴含的上位词、下位词关系,构建层次化的骨架结构,其中,每个类别作为一个类别节点,对应一个词汇,不同类别节点依据词汇知识库中的语义结构通过子类关系进行连接;
将类别的属性描述和文本描述作为附加节点,并与类别节点进行连接,其中,每个类别与标注的属性描述通过包含属性关系进行连接,每个类别与描述文本通过存在描述关系进行连接。


3.如权利要求1或2所述的基于知识图谱的生成式零样本预测方法,其特征在于,构建知识图谱时,将类别与外部知识库中实体对齐,将外部知识库中的实体的外部知识作为附件节点,通过包含外部知识关系将外部知识与类别进行连接。


4.如权利要求...

【专利技术属性】
技术研发人员:陈华钧耿玉霞陈卓叶志权
申请(专利权)人:浙江大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1