基于场景图和概念网相结合的检索知识图谱库生成方法技术

技术编号:35735353 阅读:15 留言:0更新日期:2022-11-26 18:37
基于场景图和概念网相结合的检索知识图谱库生成方法,包括:1)模型预训练:在神经网络上对输入数据进行预训练,检测图片中出现的物体种类和其位置;2)场景图的训练:对模型预训练的结果进行无偏训练,并应用神经网络模型最终输出与场景图相关信息的文件,预测出图片中不同种类之间的关系;3)知识图谱的自动扩充;4)对于训练完成的场景图模型进行测试;5)将场景图和概念网相关的文件信息进行提取并处理,然后导入到检索数据库中,最终组成本检索数据库;将场景图中相似度高的节点和关系进行合并,并将场景图和概念网对应的知识图谱库进行融合,最后将场景图和概念网合并成一个包含所有信息的知识图谱库;6)数据库定时更新。6)数据库定时更新。6)数据库定时更新。

【技术实现步骤摘要】
基于场景图和概念网相结合的检索知识图谱库生成方法


[0001]本专利技术属于计算机视觉领域和自然语言处理领域,具体涉及一种基于场景图和概念网相结合的知识图谱库生成方法。

技术介绍

[0002]知识图谱库技术是人工智能技术的重要组成部分,是一种揭示实体之间关系的语义网络,是基于图的数据结构,可以对现实世界的事物及其相互关系进行形式化地描述。在当下,已经有了非常广泛的应用,如智能搜索,智能问答,教育等多个领域,具有十分广阔的发展前景。
[0003]在当下,构建知识图谱的主要方法是自顶向下和自下而上的构建方式。自顶向下的构建方式是先确定数据模型,再根据模型去填充具体的数据,最终形成知识图谱库;而自下而上的构建方式是按三原组的方式收集数据,再根据数据内容提炼数据模型。但是,在构建知识图谱的过程中,会遇到如何获取高质量的知识,还有存在检索信息不全面的问题。
[0004]目前,知识图谱的构建方式主要是自顶向下和自下而上的构建方式。自顶向下的构建方式是先确定数据模型,再根据模型去填充具体的数据,最终形成知识图谱库;而自下而上的构建方式是按三原组的方式收集数据,再根据数据内容提炼数据模型。但是,在构建知识图谱的过程中,会遇到如何获取高质量的知识,还有存在检索信息不全面的问题。

技术实现思路

[0005]本专利技术要克服现有技术的上述缺点,提出一种基于场景图和概念网相结合的检索知识图谱库生成方法,以提高知识图谱库的检索能力。
[0006]为了获取高质量的知识,从数据库中提取出完整的信息,最终提高知识图谱的检索能力,本专利技术将场景图和概念网相结合。通过获取图像上的场景图信息,再与概念网上的各种知识相结合,生成出一种检索全面的知识图谱库。场景图是一种通用数据结构,表示为图像的图。图像中的目标对应图节点,目标之间的关系对应图边。针对场景图中的实用性,需要对训练的偏差进行调整,对于主谓宾三元组,主要是对谓语进行改进,用更精确的动词进行表示,用于解决场景图中关系检测不准确的问题。同时对概念网上的知识图谱进行扩充,同时将场景图中相似度高的节点和关系进行合并,并将场景图和概念网对应的知识图谱库进行融合,运用本体论的相关知识来扩展用户问题识别的关键词,增加问题的搜索范围,提高问答系统的搜索完成率。
[0007]本专利技术的技术方案如下:
[0008]基于场景图和概念网相结合的检索知识图谱库生成方法,包括以下步骤:
[0009]1)模型预训练过程:
[0010]1.1)数据集处理阶段,对MS

COCO数据集进行处理,筛选出有特定种类的图片,过滤掉多余的图片;
[0011]1.2)在经典的神经网络(Faster

CNN)上对其进行预训练。首先,用卷积层提取输
入图像的特征,区域提案网络生成区域提议,根据特征图和区域提议提供的坐标[x,y,w,h],然后经过感兴趣区域对齐,生成固定尺寸的特征图,最后利用softmax进行具体类别的分类;
[0012]2)场景图的训练过程:
[0013]2.1)基于已有的场景图训练方法,使用神经网络Neural

MOTIFS模型对场景图生成进行无偏训练。场景图无偏训练的过程:使用传统的场景图训练方法然后去偏差。首先用基于事实的因果图训练方法,即正常模型的训练框架。X是目标特征,先预测出目标标签Z,最终由图像I,目标特征X,目标标签Z共同预测谓语动词Y。预测谓语动词的形式为(I,X,Z)

Y。然后,使用同一个模型,用不同的方法。使用被干预的原始因果图方法进行训练。与上一个方法不同的是,去除了I

X,即目标特征X不受图片I的影响,也不决定目标标签Z的标签,给与X分配一个虚拟值,然后推断谓词是什么。根据得出的2个谓语动词Y,将两次结果相减。可以依靠观察到的结果Y(u)和它的反事实替代之间的差异来消除偏见的影响;
[0014]2.2)输出结果,得到对应的json文件。对于每张图像,场景图信息保存为包含目标,该目标的得分情况,目标标签,两个种类之间的关系,关系标签,关系的得分,每个对象对应匹配所有51个谓词的概率;
[0015]3)知识图谱的自动扩充方法:
[0016]3.1)在概念网官网获取相关的文件;
[0017]3.2)设计了知识图谱自动扩充方法,实施的具体步骤如下:首先,从百度百科,百度文库等网站学习新词,实时跟进新词所代表的含义然后,运用BERT模型抽取概念与概念之间的关系。定位句子和两个实体的位置,提取句子的语义特征和实体的特征,再拼接三个特征进行关系的分类,然后用softmax层进行分类,最后将新增的概念添加到原有的知识图谱中;
[0018]4)模型测试过程:
[0019]对于训练完成的场景图进行评测,使用准确率(Accuracy)、精准率(Precision)、召回率(Recall)和F1_score作为衡量标准;
[0020]5)生成检索数据库过程:
[0021]5.1)处理文件:经过上述的处理后我们会得到对应的json文件,提取其中想要的内容,处理成场景图和概念网相应节点和关系的csv文件;
[0022]5.2)导入至检索数据库:将场景图和概念网对应节点和关系的csv文件导入至检索数据库中;
[0023]5.3)设计相似度合并算法:在场景图的知识图谱库中,将相似度高的节点和关系进行合并。在场景图中,会存在多个节点对应同一个对象的情况。首先,统计各节点在场景图中出现的频率;其次,逆文件频率表示关键词的普遍程度,该值越大,对于该节点有更好的区分能力;然后,可通过上述计算出对应某节点的文本词向量;最终再使用余弦相似度去计算节点之间的相关性。将相似度高的节点进行合并。基于本方法,在将相似度高的节点合并之后,还可以使用相同的方法合并相似度高的关系。
[0024]5.4)设计数据连接组件:在检索数据库中,将场景图和概念网对应的知识图谱库进行融合。将其代表相同含义的节点进行连接,这时节点的相似度决定两个节点是否可以连接。首先,使用Canopy聚类算法得到k值。然后,使用K均值聚类算法,该算法以聚类簇数k
和知识图谱中的所有节点作为输入,最终分出相似度高的节点,将场景图和概念网中对应的节点连接起来,利用本体论中的关系来扩展用户问题识别的关键词,增加问题的搜索范围,提高问答系统的搜索完成率,形成最终的数据库。当我们在检索某个种类与另一个种类之间发生某种具体关系的实际情况时,会将该种类进行延伸,延伸至该种类下的各种小类,可以让我们获得更多的详细信息;
[0025]6)数据库定时更新过程:
[0026]本数据库可以使用增量学习的方法在线进行更新。在本数据库中使用了基于回放的增量学习方法。需要保留旧任务的部分数据,以及利用旧数据与新数据一起训练模型。
[0027]本专利技术的技术构思为:在构建知识图谱时,会出现没有获取到高质量的数据和检索数据不全面的问题。基于此种情况,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于场景图和概念网相结合的检索知识图谱库生成方法,其特征在于,包括以下步骤:1)模型预训练:数据来自公开可用的MS

COCO数据集,该数据集是一个大规模的对象检测、分割、关键点检测和字幕数据集;输入该数据集之后,在经典的神经网络(Faster

CNN)上对其进行预训练,检测图片中出现的物体种类和其位置;2)场景图的训练:对模型预训练的结果进行无偏训练,并应用神经网络模型最终输出与场景图相关信息的文件,预测出图片中不同种类之间的关系;3)知识图谱的自动扩充:基于概念网的知识图谱,可以对其进行扩充;可以通过新词得到新的知识,并添加到知识图谱中;4)模型测试:对于训练完成的场景图模型进行测试,使用准确率(Accuracy)、精准率(Precision)、召回率(Recall)和F1_score来评估所提出方法的性能;5)生成检索数据库:将场景图和概念网相关的文件信息进行提取并处理,然后导入到检索数据库中,最终组成本检索数据库;将场景图中相似度高的节点和关系进行合并,并将场景图和概念网对应的知识图谱库进行融合,最后将场景图和概念网合并成一个包含所有信息的知识图谱库;6)数据库定时更新:使用了增量学习的方法可以实现对数据库的在线的更新,可以增加数据库的信息。2.如权利要求1所述的一种基于场景图和概念网相结合的检索知识图谱库生成方法,其特征在于,步骤1)所述的模型预训练包括:1.1)数据集处理阶段,对MS

COCO数据集进行处理,筛选出有特定种类的图片,过滤掉多余的图片;1.2)在经典的神经网络(Faster

CNN)上对其进行预训练;首先,用卷积层提取输入图像的特征,区域提案网络生成区域提议,根据特征图和区域提议提供的坐标[x,y,w,h],然后经过感兴趣区域对齐,生成固定尺寸的特征图,最后利用soft max进行具体类别的分类。3.如权利要求1所述的一种场景图和概念网相结合的检索知识图谱库生成方法,其特征在于,步骤2)所述的场景图的训练包括以下过程:2.1)基于已有的场景图训练方法,使用神经网络Neural

MOTIFS模型对场景图生成进行无偏训练;场景图无偏训练的过程:使用传统的场景图训练方法然后去偏差;首先用基于事实的因果图训练方法,即正常模型的训练框架;X是目标特征,先预测出目标标签Z,最终由图像I,目标特征X,目标标签Z共同预测谓语动词Y;预测谓语动词的形式为(I,X,Z)

Y;训练损失的公式如下:其中,通过使用目标标签Z和谓词标签Y的交叉熵损失进行训练;然后,使用同一个模型,用不同的方法;使用被干预的原始因果图方法进行训练;与上一个方法不同的是,去除了I

X,即目标特征X不受图片I的影响,也不决定目标标签Z的标签,给与X分配一个虚拟值,然后推断谓词是什么;根据得出的2个谓语动词Y,将两次结果相减;可以依靠观察到的结果Y(u)和它的反事实替代Y
x,z(u)
之间的差异来消除偏见的影响,公式如下:
TDE=Y
(u)

Y
x,z(u)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)其中,TDE将作为无偏场景图的最终谓词得分,Y
(u)
,Y
x,z(u)
分布是第一次和第二次得到的谓语动词;2.2)输出结果,得到对应的json文件;对于每张图像,场景图信息保存为包含目标,该目标的得分情况,目标标签,两个种类之间的关系,关系标签,关系的得分,每个对象对应匹配所有51个谓词的概率。4.如权利要求1所述的一种场景图和概念网相结合的检索知识图谱库生成方法,其特征在于,步骤3)所述的知识图谱的自动扩充包括以下过程:3.1)在概念网官网获取相关的文件;3.2)设计了知识图谱自动扩充方法,实施的具体步骤如下:首先,从百度百科,百度文库等网站学习新词,实时跟进新词所代表的含义然后,运用BERT模型抽取概念与概念之间的关系;定位句子和两个实体的位置,提取句子的语义特征和实体的特征,再拼接三个特征进行关系的分类,其拼接并分类公式如下:h”=...

【专利技术属性】
技术研发人员:温震宇於志成彭影影钱稼旭陈嘉珺洪榛
申请(专利权)人:浙江工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1