本发明专利技术公开了一种基于对称和互逆关系统计的知识图谱数据扩展方法。本发明专利技术首先对其进行查重删减与信息脱敏简化并编成字典;其次,通过二维矩阵储存对称关系与互逆关系三元组的可靠的成对数目,并计算符合特殊关系的三元组百分比,得到特殊关系矩阵表;然后,设置有效阈值,百分比超过阈值的关系(关系对)认定为完全对称(互逆)关系,可以创建在该关系(关系对)下未成对的三元组以扩展数据集。本发明专利技术采用了全新的基于对称关系和互逆关系统计推理的数据扩展方法,直接并有效增加了数据集数量,挖掘了知识图谱隐藏的信息,提升了知识图谱表示学习模型训练效果。
【技术实现步骤摘要】
基于对称和互逆关系统计的知识图谱数据扩展方法
本专利技术属于知识图谱领域,具体涉及一种基于对称和互逆关系统计的知识图谱数据扩展方法。
技术介绍
知识系统是由人类知识结构化重新组织而成,例如WordNet语言知识库、Freebase世界知识库等。知识库是推动人工智能学科发展和支撑智能信息服务应用(如智能搜索、智能问答、个性化推荐等)的重要基础技术。知识库主要描述的是现实客观世界中实体间的关系。这些知识蕴藏在无(半)结构的互联网信息中,而知识库则是有结构的。因此,知识库的主要研究目标是:从无(半)结构的互联网信息中获取有结构知识,自动融合构建知识库、服务知识推理等相关应用。知识表示是知识获取与应用的基础,因此知识表示学习问题是贯穿知识库的构建与应用全过程的关键问题。人们通常以网络的形式组织知识库中的知识,网络中每个节点代表实体(人名、地名、机构名、概念等),而每条连边则代表实体间的关系。因此,大部分知识往往可以用三元组(实体1,关系,实体2)来表示,对应着知识库网络中的一条连边及其连接的2个实体.这是知识库的通用表示方式。然而,基于网络形式的知识表示存在计算效率低下、数据稀疏的问题,缺乏可学习性和可计算性。独热表示是一种始发的、简单的数据表示方案,该方案将研究对象表示为向量,只是该向量只有某一维非零,其他维度上的值均为0。但是独热表示的缺点也非常明显。独热表示方案假设所有对象都是相互独立的。也就是说,在独热表示空间中,所有对象的向量都是相互正交的,通过余弦距离或欧氏距离计算的语义相似度均为0。这显然是不符合实际情况的,会丢失大量有用信息。近年来,以深度学习为代表的表示学习技术逐渐兴起,在语音识别、图像分析和自然语言处理领域获得广泛关注。表示学习旨在将研究对象的语义信息表示为稠密低维实值向量。在该低维向量空间中,2个对象距离越近则说明其语义相似度越高。知识表示学习是面向知识库中的实体和关系进行表示学习,可以在低维空间中高效计算实体和关系的语义联系,有效解决数据稀疏问题,使知识获取、融合和推理的性能得到显著提升。那么能否对知识进行更好的训练使其达到更好的语义表达效果成为了知识表示学习的关键。目前绝大多数的开放域知识图谱在内容表达上都不完整,在训练表达模型时,正样本的不足会直接影响知识表示的准确性。而知识图谱是具有可推理性的,若能通过合理的方法完善知识图谱的内容或结构,将直接提高模型的表示效果,从而使知识的向量表示更加符合语义关系,进而提高在语义搜索、关系抽取、自动问答等应用上的效能。
技术实现思路
本专利技术针对当前知识图谱建模训练数据的不足,提供了一种基于对称和互逆关系统计的知识图谱数据扩展方法。本专利技术方法具体是:步骤1、实体关系标注(1.1)根据待处理的知识图谱文本数据,使用相应的标注工具将文本中涉及的实体、实体之间的关系标注出来,得到知识图谱中的实体、关系构成。(1.2)整理从各类文本中获得的所有实体与关系,对其进行去重和实体对齐处理。(1.3)获得实体和关系的知识库表示形式RDF,即以三元组(实体1,关系,实体2)的方式保存。步骤2、三元组集清洗(2.1)在已有三元组集合的情况下,对三元组进行查重和结构检验,将重复出现的三元组删去,保证每一个三元组的独立性和完整性。(2.2)对三元组集合中的所有实体进行简略化编码,得到一份“entity_name”的连续字典。同理,对所有关系也进行简略化编码,得到一份“relation_name”的连续字典。(2.3)利用这两份字典对所有三元组进行命名转化,获得一份信息全面脱敏、结构完全保留的新表达形式的三元组集合。步骤3、对称关系和互逆关系的三元组占比统计:对于某一个包含n个关系的三元组集合,构建一个n*n的二维矩阵W,并初始化所有元素为0。构建一个n*n的二维矩阵W',初始化每一个元素W[i][j]为关系i和关系j共包含的所有三元组数。依次遍历该三元组集合的三元组,构建一个字典D,该字典分解三元组(h,r,t),并以"r:(h,t)"的key:value形式记录所有三元组。再次遍历所有三元组,读取一个三元组(h,r,t)时,记录(t,h),并在字典D中寻找是否存在value为(t,h)的键值对;若存在,则记录该键值对的key为r',并在二维矩阵W中,W[r][r']自加1;若不存在,则读取下一个三元组,直至读完。计算Wp=W/W'得到的Wp矩阵;每个元素Wp[i][j]所表示的是在关系i和关系j的所有三元组中,满足互逆关系三元组的占比,如果i=j,则表示满足对称关系三元组的占比。步骤4、对称关系和互逆关系新元组创建根据统计得到的百分比二维矩阵Wp,并设置阈值λ,认为Wp矩阵中元素大于λ值的对称关系和互逆关系成立且完全适用该关系下所有的三元组。找出超过阈值λ的关系对后,将该关系下未成对的三元组进行创建补全,从而完成基于对称和互逆关系统计的知识图谱数据扩展方法。本专利技术的有益效果:与之前的常用知识图谱表示方法相比采用了全新的基于特殊关系统计推理的数据扩展方法,直接并有效增加了数据集数量,挖掘了知识图谱隐藏的信息,提升了知识图谱表示学习模型训练效果,且该方法在各个模型上的表现均良好,具有良好的应用性能。具体实施方式本专利技术通过对原始数据集的清洗、统计、推理创建,获得更多隐藏的且可靠的新三元组,扩展数据集参与训练,从而提高模型表示效果。本专利技术所采用的技术方案步骤如下:步骤1、实体关系标注(1.1)根据待处理的知识图谱文本数据,使用相应的标注工具将文本中涉及的实体和其之间的关系标注出来,得到知识图谱中的实体、关系构成。(1.2)整理从各类文本中获得的所有实体与关系,对其进行去重和实体对齐处理。去重用于去掉多次出现的重复实体和关系,获得一个没有重复的实体列表和关系列表。实体对齐,则是将同义词或者使用不同描述表达的同一个对象实体,对齐成同一个实体,使其链接的其他实体与关系能够进行统一化表述。(1.3)获得实体和关系的知识库表示形式RDF,即以三元组(实体1,关系,实体2)的方式保存。步骤2、三元组集清洗(2.1)在已有三元组集合的情况下,对其进行三元组的查重和结构检验,将重复出现的三元组删去,保证每一个三元组的独立性和完整性。(2.2)获得的三元组集具有“两点及一边”的主要结构,但是过长的实体名和关系名会极大影响计算机处理数据的效率,而且计算机在训练时,实体和关系在客观世界中的实际名称并不会影响其在低维空间的向量表示,所以对所有实体进行简略化编码,得到一份“entity_name”的连续字典。同理,对所有关系也进行简略化编码,得到一份“relation_name”的连续字典。并利用这两份字典对所有三元组进行命名转化,获得一份信息全面脱敏、结构完全保留的新表达形式的三元组集。步骤3、对称关系和互逆关系的三元组占比统计(3.1)对称关系定义:对称关系是一本文档来自技高网...
【技术保护点】
1.基于对称和互逆关系统计的知识图谱数据扩展方法,其特征在于该方法包括以下步骤:/n步骤1、实体关系标注/n(1.1)根据待处理的知识图谱文本数据,使用相应的标注工具将文本中涉及的实体、实体之间的关系标注出来,得到知识图谱中的实体、关系构成;/n(1.2)整理从各类文本中获得的所有实体与关系,对其进行去重和实体对齐处理;/n(1.3)获得实体和关系的知识库表示形式RDF,即以三元组(实体1,关系,实体2)的方式保存;/n步骤2、三元组集清洗/n(2.1)在已有三元组集合的情况下,对三元组进行查重和结构检验,将重复出现的三元组删去,保证每一个三元组的独立性和完整性;/n(2.2)对三元组集合中的所有实体进行简略化编码,得到一份“entity_name”的连续字典;同理,对所有关系也进行简略化编码,得到一份“relation_name”的连续字典;/n(2.3)利用这两份字典对所有三元组进行命名转化,获得一份信息全面脱敏、结构完全保留的新表达形式的三元组集合;/n步骤3、对称关系和互逆关系的三元组占比统计:/n对于某一个包含n个关系的三元组集合,构建一个n*n的二维矩阵W,并初始化所有元素为0;/n构建一个n*n的二维矩阵W',初始化每一个元素W...
【技术特征摘要】
1.基于对称和互逆关系统计的知识图谱数据扩展方法,其特征在于该方法包括以下步骤:
步骤1、实体关系标注
(1.1)根据待处理的知识图谱文本数据,使用相应的标注工具将文本中涉及的实体、实体之间的关系标注出来,得到知识图谱中的实体、关系构成;
(1.2)整理从各类文本中获得的所有实体与关系,对其进行去重和实体对齐处理;
(1.3)获得实体和关系的知识库表示形式RDF,即以三元组(实体1,关系,实体2)的方式保存;
步骤2、三元组集清洗
(2.1)在已有三元组集合的情况下,对三元组进行查重和结构检验,将重复出现的三元组删去,保证每一个三元组的独立性和完整性;
(2.2)对三元组集合中的所有实体进行简略化编码,得到一份“entity_name”的连续字典;同理,对所有关系也进行简略化编码,得到一份“relation_name”的连续字典;
(2.3)利用这两份字典对所有三元组进行命名转化,获得一份信息全面脱敏、结构完全保留的新表达形式的三元组集合;
步骤3、对称关系和互逆关系的三元组占比统计:
对于某一个包含n个关系的三元组集合,构建一个n*n的二维矩阵W,并初始化所有元素为0;
构建一个n*n的二维矩阵W',初始化每一个元素W[i][j]为关系i和关系j共包含的所有三元组数;依次遍历该三元组集合的三元组,构建一个字典D,该字典分解三元组(h,r,t...
【专利技术属性】
技术研发人员:应坚超,杨柏林,蒲飞,
申请(专利权)人:浙江工商大学,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。