System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种融合文本描述信息和层次类型信息的知识表示方法技术_技高网

一种融合文本描述信息和层次类型信息的知识表示方法技术

技术编号:40578041 阅读:7 留言:0更新日期:2024-03-06 17:20
本发明专利技术公开了一种融合文本描述信息和层次类型信息的知识表示方法,该方法通过融合三元组自身结构信息、文本描述信息和层次类型信息,充分利用知识图谱以外的信息,提高知识表示的准确性和可解释性。包括:文本描述信息的嵌入方法,负责从文本中提取特征信息,完成实体和关系的文本表示;层次类型信息的嵌入方法,负责构造层次类型的投影矩阵,将实体的所有层次类型投影矩阵与特定于关系的类型约束结合起来。融合文本描述信息和层次类型信息的知识表示模型,负责融合文本描述信息和层次类型信息的知识表示学习。本发明专利技术使用该方法,充分利用外部多源信息能够提高知识表示能力。

【技术实现步骤摘要】

本专利技术属于知识图谱的知识表示领域,涉及一种融合文本描述信息和层次类型信息的知识表示方法


技术介绍

1、知识图谱(knowledge graph,kg)是一种用图模型来描述知识和建模世界万物之间关系的技术方法,并成为搜索引擎、辅助智能问答等多个人工智能领域的重要资源。传统的知识表示方法,如早期专家系统时代的知识表示方法都是以符号逻辑为基础进行知识表示,其特点是易于刻画离散、显性的知识,具有较好的可解释性。但仍有许多不能用符号来刻画连续、隐形的知识,在表示过程中失去鲁棒性,从而在下游任务中难以达到预期效果。因此,不适合深度学习的趋势。为解决此问题,表示学习被提出,侧重于学习实体和关系的表示,有效度量实体和关系的语义相关性,缓解kg中的稀疏性问题。

2、近年来,基于深度学习的表示学习方法在自然语言处理、语音识别等领域获得了广泛的关注和应用。表示学习旨在将研究对象的语义信息表示为稠密低维实值向量,在该低维向量空间中,两个对象的距离越近则说明其语义相似度越高。而知识表示学习,顾名思义,是对知识库中的实体和关系进行表示学习。该方向近些年已经取得了一些进展,可以在低维空间中高效计算实体和关系的语义联系,有效解决数据稀疏问题,使知识获取、融合和推理性能得到显著提升。

3、在大型的知识库中,如维基百科,对每个实体都有简单的文本描述,这些额外的文本信息可以有效提高知识表示能力,从而完成知识补全。为了充分利用实体的描述信息,分别使用连续词袋模型和卷积神经网络模型对实体描述信息编码。然而该方法缺乏上下文的联系,不能完全捕捉实体描述的完整语义信息。因此,如何在文本提取中获取关键信息,以及如何增强向量表示成为知识表示学习任务中的一项挑战。在freebase中,层次类型包括属性、类型和域,它们都是非常重要的外部信息,充分利用知识库中的层次类型信息增强实体的表示。

4、关系抽取是从纯文本中提取未知关系事实并将其加入到知识图谱中,是自动构建大规模kg的关键。由于缺少标记的关系数据,远程监控通过假设包含相同实体的语句在关系数据库的监督下可以表示相同的关系,使用启发式匹配来创建训练数据。


技术实现思路

1、本专利技术提出一种融合文本描述信息和层次类型信息的知识表示方法,该方法除了利用三元组自身结构表示外,同时将文本描述信息和层次类型信息融合进去,将三元组的自身结构表示、文本描述信息和层次类型信息表示统一进行训练,完成知识表示。包括以下步骤:

2、1、在融合文本描述信息时,我们通过使用卷积神经网络引入文本描述信息并从文本描述中提取可靠的特征信息,完成基于文本描述信息的实体的向量表示;通过使用基于注意力机制卷积神经网络,通过为相关文本分配权重,从文本句子中提取有效信息,从而获得区分度高、语义准确度更好的关系向量表示;

3、2、在融合层次类型信息时,我们通过使用加权层次类型编码器来构造层次类型投影矩阵,并使用特定于关系的类型约束来投影实体;

4、3、在融合三类信息时:我们设计了能量函数和损失函数,不断优化模型,得到稳定的知识表达,为后续任务的使用做好基础。

5、对于文本描述信息,首先获得实体所在的句子,由于每个文本长短不同,需要在短文本末尾进行补零使文本对齐,经过卷积操作后得到基于文本描述信息的实体向量表示;文本描述信息中隐含着对三元组实体的描述,充分利用这些文本描述信息成为联合表示学习的关键,从而实现实体与文本描述信息之间的语义映射。

6、在知识库中,一对实体(h,t)的文本描述信息可能不同,每个句子对实体对之间的关系的重要性也不同。为解决这一问题,使用基于注意力机制的卷积神经网络,作用于包含一对实体(h,t)的文本描述,以获得关系的向量表示。

7、对于层次类型信息,一个实体可能有多种层次类型,首先提出一种通用的层次类型编码器,将层次类型信息编码到表示学习中,对于任意一个实体,其投影矩阵为所有类型矩阵的加权和;但是,实体在不同的语义环境下具有不同的含义,而知识图谱中关系的类型信息决定了实体在不同关系中可能属于的类型,因此对通用类型编码器做了改进。

8、本专利技术具有以下优点:

9、与现有的技术相比,本专利技术提出一种融合文本描述信息和层次类型信息的知识表示方法,该方法通过学习kg中实体和关系表示,融合三元组自身结构信息、文本描述信息和层次类型信息,充分利用kg以外的信息,从而获得更高效的实体和关系的嵌入表示,提高知识表示和知识推理的准确性和可解释性。

本文档来自技高网...

【技术保护点】

1.一种融合文本描述信息和层次类型信息的知识表示方法,其特征在于,该方法包括以下步骤:

2.根据权利要求1所述的一种融合文本描述信息和层次类型信息的知识表示方法,其特征在于,所述步骤A进一步包括以下步骤:

3.根据权利要求1所述的一种融合文本描述信息和层次类型信息的知识表示方法,其特征在于,所述步骤B包括以下步骤:

4.根据权利要求1所述的一种融合文本描述信息和层次类型信息的知识表示方法,其特征在于,所述步骤C包括以下步骤:

【技术特征摘要】

1.一种融合文本描述信息和层次类型信息的知识表示方法,其特征在于,该方法包括以下步骤:

2.根据权利要求1所述的一种融合文本描述信息和层次类型信息的知识表示方法,其特征在于,所述步骤a进一步包括以下步骤:

3...

【专利技术属性】
技术研发人员:李松舒世泰贺群
申请(专利权)人:哈尔滨理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1