一种基于特征张量的中文知识图谱表示学习方法技术

技术编号：24171328 阅读：34 留言：0更新日期：2020-05-16 03:03

本发明专利技术提供了一种基于特征张量的中文知识图谱表示学习方法，该方法包括：数据准备、建立数据结构、构建实体特征向量矩阵、定义标记三元组的关系向量和距离公式、得到训练集、对知识图谱表示学习模型进行训练、更新模型参数、迭代训练，并使用该模型对未标记三元组进行关系预测、再一次迭代训练，直至无法学习到新的未标记三元组。本发明专利技术提出使用中文拼音、字信息、词信息、描述信息组成特征张量，并转换为特征向量，用以替代传统知识表示学习中随机初始化实体向量的方法，充分利用了中文特点。另外，采用双层迭代的方式，对训练语料进行补充，使得关系矩阵能够不断修正，提高知识图谱表示学习模型的精度和收敛速度。

A learning method of Chinese knowledge map representation based on feature tensor

全部详细技术资料下载

【技术实现步骤摘要】
一种基于特征张量的中文知识图谱表示学习方法
本专利技术涉及知识图谱领域，尤其涉及一种基于特征张量的中文知识图谱表示学习方法。
技术介绍
知识图谱以结构化的形式描述客观世界中概念、实体间的复杂关系，提供了一种更好地组织、管理和理解互联网海量信息的能力。知识图谱技术通常包括知识表示、知识图谱构建和知识图谱应用三个方面的研究内容，其中，知识表示是知识图谱构建和应用的基础，反映人类对客观世界的认知，并能够从不同层次和粒度表达客观世界所呈现的语义。首先要了解人类本身是如何表示知识并利用他们解决问题的，然后将其形式化表示成计算机可以推理和计算的表达形式，建立基于知识的系统，提供智能知识服务。同时，知识表示也需要结合计算机对符号表示、处理和计算的能力。知识表示需要解决的关键问题是1)建立什么样的知识表示形式能够准确地反映客观世界的知识；2)建立什么样的知识表示可以具备语义表示能力；3)知识表示如何支持高效知识推理和计算，从而使知识表示具有得到新知识的推理能力。当前的知识表示方法可以分成基于符号逻辑的知识表示、互联网资源的开放知识表示方法和基于知识图谱的表示学习。1)基于符号逻辑的知识表示：主要包括逻辑表示法、产生式表示法和框架表示等，虽然基于符号逻辑的知识表示技术虽然可以很好地描述逻辑推理，但是由于在推理中机器生成规则的能力很弱，推理规则的获取需要大量的人力，并且对数据的质量要求较高，在目前大规模数据时代，基于符号逻辑的知识表示已经不能很好地解决知识表示的问题。2)万维网内容的知识表示：TimBerners-Lee...

【技术保护点】
1.一种基于特征张量的中文知识图谱表示学习方法，其特征在于，该方法包括如下步骤：/n步骤1)数据准备/n将来自一个开放的中文链接数据集zhishi.me的数据构成三元组数据，所述三元组数据由大量三元组组成，三元组形如<h,r,t>，其中h表示头实体，t表示尾实体，r表示头实体h和尾实体t之间的关系；/n步骤2)建立数据结构/n将所述三元组数据分为标记三元组和未标记三元组，并构建字典、实体词典、关系词典、实体拼音矩阵、字嵌入矩阵、词嵌入矩阵和描述矩阵的数据结构，其中，/n标记三元组：在所述中文链接数据集zhishi.me中随机抽取三元组数据，得到一个三元组数据集合，将所述三元组数据集合中的所有三元组作为正三元组，将每个正三元组的头实体或尾实体去掉，并随机在实体词典中选择一个不同于自身的实体代替，构成负三元组，每次只替换三元组中的一个实体，这样才有对照性，对上述这些三元组进行标记，将正三元组标记为1，负三元组标记为0；/n未标记三元组：所述中文链接数据集zhishi.me中任意未标记的三元组；/n字典：所述中文链接数据集zhishi.me中出现的所有字，包括所有的头实体、尾实体...

【技术特征摘要】
1.一种基于特征张量的中文知识图谱表示学习方法，其特征在于，该方法包括如下步骤：
步骤1)数据准备
将来自一个开放的中文链接数据集zhishi.me的数据构成三元组数据，所述三元组数据由大量三元组组成，三元组形如<h,r,t>，其中h表示头实体，t表示尾实体，r表示头实体h和尾实体t之间的关系；
步骤2)建立数据结构
将所述三元组数据分为标记三元组和未标记三元组，并构建字典、实体词典、关系词典、实体拼音矩阵、字嵌入矩阵、词嵌入矩阵和描述矩阵的数据结构，其中，
标记三元组：在所述中文链接数据集zhishi.me中随机抽取三元组数据，得到一个三元组数据集合，将所述三元组数据集合中的所有三元组作为正三元组，将每个正三元组的头实体或尾实体去掉，并随机在实体词典中选择一个不同于自身的实体代替，构成负三元组，每次只替换三元组中的一个实体，这样才有对照性，对上述这些三元组进行标记，将正三元组标记为1，负三元组标记为0；
未标记三元组：所述中文链接数据集zhishi.me中任意未标记的三元组；
字典：所述中文链接数据集zhishi.me中出现的所有字，包括所有的头实体、尾实体和关系构成的字典，字典形式为“字：序列号”，序列号为数字，从零开始递增；
实体词典：所述中文链接数据集zhishi.me中的实体集合，采用E表示，其包括所有的头实体和尾实体构成的词典，词典形式为“实体名：序列号”，序列号为数字，从零开始递增；
关系词典：所述中文链接数据集zhishi.me中的关系集合构成的词典，词典形式为“关系名：序列号”，序列号为数字，从零开始递增；
实体拼音矩阵：为解决多音字不同含义的问题，调用百度翻译API得到实体拼音，构建实体拼音矩阵，所述实体拼音矩阵的行数与所述实体词典中实体数量一致，所述实体拼音矩阵每行为使用one-hot编码方式得到的实体拼音向量；
字嵌入矩阵：所述字嵌入矩阵的行数与所述字典中的字数一致，所述字嵌入矩阵每行为使用word2vec得到的字向量；
词嵌入矩阵：所述词嵌入矩阵的行数与所述实体词典中实体数量一致，所述词嵌入矩阵每行为使用word2vec得到的词向量；
描述矩阵：所述描述矩阵的行数与所述实体词典中实体数量一致，调用百度百科API获到实体描述信息，将实体描述信息输入双向长短期记忆网络(Bi-directionalLongShort-TermMemory，BiLSTM)编码得到实体描述向量，该实体描述向量引入了实体描述信息，可以解决中文同义词的问题；
步骤3)构建实体特征向量矩阵
对于每个标记三元组中的实体，首先由实体拼音向量、字向量、词向量和实体描述向量构成实体的特征张量；并将标记三元组中的所有实体的特征张量转换为实体的特征向量，并按所述实体词典的顺序构建实体特征向量矩阵；
步骤4)取一个标记三元组Tl＝<h,r,t>，通过所述实体特征向量矩阵得到头实体h和尾实体t的特征向量hft和tft，为了表示实体h与实体t存在关系r，即h+r＝t，所以标记三元组Tl＝<h,r,t>的关系向量可表示为：
r＝tft-hft
为了计算实体h和实体t之间的距离，通过向量转换来表示实体之间的关系，采用欧式距离定义三元组<h,r,t>的距离公式为：

其中下标“2”表示2范数，即欧几里得范数，上标“2”表示求平方；
步骤5)将所有标记三元组作为训练集，并初始化实体向量，即实体特征向量矩阵，初始化关系向量，构建关系向量矩阵，所述关系向量矩阵的顺序与所述关系词典一致，关系计算由公式r＝tft-hft得到，若有多个实体对存在同一个关系，则关系向量为多个实体对向量差值取平均，对所有的关系向量初始化后要进行归一化，使得精度提高，并且收敛加强；
步骤6)在所述训练集中随机选取一个正三元组<h,r,t>，在负三元组中将<h′,r,t>和<...

【专利技术属性】
技术研发人员：李巧勤，郑子强，刘勇国，杨尚明，
申请(专利权)人：电子科技大学，
类型：发明
国别省市：四川;51

全部详细技术资料下载我是这个专利的主人