【技术实现步骤摘要】
一种基于特征张量的中文知识图谱表示学习方法
本专利技术涉及知识图谱领域,尤其涉及一种基于特征张量的中文知识图谱表示学习方法。
技术介绍
知识图谱以结构化的形式描述客观世界中概念、实体间的复杂关系,提供了一种更好地组织、管理和理解互联网海量信息的能力。知识图谱技术通常包括知识表示、知识图谱构建和知识图谱应用三个方面的研究内容,其中,知识表示是知识图谱构建和应用的基础,反映人类对客观世界的认知,并能够从不同层次和粒度表达客观世界所呈现的语义。首先要了解人类本身是如何表示知识并利用他们解决问题的,然后将其形式化表示成计算机可以推理和计算的表达形式,建立基于知识的系统,提供智能知识服务。同时,知识表示也需要结合计算机对符号表示、处理和计算的能力。知识表示需要解决的关键问题是1)建立什么样的知识表示形式能够准确地反映客观世界的知识;2)建立什么样的知识表示可以具备语义表示能力;3)知识表示如何支持高效知识推理和计算,从而使知识表示具有得到新知识的推理能力。当前的知识表示方法可以分成基于符号逻辑的知识表示、互联网资源的开放知识表示方法和基于知识图谱的表示学习。1)基于符号逻辑的知识表示:主要包括逻辑表示法、产生式表示法和框架表示等,虽然基于符号逻辑的知识表示技术虽然可以很好地描述逻辑推理,但是由于在推理中机器生成规则的能力很弱,推理规则的获取需要大量的人力,并且对数据的质量要求较高,在目前大规模数据时代,基于符号逻辑的知识表示已经不能很好地解决知识表示的问题。2)万维网内容的知识表示:TimBerners-Lee ...
【技术保护点】
1.一种基于特征张量的中文知识图谱表示学习方法,其特征在于,该方法包括如下步骤:/n步骤1)数据准备/n将来自一个开放的中文链接数据集zhishi.me的数据构成三元组数据,所述三元组数据由大量三元组组成,三元组形如<h,r,t>,其中h表示头实体,t表示尾实体,r表示头实体h和尾实体t之间的关系;/n步骤2)建立数据结构/n将所述三元组数据分为标记三元组和未标记三元组,并构建字典、实体词典、关系词典、实体拼音矩阵、字嵌入矩阵、词嵌入矩阵和描述矩阵的数据结构,其中,/n标记三元组:在所述中文链接数据集zhishi.me中随机抽取三元组数据,得到一个三元组数据集合,将所述三元组数据集合中的所有三元组作为正三元组,将每个正三元组的头实体或尾实体去掉,并随机在实体词典中选择一个不同于自身的实体代替,构成负三元组,每次只替换三元组中的一个实体,这样才有对照性,对上述这些三元组进行标记,将正三元组标记为1,负三元组标记为0;/n未标记三元组:所述中文链接数据集zhishi.me中任意未标记的三元组;/n字典:所述中文链接数据集zhishi.me中出现的所有字,包括所有的头实体、尾实体 ...
【技术特征摘要】
1.一种基于特征张量的中文知识图谱表示学习方法,其特征在于,该方法包括如下步骤:
步骤1)数据准备
将来自一个开放的中文链接数据集zhishi.me的数据构成三元组数据,所述三元组数据由大量三元组组成,三元组形如<h,r,t>,其中h表示头实体,t表示尾实体,r表示头实体h和尾实体t之间的关系;
步骤2)建立数据结构
将所述三元组数据分为标记三元组和未标记三元组,并构建字典、实体词典、关系词典、实体拼音矩阵、字嵌入矩阵、词嵌入矩阵和描述矩阵的数据结构,其中,
标记三元组:在所述中文链接数据集zhishi.me中随机抽取三元组数据,得到一个三元组数据集合,将所述三元组数据集合中的所有三元组作为正三元组,将每个正三元组的头实体或尾实体去掉,并随机在实体词典中选择一个不同于自身的实体代替,构成负三元组,每次只替换三元组中的一个实体,这样才有对照性,对上述这些三元组进行标记,将正三元组标记为1,负三元组标记为0;
未标记三元组:所述中文链接数据集zhishi.me中任意未标记的三元组;
字典:所述中文链接数据集zhishi.me中出现的所有字,包括所有的头实体、尾实体和关系构成的字典,字典形式为“字:序列号”,序列号为数字,从零开始递增;
实体词典:所述中文链接数据集zhishi.me中的实体集合,采用E表示,其包括所有的头实体和尾实体构成的词典,词典形式为“实体名:序列号”,序列号为数字,从零开始递增;
关系词典:所述中文链接数据集zhishi.me中的关系集合构成的词典,词典形式为“关系名:序列号”,序列号为数字,从零开始递增;
实体拼音矩阵:为解决多音字不同含义的问题,调用百度翻译API得到实体拼音,构建实体拼音矩阵,所述实体拼音矩阵的行数与所述实体词典中实体数量一致,所述实体拼音矩阵每行为使用one-hot编码方式得到的实体拼音向量;
字嵌入矩阵:所述字嵌入矩阵的行数与所述字典中的字数一致,所述字嵌入矩阵每行为使用word2vec得到的字向量;
词嵌入矩阵:所述词嵌入矩阵的行数与所述实体词典中实体数量一致,所述词嵌入矩阵每行为使用word2vec得到的词向量;
描述矩阵:所述描述矩阵的行数与所述实体词典中实体数量一致,调用百度百科API获到实体描述信息,将实体描述信息输入双向长短期记忆网络(Bi-directionalLongShort-TermMemory,BiLSTM)编码得到实体描述向量,该实体描述向量引入了实体描述信息,可以解决中文同义词的问题;
步骤3)构建实体特征向量矩阵
对于每个标记三元组中的实体,首先由实体拼音向量、字向量、词向量和实体描述向量构成实体的特征张量;并将标记三元组中的所有实体的特征张量转换为实体的特征向量,并按所述实体词典的顺序构建实体特征向量矩阵;
步骤4)取一个标记三元组Tl=<h,r,t>,通过所述实体特征向量矩阵得到头实体h和尾实体t的特征向量hft和tft,为了表示实体h与实体t存在关系r,即h+r=t,所以标记三元组Tl=<h,r,t>的关系向量可表示为:
r=tft-hft
为了计算实体h和实体t之间的距离,通过向量转换来表示实体之间的关系,采用欧式距离定义三元组<h,r,t>的距离公式为:
其中下标“2”表示2范数,即欧几里得范数,上标“2”表示求平方;
步骤5)将所有标记三元组作为训练集,并初始化实体向量,即实体特征向量矩阵,初始化关系向量,构建关系向量矩阵,所述关系向量矩阵的顺序与所述关系词典一致,关系计算由公式r=tft-hft得到,若有多个实体对存在同一个关系,则关系向量为多个实体对向量差值取平均,对所有的关系向量初始化后要进行归一化,使得精度提高,并且收敛加强;
步骤6)在所述训练集中随机选取一个正三元组<h,r,t>,在负三元组中将<h′,r,t>和<...
【专利技术属性】
技术研发人员:李巧勤,郑子强,刘勇国,杨尚明,
申请(专利权)人:电子科技大学,
类型:发明
国别省市:四川;51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。