【技术实现步骤摘要】
一种基于主题关键词过滤的知识图谱补全方法
本专利技术涉及一种知识图谱补全方法,特别涉及基于实体描述中的主题关键词对实体描述文本过滤的知识图谱补全方法。
技术介绍
知识图谱技术在智能问答和搜索领域应用广泛。目前,通过知识图谱技术构建的知识库的虽然规模宏大,但是其完整程度仍然不高。图谱中大部分的实体没有出生地信息、也没有国籍信息,对于一半的实体所包含的关系数量不超过5个,因而有必要对知识图谱进行补全。知识图谱图谱的方法可以分为两类:一类是非翻译型补全方法,另一类是翻译型补全方法。相较于非翻译型方法,采用翻译模型的算法涉及的计算参数少,算法复杂度低。目前的研究者已经考虑采用多源信息融合的方式对知识图谱补全。实际上,知识库中不仅包含由大量的实体和关系构成的三元组,还包含了大量的关于三元组中的实体的描述文本信息。已有的知识图谱方法已经考虑采用将翻译模型和实体的描述信息结合的方式对知识图谱进行补全。然而实体的描述来源广泛,大部分的文本内容抽取自百科和网页,文本的内容复杂冗余,并不能有针对性地对某一特定的补全任务进行补全。本专利技术就是在这样的背景下提出的。目前,对于知识图谱补 ...
【技术保护点】
1.一种基于主题关键词过滤的知识图谱补全方法,其特征在于:所述方法包括以下步骤:步骤1:设定知识图谱G=(E,R,T);其中,E表示知识图谱实体集合,R表示知识图谱中关系集合,T表示待补全的三元组集合,
【技术特征摘要】
1.一种基于主题关键词过滤的知识图谱补全方法,其特征在于:所述方法包括以下步骤:步骤1:设定知识图谱G=(E,R,T);其中,E表示知识图谱实体集合,R表示知识图谱中关系集合,T表示待补全的三元组集合,步骤2:将知识图谱G中不完整的三元组元素构成的集合设定为补全任务集合H,H中的元素分为(h,r,?)和(h,?,t)两种形式;其中,头实体h∈E,关系r∈R,尾实体t∈E;步骤3:使用词向量工具对待补全的三元组集合T中的h和r进行训练,针对(h,r,?)任务得到h′和r′,针对(h,?,t)任务得到h′和t′;步骤4:使用词向量工具对三元组集合T中实体的实体描述进行处理,得到主题计算词向量矩阵,包括:头实体描述的词向量矩阵De和尾实体描述的词向量矩阵Dt;步骤5:通过NMF模型分别对头实体h和尾实体t的实体描述进行处理,获取头实体和尾实体的主题向量sh和st;步骤6:利用步骤5获取的主题向量sh和st来计算主题语义空间s(sh,st):其中,向量s为主题语义空间的法向量;步骤7:获取主题计算词向量矩阵De和Dt的注意力分数,再根据注意力分数选取主题词;并对词向量矩阵De和Dt进行注意力分数的赋值;其中,获取注意力分数的公式为:式中,表示行乘,表现对实体描述D的词向量矩阵的每一行乘以注意力分数;ai表示实体描述中的第i个单词的注意力分数;步骤8:使用卷积神经网络对步骤7计算得到的注意力分数矩阵attention(D)抽取特征向量;步骤9:定义损失函数E(h,r,t)以及目标函数l;其中:损失函数为:E(h,r,t)=E′s+E′d+Es+Ed;e=h+r-t;L1和L2都表示范数,L1/L2表示L1或L2的关系;且Ed表示ed表示所具有的能量,ed=hd+r-td,hd是头实体h实体描述的特征向量,td是尾实体t实体描述的特征向量,由步骤8经卷积神经网络抽取得到sT表示s的转置;目标函数为:l=lembed+μltopic;且S′={(h′,r,t)}∪{(h,r′,t)}∪{(h,r,t′)}其中,lembed表示考虑词向量的目标函数;ltopic表示考虑主题的目标函数;μ表示超参数,根据训练结果确定;S表示正确三元组的集合;S′表示通过负采用得到的错误三元组的集合;通过随机地替换正确三元...
【专利技术属性】
技术研发人员:印桂生,张载熙,王红滨,
申请(专利权)人:哈尔滨工程大学,
类型:发明
国别省市:黑龙江,23
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。