【技术实现步骤摘要】
一种基于链路预测实现跨语言知识空间实体对齐方法及系统
本专利技术涉及人工智能、机器学习领域,尤其涉及一种基于链路预测实现跨语言知识空间实体对齐方法。
技术介绍
随着现代互联网技术的发展,互联网上的信息积累越来越多,用户在检索信息时,咨询电商时,不仅仅满足于传统的简单的关键词检索匹配的结果,追求更加智能化个性化的搜索和问答服务。目前,大批国内外的互联网企业,例如谷歌、亚马逊、百度、腾讯都建立了自己的知识空间系统,利用知识空间技术为客户提供更加智能化的服务,知识空间技术可以结合现实中的相关知识,不论在信息检索领域,还是智能问答领域,都能根据知识空间的知识,理解用户的语句的隐藏语义信息,为用户提供更加智能化服务。当前互联网大企业的知识空间提供了海量的信息,例如谷歌的知识空间系统已经入录了16亿条的知识信息。但是这些知识空间存在一定的局限性,例如英文知识空间里对于非英语地区的信息入录入不全面,因此通过融合这些不同语言知识空间的信息,组成更庞大、信息更全的多语言知识空间系统,可以为客户提供更全面的信息服务。但是传统基于词翻译模型的融合技术会受限于词的翻译精度和词的本身一词多义的问题,例如朝阳这个词就可以指北京的朝阳区,也可以是辽宁省的朝阳市。深度学习模型学习知识空间的实体和关系向量,利用已经标注好的实体对,训练对齐模型,需要标注大量信息,耗费了大量人力。自学习技术目前应用于深度学习模型中,主要思想是根据现有的标注数据训练模型,模型预测新的数据,将预测的结果作为新的标注数据添加到训练数据中,对模型进行新一轮的训练 ...
【技术保护点】
1.一种基于链路预测实现跨语言知识空间实体对齐方法,其特征在于:包括:/n步骤一:跨语言知识空间三元组融合,包括:在两个知识空间中通过三元组结构,即通过头实体和尾实体以及二者之间的关系三元定义知识空间,对齐种子实体对;生成新的跨知识空间三元组,通过所述新的跨空间三元组约束同一对实体之间的语义向量接近,将两个知识空间的实体的表示向量统一在同一个语义空间中;/n步骤二:知识空间表示学习,通过ConvE模型来学习知识空间中实体与关系的表示;/n步骤三:预测新对齐实体对;/n步骤四:当存在预测出的一对新的对齐实体时,自学习添加新的训练数据,具体为:当存在预测出的一对新的对齐实体时,自学习方法将其视为新的标注对齐种子实体对数据,添加到旧的训练数据中进行训练,添加的过程中,如果新预测实体对和旧的训练数据产生冲突,那么舍弃新的预测实体对;如果新预测的实体对集合内部出现冲突,计算两个冲突的对齐实体对的概率差,选择概率值大的新预测实体队作为下一轮迭代的种子实体对;当自学习迭代次数超过设定的次数上限,停止迭代,训练对齐模型输出最终的跨语言实体对齐结果;/n步骤五:输出最终预测结果。/n
【技术特征摘要】
1.一种基于链路预测实现跨语言知识空间实体对齐方法,其特征在于:包括:
步骤一:跨语言知识空间三元组融合,包括:在两个知识空间中通过三元组结构,即通过头实体和尾实体以及二者之间的关系三元定义知识空间,对齐种子实体对;生成新的跨知识空间三元组,通过所述新的跨空间三元组约束同一对实体之间的语义向量接近,将两个知识空间的实体的表示向量统一在同一个语义空间中;
步骤二:知识空间表示学习,通过ConvE模型来学习知识空间中实体与关系的表示;
步骤三:预测新对齐实体对;
步骤四:当存在预测出的一对新的对齐实体时,自学习添加新的训练数据,具体为:当存在预测出的一对新的对齐实体时,自学习方法将其视为新的标注对齐种子实体对数据,添加到旧的训练数据中进行训练,添加的过程中,如果新预测实体对和旧的训练数据产生冲突,那么舍弃新的预测实体对;如果新预测的实体对集合内部出现冲突,计算两个冲突的对齐实体对的概率差,选择概率值大的新预测实体队作为下一轮迭代的种子实体对;当自学习迭代次数超过设定的次数上限,停止迭代,训练对齐模型输出最终的跨语言实体对齐结果;
步骤五:输出最终预测结果。
2.根据权利要求1所述的一种基于链路预测实现跨语言知识空间实体对齐方法,其特征在于:所述跨语言知识空间三元组融合步骤中,将两个知识空间的实体的表示向量统一在同一个语义空间中的方法具体为:采用扩展知识空间三元组的方法,将两个现有知识空间融合为一个新的知识空间,那么所述新的知识空间的三元组集合包括所述现有知识空间的三元组以及融合后新增三元组集合,即通过已知对齐节点得到跨语言融合实体节点,进而融合两个实体空间。
3.根据权利要求2所述的一种基于链路预测实现跨语言知识空间实体对齐方法,其特征在于:所述通过ConvE模型来学习知识空间中实体与关系的表示过程具体为:经过初始化e...
【专利技术属性】
技术研发人员:李建欣,黄洪仁,李倩,宁元星,毛乾任,
申请(专利权)人:北京航空航天大学,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。