当前位置: 首页 > 专利查询>浙江大学专利>正文

基于跨媒体信息的跨语言实体匹配方法组成比例

技术编号:21034764 阅读:48 留言:0更新日期:2019-05-04 05:35
本发明专利技术公开了一种基于跨媒体信息的跨语言实体匹配方法。实体匹配通常针对同语言的多个知识图谱的融合问题,提供一种知识图谱中实体相似度的计算方法。跨语言实体匹配则面向多种语言的知识图谱,来实现不同语言知识图谱中实体的匹配。本发明专利技术从实体的多种模态的媒体信息出发,利用深度学习方法提取实体文本、图像多模态的特征,进行跨语言实体匹配。利用深度学习模型对实体的文本信息进行跨语言文本匹配,计算文本匹配相似度;使用深度卷积神经网络提取实体图像信息特征,计算图像匹配相似度;最后,综合利用实体文本、图像方面的特征,进行跨语言实体匹配。本发明专利技术较好的利用了文本和图像方面的特征,提高了跨语言实体匹配的准确率。

【技术实现步骤摘要】
基于跨媒体信息的跨语言实体匹配方法
本专利技术涉及跨语言实体匹配技术,尤其涉及一种基于跨媒体信息的跨语言实体匹配方法。
技术介绍
跨语言实体匹配的目标在于,给定一系列不同来源、不同语言的实体集合,合并其中描述同一概念的实体,将这些实体集合融合成为一个新的知识库。对于不同来源的实体,它们在实体的表达上可能存在冗余,可能存在差异,也可能互相补充,因此实体匹配对于知识的补充完善以及保持知识库的一致性具有重要的意义。传统的实体匹配一般都是基于实体的文本特征,例如计算两个实体描述的文本重叠度或者编辑距离等等。但是在跨语言实体匹配情景下,在同一语言中可以使用的文本特征,在跨语言实体匹配中却无法使用:例如在两种完全不同语系的语言下面,文本重叠度、编辑距离等特征无法定义;两种语言的词向量一般定义在两个不同的空间中,这也导致普通的词向量特征也无法使用。于是本专利技术一方面提出使用双语言词表示,使得词向量特征在跨语言的文本语义匹配成为可能,另一方面提出使用不同语言中均相似的图像特征来匹配实体,以此增强跨语言实体匹配的效果。
技术实现思路
本专利技术是利用实体的文本、图像等方面的多媒体信息,提高跨语言实体匹配本文档来自技高网...

【技术保护点】
1.一种基于跨媒体信息的跨语言实体匹配方法,其特征在于,包括以下步骤:(1)使用语义对齐语料训练跨语言词汇的词向量表示;(2)根据步骤(1)得到的词向量表示,利用不同语言实体的摘要、属性、标题这三类文本信息,训练跨语言实体的文本匹配相似度模型;(3)利用不同语言实体的图像信息,训练跨语言实体的图像匹配相似度模型;(4)融合实体文本与图像两方面的跨媒体信息,联合训练步骤(2)和步骤(3)的两个模型,进行跨语言实体匹配。

【技术特征摘要】
1.一种基于跨媒体信息的跨语言实体匹配方法,其特征在于,包括以下步骤:(1)使用语义对齐语料训练跨语言词汇的词向量表示;(2)根据步骤(1)得到的词向量表示,利用不同语言实体的摘要、属性、标题这三类文本信息,训练跨语言实体的文本匹配相似度模型;(3)利用不同语言实体的图像信息,训练跨语言实体的图像匹配相似度模型;(4)融合实体文本与图像两方面的跨媒体信息,联合训练步骤(2)和步骤(3)的两个模型,进行跨语言实体匹配。2.根据权利要求1所述的基于跨媒体信息的跨语言实体匹配方法,其特征在于,所述的步骤(1)包括:1.1)使用翻译系统获取句子级别语义对齐的跨语言训练语料;1.2)使用类似于skip-gram模型的训练方法训练双语言词向量表示,其损失函数如下:其中表示单一语言词向量训练的损失函数,Φ(ωe,ωz)表示限制两种语言e与z的语义对齐的损失函数,λ为超参;单一语言词向量训练使用skip-gram模型,训练过程中为了加快速度使用负采样,其损失函数可以表示为:其中σ表示sigmoid激活函数,ωi为语料库中词τi上下文窗口中的词,ωi,k则表示负采样得到的词,负采样个数为K;然后在使用skip-gram模型训练两种语言的词向量的同时,加上语义对齐的损失函数;由于使用句子级别的语义对齐语料来限制两种语言的词向量到同一语义空间中,最终语义对齐的损失函数为:其中S表示语义对齐的语料,每一条包含语义对齐的两种语言e与z的句子se与sz,其句子长度分别记为m与n,与是待训练的两种语言的词向量;模型的训练过程也与skip-gram模型类似,采用负采样(negativesampling)加快收敛,使用随机梯度下降(SGD)训练,最终得到跨语言词汇的词向量表示。3.根据权利要求1所述的基于跨媒体信息的跨语言实体匹配方法,其特征在于,所述的步骤(2)包括:2.1)对实体的摘要、属性和标题文本进行预处理:通过自然语言处理工具对不同语言的摘要、属性和标题文本进行分词、词干化、去停用词处理;2.2)对于两种语言e和z的每一组候选的实体对(Ee,Ez),根据步骤(1)得到的词向量对预处理后的摘要和属性文本拼接后进行词嵌入(WordEmbedding)表示,并进行截断与填充使长度对齐,对齐后的长度为∈,结果记为与对预处理后的标题文本进行词嵌入(WordEmbedding)表示,并进行截断与填充使长度对齐,对齐后的长度为结果记为与首先对se与sz分别经过Bi-LSTM层,这两个Bi-LSTM层的参数是共享的,得到其后面一个隐层的输出记为与然后对得到的输出分别进行基于实体标题te和tz的注意力机制,其具体计算步骤为:最后将得到的中间结果ge与gz分别经过Bi-LSTM层,这两个Bi-LSTM层的参数是共享的,将前向隐层的最后一个节点输出f与后向隐层的最后一个节点输出b拼接起来,得到文本的表示pl:pl=[fl,bl]l∈{e,z}2.3)得到两种语言文本的语义向量表示pe和pz后,将它们拼接起来,使用多层感知机计算候选的实体对(Ee,Ez)的文本匹配相似度sT,多层感知机的计算步骤如下:x1=[pe,pz]其中w1,为训练网络参数,为隐层输出,得到衡量候选实体对(Ee,Ez)的文本匹配相似度sT,最后使用如下的损失函数训练模型:其中Ψ表示三元组文本样本集,表示其中的一个三元组,是一组实体匹配正例,为模型预测的正例匹配得分,是一组实体匹配负例,为模型预测的负例匹配得分,||W||...

【专利技术属性】
技术研发人员:鲁伟明王鹏吴飞庄越挺
申请(专利权)人:浙江大学
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1