【技术实现步骤摘要】
一种基于多模态协同表示学习的实体对齐方法
[0001]本公开涉及自然语言处理中的知识图谱
,特别涉及一种基于多模态协同表示学习的实体对齐方法。
技术介绍
[0002]实体对齐(Entity Alignment,EA)又称为实体匹配,是知识融合过程中的关键技术,旨在判断两个实体是否指向真实世界中的同一个对象。由于知识的内容来源丰富,并且存在人为理解的不同,因此指代同一实体的表达会有差异,由此导致相同或不同知识图谱中存在知识的异构和冗余问题,需要通过实体对齐技术进行合并,这对于数据融合和知识共享的技术探索具有重要意义。
[0003]实体对齐的研究主要可以分为两个大类。一类是传统的实体对齐方法,研究者们主要使用人工构造特征的方式对实体的字符特征、属性特征、关系特征等进行表示,然后通过特征相似度的计算来判断实体是否能够对齐。采用的相似性度量方法有词频
‑
逆文档频率(Term Frequency
‑
Inverse Document Frequency,TFIDF),主动学习和机器学习分 ...
【技术保护点】
【技术特征摘要】
1.一种基于多模态协同表示学习的实体对齐方法,包括以下步骤:S1,通过人工标注对齐,建立初始的<文本
‑
图像>对种子数据集;S2,获取适合多模态文本数据的BERT模型;S3,包括:S31,基于图像的进行增强扩展,对种子集中的<文本
‑
图像>对进行扩充;S32,将种子集中的<文本
‑
图像>对扩展为<文本
‑
图像正样本
‑
图像负样本>三元组;S33,用步骤S2的BERT模型提取文本的语义特征,利用深度残差网络分别提取图像正样本和图像负样本的特征;通过单层感知网络分别将这些特征投影到低维语义特征空间中;以文本与图像正样本在低维语义特征空间中更相似、而与图像负样本更相异为目标构建损失函数,利用种子集中的数据,对用于特征投影的单层感知网络进行训练;S4,对未标注的文本和图像进行特征提取和相似性计算,将高置信度的<文本
‑
图像>对添加到种子数据集中,基于步骤S3重新训练模型,进行数据的迭代扩展与模型的迭代更新,直至完成所有数据的迭代标注。2.根据权利要求1所述的对齐方法,其特征在于,所述步骤S2的方法包括:使用BERT模型中的Masked LM语言学习任务工具,利用多模态文本数据集,对BERT模型参数进行训练调优,得到适合多模态文本数据的BERT模型,具体包括:设多模态文本数据集合T1~T
p
为所有的多模态文本数据;BERT模型中的epoch的最大值为Epoches,每个epoch的batch数为batch_per_epoch;BERT基础模型为Bert_base_chinese,每个句子的最大长度为max_len;针对BERT模型中的所有的epoch,执行如下训练流程得到调优后的BERT模型参数:针对epoch中的每个batch,执行S201~S205:S201,将多模态文本数据集合按照80%
‑
10%
‑
10%的比例划分为训练集、测试集、验证集;S202,将训练集中的输入句子补零或截取到长度为max_len,获取句子分词的索引I1;S203,随机选择句子中15%的词语进行Mask,在选择为Mask的词语中,有80%使用[Mask]进行替换,10%不进行替换,剩下10%使用一个随机词语替换;S204,获取Mask后的句子输入到BERT基础模型Bert_base_chinese中,获得特征向量,后接θ0预测句子每个位置对应的分词的索引I2;S205,使用Adam优化器最小化I1与I2之间的差异,定义为第一损失函数L(θ,θ0);当验证集上的第一损失函数在一定epoch内不再下降时提前停止训练;第一损失函数L(θ,θ0)定义如下:其中,θ是BERT模型中的Encoder部分的参数,输入经过θ得到特征向量,θ0是在Masked LM任务中,接在θ后面的参数;|V|是被mask的词所构成词典的大小;m
i
表示被mask的词;p(m=m
i
|θ,θ0)表示在给定所学习到的参数θ和θ0的情况下,预测的词m就是被mask的词m
i
的概率;在所述训练流程中,在BERT模型的前两个epoch中,固定θ,以第一学习速率调整θ0,在随
后的epoch中,以第二学习速率同时调整θ和θ0,直至达到停止条件。3.根据权利要求2所述的对齐方法,其特征在于,所述第一学习速率取5
‑4,第二学习速率取1
‑5,e为科学计数法符号。4.根据权利要求1所述的对齐方法,其特征在于,所述步骤S31的具体方法包括:对初始种子数据集中的图像进行增强扩展,以扩展后的图像与原始图像所对齐的文本信息组成新的<文本
‑
图像>对,加入到种子数据集中;其中,对图像进行增强扩展的方法包括水平翻转、垂直翻转、随机裁剪、以及随机擦除。5.根据权利要求1或4所述的对齐方法,其特征在于,所述步骤S32中,将种子集中的<文本
‑
图像>对扩展为<文本
‑
图像正样本
‑
图像负样本>三元组的具体方法包括:设数据增强扩展后的种子数据集合<文本
‑
图像正样本>为种子数据集合中已对齐的<文本...
【专利技术属性】
技术研发人员:黄杨琛,王立才,李孟书,孙雨航,
申请(专利权)人:中国电子科技集团公司第十五研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。