一种语义信息融合方法、装置、电子设备及存储介质制造方法及图纸

技术编号:27935603 阅读:11 留言:0更新日期:2021-04-02 14:15
本申请实施例提供一种语义信息融合方法、装置、电子设备及存储介质,涉及语义信息融合技术领域。该方法包括利用语言模型根据每个类别单词对应的第一词嵌入向量获取句子的第二词嵌入向量;通过语料库获得每个类别单词对应的视觉特征描述;根据所述视觉特征描述获取融合视觉特征的句嵌入向量;将所述第二词嵌入向量和所述句嵌入向量按照预设的比例系数进行融合,以生成融合视觉特征后的词嵌入向量,在原有类别单词的词嵌入向量基础上,补充其他类别的视觉特征信息,从而缓解语义间隔造成的影响,解决现有方法中导致语义间隔的问题。

【技术实现步骤摘要】
一种语义信息融合方法、装置、电子设备及存储介质
本申请涉及语义信息融合
,具体而言,涉及一种语义信息融合方法、装置、电子设备及存储介质。
技术介绍
目前在零样本图像分类任务中常使用词嵌入向量和属性向量这两种语义向量来表征类别,但普遍具有单词可能会产生歧义性和词嵌入向量与类别的视觉特征没有必然联系两个问题,从而导致语义间隔问题。
技术实现思路
本申请实施例的目的在于提供一种语义信息融合方法、装置、电子设备及存储介质,在原有类别单词的词嵌入向量基础上,补充其他类别的视觉特征信息,从而缓解语义间隔造成的影响,解决现有方法中导致语义间隔的问题。本申请实施例提供了一种语义信息融合方法,所述方法包括:利用语言模型根据每个类别单词对应的第一词嵌入向量获取句子的第二词嵌入向量;通过语料库获得每个类别单词对应的视觉特征描述;根据所述视觉特征描述获取融合视觉特征的句嵌入向量;将所述第二词嵌入向量和所述句嵌入向量按照预设的比例系数进行融合,以生成融合视觉特征后的词嵌入向量。在上述实现过程中,通过SIF算法融入视觉特征信息生成的词嵌入向量不仅具有较强的语义性,且在语义空间中与相近的类别也会更加相似,有效缓解语义间隔带来的影响。进一步地,所述利用语言模型根据每个类别单词对应的第一词嵌入向量获取句子的第二词嵌入向量,包括:通过Word2Vec模型或GloVe模型获取每个类别单词的第一词嵌入向量;根据所述第一词嵌入向量利用词袋模型获取句子的第二词嵌入向量;所述第二词嵌入向量表示为:其中,vs表示所述句子的第二词嵌入向量,n表示所述句子中的单词总数,vi表示所述句子的第i个单词的第一词嵌入向量。在上述实现过程中,词袋模型不需要考虑文法以及单词的顺序,将一句话或一段文本中的所有单词的第一词嵌入向量取平均值用来作为整个类别的类别语义向量,因此计算简单高效,且减少高频词汇的贡献,增加低频词汇的贡献,从而反映句子主题。进一步地,所述通过语料库获得每个类别单词对应的视觉特征描述,包括:通过爬虫的方式采集网络数据库中的视觉特征信息,以生成语料库;获取所述语料库中的每个类别单词对应的视觉特征描述。在上述实现过程中,通过爬虫可采集到每个类别单词对应的视觉特征描述。进一步地,所述根据所述视觉特征描述获取融合视觉特征的句嵌入向量,包括:对所述视觉特征描述进行学习,以获取所述视觉特征描述的第三词嵌入向量;利用Sent2Vec模型并结合n-gram的词和所述第三词嵌入向量,以获得所述句嵌入向量;所述句嵌入向量表示为:其中,R(W)表示句子W中出现n-gram的列表,vw表示单词w的第三词嵌入向量,vW表示句子W的句嵌入向量。在上述实现过程中,Sent2Vec模型是用于学习句子嵌入的无监督模型,通过临近词的词嵌入向量平均值来预测中间词的词嵌入向量,在Sent2Vec模型中引入n-gram的情形,将句子中所有n-gram的词向量计算出的平均值作为句嵌入向量。进一步地,所述将所述第二词嵌入向量和所述句嵌入向量按照预设的比例系数进行融合,以生成融合视觉特征后的词嵌入向量,包括:获取所述比例系数,以生成词嵌入向量;所述词嵌入向量表示为:vf=αvwe+(1-α)vs;其中,vf表示所述词嵌入向量,vs表示所述第二词嵌入向量,vwe表示句嵌入向量,α表示所述第二词嵌入向量和所述句嵌入向量融合的比例系数。在上述实现过程中,通过比例系数将两种语义向量进行融合,得到融合视觉特征后的词嵌入向量。本申请实施例还提供一种语义信息融合装置,所述装置包括:词向量获取模块,用于利用语言模型根据每个类别单词对应的第一词嵌入向量获取句子的第二词嵌入向量;视觉特征描述获取模块,用于通过语料库获得每个类别单词对应的视觉特征描述;句向量获取模块,用于根据所述视觉特征描述获取融合视觉特征的句嵌入向量;融合模块,用于将所述第二词嵌入向量和所述句嵌入向量按照预设的比例系数进行融合,以生成融合视觉特征后的词嵌入向量。在上述实现过程中,通过语义融合的SIF算法,通过融合视觉特征信息从而缓解语义间隔问题带来的影响。进一步地,所述句向量获取模块包括:学习模块,用于对所述视觉特征描述进行学习,以获取所述视觉特征描述的第三词嵌入向量;句向量获取模块,用于利用Sent2Vec模型并结合n-gram的词和所述第三词嵌入向量,以获得所述句嵌入向量;所述句嵌入向量表示为:其中,R(W)表示句子W中出现n-gram的列表,vw表示单词w的第三词嵌入向量,vW表示句子W的句嵌入向量。在上述实现过程中,对语料库中的视觉特征进行学习,获得融合视觉特征的句嵌入向量表示。进一步地,所述融合模块包括:获取所述比例系数,以生成词嵌入向量;所述词嵌入向量表示为:vf=αvwe+(1-α)vs;其中,vf表示所述词嵌入向量,vs表示所述第二词嵌入向量,vwe表示句嵌入向量,α表示所述第二词嵌入向量和所述句嵌入向量融合的比例系数。在上述实现过程中,通过比例系数将两种向量进行合理融合,获得融合视觉特征的词嵌入向量表示。本申请实施例提供一种电子设备,所述电子设备包括存储器以及处理器,所述存储器用于存储计算机程序,所述处理器运行所述计算机程序以使所述电子设备执行上述中任一项所述的语义信息融合方法。本申请实施例还提供一种可读存储介质,所述可读存储介质中存储有计算机程序指令,所述计算机程序指令被一处理器读取并运行时,执行上述中任一项所述的语义信息融合方法。附图说明为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。图1为本申请实施例提供的一种语义信息融合方法的流程图;图2为本申请实施例提供的生成第二词嵌入向量的流程图;图3为本申请实施例提供的生成视觉特征描述的流程图;图4为本申请实施例提供的获得句嵌入向量的流程图;图5-图6为本申请实施例提供的其中一种使用SIF算法前后对比图;图7-图8为本申请实施例提供的另一种使用SIF算法前后对比图;图9为本申请实施例提供的语义信息融合装置的结构框图;图10为本申请实施例提供的语义信息融合装置的整体结构框图。图标:100-词向量获取模块;101-第一词嵌入向量模块;102-第二词嵌入向量模块;200-视觉特征描述模块;201-语料库模块;202-视觉特征描述获取模块;300-句向量模块;301-学习模块;302-句向量获取模块;本文档来自技高网...

【技术保护点】
1.一种语义信息融合方法,其特征在于,所述方法包括:/n利用语言模型根据每个类别单词对应的第一词嵌入向量获取句子的第二词嵌入向量;/n通过语料库获得每个类别单词对应的视觉特征描述;/n根据所述视觉特征描述获取融合视觉特征的句嵌入向量;/n将所述第二词嵌入向量和所述句嵌入向量按照预设的比例系数进行融合,以生成融合视觉特征后的词嵌入向量。/n

【技术特征摘要】
1.一种语义信息融合方法,其特征在于,所述方法包括:
利用语言模型根据每个类别单词对应的第一词嵌入向量获取句子的第二词嵌入向量;
通过语料库获得每个类别单词对应的视觉特征描述;
根据所述视觉特征描述获取融合视觉特征的句嵌入向量;
将所述第二词嵌入向量和所述句嵌入向量按照预设的比例系数进行融合,以生成融合视觉特征后的词嵌入向量。


2.根据权利要求1所述的语义信息融合方法,其特征在于,所述利用语言模型根据每个类别单词对应的第一词嵌入向量获取句子的第二词嵌入向量,包括:
通过Word2Vec模型或GloVe模型获取每个类别单词的第一词嵌入向量;
根据所述第一词嵌入向量利用词袋模型获取句子的第二词嵌入向量;
所述第二词嵌入向量表示为:



其中,vs表示所述句子的第二词嵌入向量,n表示所述句子中的单词总数,vi表示所述句子的第i个单词的第一词嵌入向量。


3.根据权利要求1所述的语义信息融合方法,其特征在于,所述通过语料库获得每个类别单词对应的视觉特征描述,包括:
通过爬虫的方式采集网络数据库中的视觉特征信息,以生成语料库;
获取所述语料库中的每个类别单词对应的视觉特征描述。


4.根据权利要求1所述的语义信息融合方法,其特征在于,所述根据所述视觉特征描述获取融合视觉特征的句嵌入向量,包括:
对所述视觉特征描述进行学习,以获取所述视觉特征描述的第三词嵌入向量;
利用Sent2Vec模型并结合n-gram的词和所述第三词嵌入向量,以获得所述句嵌入向量;
所述句嵌入向量表示为:



其中,R(W)表示句子W中出现n-gram的列表,vw表示单词w的第一词嵌入向量,vW表示句子W的句嵌入向量。


5.根据权利要求4所述的语义信息融合方法,其特征在于,所述将所述第二词嵌入向量和所述句嵌入向量按照预设的比例系数进行融合,以生成融合视觉特征后的词嵌入向量,包括:
获取所述比例系数,以生成词嵌入向量;
所述词嵌入向量表示为:
vf=α...

【专利技术属性】
技术研发人员:任亮傅雨梅文齐辉车倩
申请(专利权)人:北京知因智慧科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1