一种中文指代表达下的跨模态实例分割方法技术

技术编号:28375347 阅读:20 留言:0更新日期:2021-05-08 00:02
本发明专利技术公开了一种中文指代表达下的跨模态实例分割方法,主要包括三个步骤:第一引入提出了单词注意力模块,通过学习每个中文单词的相对重要性,并对每个单词的矢量表示和相应的注意分数进行重新加权,生成单词特有的跨模态特征来提高准确性;第二以注意力简单循环单元代替标准的注意力循环单元作为多模态处理器。并通过使用词注意力权重,使得多模态模块可以聚焦于更重要的中文单词;第三本发明专利技术为解决研究所需的数据集不足的问题,构建了中文指代图像分割数据集,用以模型的训练及测试。本发明专利技术为解决研究所需的数据集的问题,构建了中文指代表达实例分割数据集,用于模型的训练及测试,并且在构建的数据集上测试后,验证了方法的有效性。

【技术实现步骤摘要】
一种中文指代表达下的跨模态实例分割方法
本专利技术涉及一种实例分割方法,尤其涉及一种中文指代表达下的跨模态实例分割方法。
技术介绍
基于自然语言描述的实例分割是一个重要而富有挑战性的问题,学术上称之为指代表达实例分割(ReferringImageSegmentation)。基于自然语言描述的实例分割与传统的计算机视觉语义分割不同,该任务要分割的对象是由自然语言进行所指定的。实例分割核心在于对象的自然语言和表观特征之间的交叉融合。该任务在机器人控制、图像对象检索和视频监控中特定目标的定位等具有广泛的应用,是计算机视觉和模式识别领域重点关注的内容之一。以往的研究都采用不同的网络结构,取得了显著的研究成果,常用的方法是使用卷积神经网络提取图像特征向量和递归神经网络提取语言特征向量,然后级联预测边界框或掩模,最新一些基于自注意力的方法,如VisualBERT、VLBERT、VilBERT、NITER等模型在视觉和语言信息的结合方面提升了算法的性能和精度,并且在指代表达理解和实例分割任务中得到验证。然而,这些方法都没有对中文语境的支持。目前还没有相关模型支持中文语言描述的实例分割,所有的研究和实验都是以英文描述为基础进行的。传统的英文模式在自然语言处理过程中,对输入每个单词采取相同处理方式,忽视了不同单个词语的重要程度。由于两种语言的固有差异,英文以结构为中心,中文以语义为中心,如果用同样的方法来处理中文,就会出现匹配误差大的问题。英文句子的格式广泛使用冠词、助动词、连词和介词等来调节结构。同时,英文使用词性和时态来表达句子的意思,因此算法很容易识别和分析。然而,中文句式结构相对随意,很少使用助词,进而增加从句子中找出关键词的困难。并且在某些情况下,即使是同一句话,也能表达出不同的意思。因此,与英文相比,中文句子中对某些单词强调是必要的。所以,中文指代表达下的实例分割算法的核心是如何对中文句子进行准确的分词。而且,中文指代表达实例分割数据集是研究的基础,此类数据集还没有。
技术实现思路
为了解决上述技术所存在的不足之处,本专利技术提供了一种中文指代表达下的跨模态实例分割方法,通过构建基于预训练的中文词嵌入矩阵,充分利用目标的语义信息,结合目标视觉特征形成中文指代表达的多模态注意力,实现基于中文语境下的跨模态实例分割。为了解决以上技术问题,本专利技术采用的技术方案是:一种中文指代表达下的跨模态实例分割方法,包括以下步骤:步骤1:建立语言处理模型,学习句子的词嵌入表示,然后使用SRU将词嵌入序列编码为向量序列;步骤2:在每个单词隐状态上应用线性层,并对输出进行归一化,计算单词的相对重要性的注意力权值;步骤3:将隐状态与单词嵌入连接起来,丰富语言表示;步骤4:引入词注意力机制,对于每一个查询词赋予相同权重,通过计算词的注意力权值,将重点放在注意力权值大的中文词语上。进一步地,步骤1包括以下步骤:S11:输入目标语言描述句子L为句子长度,首先建立语言处理模型,学习句子的词嵌入表示:el=embedding(sl)公式1其中,embeding()表示词嵌入模型;S12:然后使用SRU将词嵌入序列编码为向量序列:hl=SRU(el)公式2其中,hl是前向LSTMs和后向LSTMs在第l个字处的输出的串联。进一步地,步骤2具体如下:在每个单词隐状态hl上应用线性层,并对输出进行归一化,以计算一个表示单词的相对重要性的注意力权重al,表示如下:上式中,bl、bs0分别表示可训练参数;rl表示归一化的注意力。进一步地,步骤3包括以下步骤:S31:将隐状态hl与单词嵌入el连接起来,丰富语言表示,al表示如下:al=[el,hl]公式6S32:使用每个单词的注意力权重来重新对归一化的特征向量进行加权表示,表示如下:fl=rl*al公式7其中,fl为第l个单词的相对重要性而生成的词注意力特征,以给定的指代表达传递辨别性信息。进一步地,步骤4包括以下步骤:S41:为简化计算过程,提高训练和推理速度,在SRU基础上构建词注意力mSRU,SRU方程如下:ft=σ(WfXt+bf)公式9rt=σ(WrXt+br)公式10ht=rt⊙g(ct)+(1-rt)⊙Xt公式12上式中,Xt、分别表示t时刻的输入和预测,W、Wf和Wr表示权值矩阵,bf、br表示偏置,ft、rt分别表示遗忘门和重置门,ct、ht分别表示t时刻的状态和最终的输出,g(·)、σ(·)为Sigmoid函数和激活函数,⊙矩阵对应元素间的操作;S42:对于每一个中文查询词赋予相同权重,mSRU通过计算词的注意力权重,将重点放在注意力权值大的中文词语上,表示如下:将步骤3获得的词的注意力权重转移到SRUcell中,词注意力权重al被利用来调节多模态交互的SRU单元存储器;如果一个单词具有较高的注意力权重,将使得SRUcell从当前状态输出更多信息;相反,一个具有较低注意力权重的单词将允许较少的信息输入SRUcell,所以SRUcell状态将更多地依赖于早期记忆。如上所述为中文指代表达的实例分割方法,其特征在于融合了对象实体的视觉特征和语言特征。为此,本专利技术提出了一种中文指代表达下的跨模态实例分割方法,并构建中文指代表达数据集,在此数据集基础上验证了中文语境下实例分割的有效性。本专利技术首先通过中文词嵌入模型对中文描述文本进行处理,利用预先训练好的向量矩阵将每一个中文单词生成词嵌入,并输入到SRU模型中生成中文词向量;然后将中文词向量与视觉特征融合,形成跨模态表示;最后利用注意力机制生成注意力权值,使其能够集中在指代表达中的某些重要单词上,基于注意力SRU控制多模态合并。相比于现有技术,本专利技术具有以下有益效果:1.提出了词注意力模块,通过学习每个中文单词的相对重要性,并对每个单词的矢量表示和相应的注意力分数进行重新加权,生成单词特有的跨模态特征来提高准确性;2.以基于词注意力机制的时序神经网络单元(mSRUs,multimodalSimpleRecurrentUnits)代替标准的长短时时序网络单元(LSTM,LongShort-TermMemory)作为多模态融合处理单元,并通过使用词注意力权重,使得多模态模块可以聚焦于更重要的中文单词;3.为解决研究所需的数据集的问题,构建了中文指代表达实例分割数据集,用于模型的训练及测试。附图说明图1为本专利技术的框架图。图2为本专利技术模型总体框架图。图3为中文词嵌入示意图。图4为单词注意力和AmSRU注意力模型框架图。图5为词注意力可视化示意图。图6为实体分割模型性能曲线图。图7为利用中文指代表达分割结果图。具体实施方式下面结合附图和具体实施方式对本专利技术作进本文档来自技高网
...

【技术保护点】
1.一种中文指代表达下的跨模态实例分割方法,其特征在于:该实例分割方法包括以下步骤:/n步骤1:建立语言处理模型,学习句子的词嵌入表示,然后使用SRU将词嵌入序列编码为向量序列;/n步骤2:在每个单词隐状态上应用线性层,并对输出进行归一化,计算单词的相对重要性的注意力权值;/n步骤3:将隐状态与单词嵌入连接起来,丰富语言表示;/n步骤4:引入词注意力机制,对于每一个查询词赋予相同权重,通过计算词的注意力权值,将重点放在注意力权值大的中文词语上。/n

【技术特征摘要】
1.一种中文指代表达下的跨模态实例分割方法,其特征在于:该实例分割方法包括以下步骤:
步骤1:建立语言处理模型,学习句子的词嵌入表示,然后使用SRU将词嵌入序列编码为向量序列;
步骤2:在每个单词隐状态上应用线性层,并对输出进行归一化,计算单词的相对重要性的注意力权值;
步骤3:将隐状态与单词嵌入连接起来,丰富语言表示;
步骤4:引入词注意力机制,对于每一个查询词赋予相同权重,通过计算词的注意力权值,将重点放在注意力权值大的中文词语上。


2.根据权利要求1所述的中文指代表达下的跨模态实例分割方法,其特征在于:所述步骤1包括以下步骤:
S11:输入目标语言描述句了L为句子长度,首先建立语言处理模型,学习句子的词嵌入表示:
el=embedding(sl)公式1
其中,embeding()表示词嵌入模型;
S12:然后使用SRU将词嵌入序列编码为向量序列:
hl=SRU(el)公式2
其中,hl是前向LSTMs和后向LSTMs在第l个字处的输出的串联。


3.根据权利要求2所述的中文指代表达下的跨模态实例分割方法,其特征在于:所述步骤2具体如下:
在每个单词隐状态hl上应用线性层,并对输出进行归一化,以计算一个表示单词的相对重要性的注意力权重al,表示如下:









上式中,bl、bs0分别表示可训练参数;rl表示归一化的注意力。


4.根据权利要求3所述的中文指代表达下的跨模态实例分割方法,其特征在于:所述步骤3包...

【专利技术属性】
技术研发人员:王蓉周千里张文靖
申请(专利权)人:中国人民公安大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1