一种中文指代表达下的跨模态实例分割方法技术

技术编号：28375347 阅读：20 留言：0更新日期：2021-05-08 00:02

本发明专利技术公开了一种中文指代表达下的跨模态实例分割方法，主要包括三个步骤：第一引入提出了单词注意力模块，通过学习每个中文单词的相对重要性，并对每个单词的矢量表示和相应的注意分数进行重新加权，生成单词特有的跨模态特征来提高准确性；第二以注意力简单循环单元代替标准的注意力循环单元作为多模态处理器。并通过使用词注意力权重，使得多模态模块可以聚焦于更重要的中文单词；第三本发明专利技术为解决研究所需的数据集不足的问题，构建了中文指代图像分割数据集，用以模型的训练及测试。本发明专利技术为解决研究所需的数据集的问题，构建了中文指代表达实例分割数据集，用于模型的训练及测试，并且在构建的数据集上测试后，验证了方法的有效性。

全部详细技术资料下载

【技术实现步骤摘要】
一种中文指代表达下的跨模态实例分割方法
本专利技术涉及一种实例分割方法，尤其涉及一种中文指代表达下的跨模态实例分割方法。
技术介绍
基于自然语言描述的实例分割是一个重要而富有挑战性的问题，学术上称之为指代表达实例分割(ReferringImageSegmentation)。基于自然语言描述的实例分割与传统的计算机视觉语义分割不同，该任务要分割的对象是由自然语言进行所指定的。实例分割核心在于对象的自然语言和表观特征之间的交叉融合。该任务在机器人控制、图像对象检索和视频监控中特定目标的定位等具有广泛的应用，是计算机视觉和模式识别领域重点关注的内容之一。以往的研究都采用不同的网络结构，取得了显著的研究成果，常用的方法是使用卷积神经网络提取图像特征向量和递归神经网络提取语言特征向量，然后级联预测边界框或掩模，最新一些基于自注意力的方法，如VisualBERT、VLBERT、VilBERT、NITER等模型在视觉和语言信息的结合方面提升了算法的性能和精度，并且在指代表达理解和实例分割任务中得到验证。然而，这些方法都没有对中文语境的支持。目前还没有相关模型支持中文语言描述的实例分割，所有的研究和实验都是以英文描述为基础进行的。传统的英文模式在自然语言处理过程中，对输入每个单词采取相同处理方式，忽视了不同单个词语的重要程度。由于两种语言的固有差异，英文以结构为中心，中文以语义为中心，如果用同样的方法来处理中文，就会出现匹配误差大的问题。英文句子的格式广泛使用冠词、助动词、连词和介词等来调节结构。同时，英文使用词性和...

【技术保护点】
1.一种中文指代表达下的跨模态实例分割方法，其特征在于：该实例分割方法包括以下步骤：/n步骤1：建立语言处理模型，学习句子的词嵌入表示，然后使用SRU将词嵌入序列编码为向量序列；/n步骤2：在每个单词隐状态上应用线性层，并对输出进行归一化，计算单词的相对重要性的注意力权值；/n步骤3：将隐状态与单词嵌入连接起来，丰富语言表示；/n步骤4：引入词注意力机制，对于每一个查询词赋予相同权重，通过计算词的注意力权值，将重点放在注意力权值大的中文词语上。/n

【技术特征摘要】
1.一种中文指代表达下的跨模态实例分割方法，其特征在于：该实例分割方法包括以下步骤：
步骤1：建立语言处理模型，学习句子的词嵌入表示，然后使用SRU将词嵌入序列编码为向量序列；
步骤2：在每个单词隐状态上应用线性层，并对输出进行归一化，计算单词的相对重要性的注意力权值；
步骤3：将隐状态与单词嵌入连接起来，丰富语言表示；
步骤4：引入词注意力机制，对于每一个查询词赋予相同权重，通过计算词的注意力权值，将重点放在注意力权值大的中文词语上。

2.根据权利要求1所述的中文指代表达下的跨模态实例分割方法，其特征在于：所述步骤1包括以下步骤：
S11：输入目标语言描述句了L为句子长度，首先建立语言处理模型，学习句子的词嵌入表示：
el＝embedding(sl)公式1
其中，embeding()表示词嵌入模型；
S12：然后使用SRU将词嵌入序列编码为向量序列：
hl＝SRU(el)公式2
其中，hl是前向LSTMs和后向LSTMs在第l个字处的输出的串联。

3.根据权利要求2所述的中文指代表达下的跨模态实例分割方法，其特征在于：所述步骤2具体如下：
在每个单词隐状态hl上应用线性层，并对输出进行归一化，以计算一个表示单词的相对重要性的注意力权重al，表示如下：

上式中，bl、bs0分别表示可训练参数；rl表示归一化的注意力。

4.根据权利要求3所述的中文指代表达下的跨模态实例分割方法，其特征在于：所述步骤3包...

【专利技术属性】
技术研发人员：王蓉，周千里，张文靖，
申请(专利权)人：中国人民公安大学，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人