一种基于多模态数据的商品识别方法和系统技术方案

技术编号:36335654 阅读:12 留言:0更新日期:2023-01-14 17:47
本申请涉及一种基于多模态数据的商品识别方法和系统,其中,该方法包括:获取与预设商品相关联的音频数据、文本数据和视频数据,并进行处理得到多模态训练数据集,基于该多模态训练数据集,构建文本模型和视觉模型;获取待识别商品的信息,通过文本模型提取信息中描述性文本的文本特征,通过视觉模型提取信息中待识别图像的图像特征;基于文本特征与图像特征,计算描述性文本和待识别图像之间的相似度;判断待识别图像中是否包含待识别商品,通过本申请,解决了商品识别中存在识别范围扩展难度大和模型鲁棒性低的问题,充分利用音频、文本、视频三种模态信息,提高了后续双模型的鲁棒性和泛化能力,扩展识别范围无需重新训练模型。模型。模型。

【技术实现步骤摘要】
一种基于多模态数据的商品识别方法和系统


[0001]本申请涉及检测分类
,特别是涉及一种基于多模态数据的商品识别方法和系统。

技术介绍

[0002]近年来,随着国家经济的快速发展,市场上的商品种类也在快速增长,,在此基础上,如何对海量繁杂的商品进行识别分类则显得尤为重要。
[0003]目前市面上商品种类识别方案的实现一般采用基于深度学习的分类模型或检测模型,虽然相比传统的特征比对方法已经有比较大的优势,但其面临的局限性也是十分明显的。分类模型或检测模型想要对识别范围进行扩展的时候,需要重新收集新增类别的样本数据,然后进行数据的清洗与标注,采用新收集的数据对模型进行重新训练,该过程的计算成本与时间成本主要由数据与模型规模而定,短则几天多则数月,耗时耗力,严重制约了模型识别范围的快速扩展;为保证模型的训练效果,往往采用单一类型数据,如对于商品图片,只能采用商品类别的标识数据或目标框组成的训练数据,因此模型鲁棒性会受数据类型制约,在模型进行识别的时候表现出较弱的召回,容易漏检,影响识别效果。
[0004]目前针对相关技术中商品识别存在识别范围扩展难度大和模型鲁棒性低的问题,尚未提出有效的解决方案。

技术实现思路

[0005]本申请实施例提供了一种基于多模态数据的商品识别方法和系统,以至少解决相关技术中商品识别存在识别范围扩展难度大和模型鲁棒性低的问题。
[0006]第一方面,本申请实施例提供了一种基于多模态数据的商品识别方法,所述方法包括:
[0007]获取与预设商品相关联的音频数据、文本数据和视频数据;
[0008]将所述音频数据,所述文本数据和所述视频数据进行处理,得到多模态训练数据集;
[0009]基于所述多模态训练数据集,构建文本模型和视觉模型;
[0010]获取待识别商品的信息,通过所述文本模型提取所述信息中描述性文本的文本特征,通过所述视觉模型提取所述信息中待识别图像的图像特征;
[0011]基于所述文本特征与所述图像特征,采用预设相似度算法计算所述描述性文本和待识别图像之间的相似度;
[0012]根据所述相似度判断所述待识别图像中是否包含所述待识别商品
[0013]在其中一些实施例中,将所述音频数据,所述文本数据和所述视频数据进行处理,得到多模态训练数据集包括:
[0014]基于非人工标注的方式,将所述音频数据,所述文本数据和所述视频数据进行处理,得到多模态训练数据集。
[0015]在其中一些实施例中,将所述音频数据,所述文本数据和所述视频数据进行处理,得到多模态训练数据集包括:
[0016]将所述视频数据中的视频进行切分,得到若干视频段,将所述音频数据中的音频进行对应切分,得到与所述视频段对应的若干音频段;
[0017]采用关键帧截帧的方式截取出各个所述视频段对应的关键图像;
[0018]将与关键图像的视频段对应的音频段,作为所述关键图像的语音标签,将所述文本数据作为各个关键图像的文本标签,得到若干条样本数据,进而得到多模态训练数据集。
[0019]在其中一些实施例中,基于所述多模态训练数据集,构建文本模型和视觉模型包括:
[0020]逐条处理所述多模态训练数据集中的样本数据:
[0021]通过语音识别技术将样本数据中的音频数据转化成语音识别文本,将所述语音识别文本与所述样本数据中的文本数据进行拼接,得到融合数据;
[0022]将所述融合数据输入文本模型中进行融合特征提取,将所述样本数据中的视频数据输入视觉模型中进行图像特征提取;
[0023]基于所述融合特征和所述图像特征进行相似度计算,制定标签分配规则,进而构建损失函数,反向传播更新所述文本模型和所述视觉模型的参数。
[0024]在其中一些实施例中,获取待识别商品的信息,通过所述文本模型提取所述信息中描述性文本的文本特征包括:
[0025]获取待识别商品的信息;
[0026]若所述信息中同时存在描述性语音和描述性文本,则将所述描述性语音转换成语音文本,并与所述描述性文本拼接得到新的描述性文本,通过所述文本模型提取新的所述描述性文本的文本特征;
[0027]若所述信息中仅存在描述性文本,则通过所述文本模型提取所述描述性文本的文本特征;
[0028]若所述信息中仅存在描述性语音,则将所述描述性语音转换成语音文本,并作为描述性文本,通过所述文本模型提取所述描述性文本的文本特征。
[0029]在其中一些实施例中,基于所述文本特征与所述图像特征,采用预设相似度算法计算所述描述性文本和待识别图像之间的相似度包括:
[0030]采用余弦相似度函数计算所述描述性文本和待识别图像的之间相似度,其中,l
e
为视觉模型提取的所述图像特征,T
e
为文本模型提取的所述文本特征。
[0031]在其中一些实施例中,进而构建损失函数包括:
[0032]构建整体损失函数loss=(l
ew
(f,label)+l
eh
(f,label))/2,其中,f=l
e
*T
e
,label为预设批次中样本数据的标签,l
ew
为预设批次中多个样本数据组成矩阵的横向交叉熵损失函数,l
eh
为预设批次中多个样本数据组成矩阵的纵向交叉熵损失函数,l
e
为样本数据中视频数据对应的图像特征,T
e
为样本数据中音频数据和文本数据对应的融合特征。
[0033]在其中一些实施例中,制定标签分配规则包括:
[0034]对于多模态训练数据集中预设批次的当前样本数据;
[0035]将所述当前样本数据在所述预设批次中的对应位置设为1,所述预设批次中其他
样本数据的对应位置设为0,以此作为所述当前样本数据的标签。
[0036]在其中一些实施例中,根据所述相似度判断所述待识别图像中是否包含所述待识别商品包括:
[0037]若所述相似度大于预设阈值,则所述待识别图像中包含所述待识别商品,若所述相似度不大于所述预设阈值,则所述待识别图像中不包含所述待识别商品。
[0038]第二方面,本申请实施例提供了一种基于多模态数据的商品识别系统,所述系统包括数据集构建模块、模型训练模块和商品识别模块;
[0039]所述数据集构建模块,用于获取与预设商品相关联的音频数据、文本数据和视频数据;将所述音频数据,所述文本数据和所述视频数据进行处理,得到多模态训练数据集;
[0040]所述模型训练模块,用于基于所述多模态训练数据集,构建文本模型和视觉模型;
[0041]所述商品识别模块,用于获取待识别商品的信息,通过所述文本模型提取所述信息中描述性文本的文本特征,通过所述视觉模型提取所述信息中待识别图像的图像特征;基于所述文本特征与所述图像特征,采用预设相似度算法计算所述描述性文本本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多模态数据的商品识别方法,其特征在于,所述方法包括:获取与预设商品相关联的音频数据、文本数据和视频数据;将所述音频数据,所述文本数据和所述视频数据进行处理,得到多模态训练数据集;基于所述多模态训练数据集,构建文本模型和视觉模型;获取待识别商品的信息,通过所述文本模型提取所述信息中描述性文本的文本特征,通过所述视觉模型提取所述信息中待识别图像的图像特征;基于所述文本特征与所述图像特征,采用预设相似度算法计算所述描述性文本和待识别图像之间的相似度;根据所述相似度判断所述待识别图像中是否包含所述待识别商品。2.根据权利要求1所述的方法,其特征在于,将所述音频数据,所述文本数据和所述视频数据进行处理,得到多模态训练数据集包括:将所述音频数据,所述文本数据和所述视频数据进行处理,得到多模态训练数据集。3.根据权利要求1或2所述的方法,其特征在于,将所述音频数据,所述文本数据和所述视频数据进行处理,得到多模态训练数据集包括:将所述视频数据中的视频进行切分,得到若干视频段,将所述音频数据中的音频进行对应切分,得到与所述视频段对应的若干音频段;采用关键帧截帧的方式截取出各个所述视频段对应的关键图像;将与关键图像的视频段对应的音频段,作为所述关键图像的语音标签,将所述文本数据作为各个关键图像的文本标签,得到若干条样本数据,进而得到多模态训练数据集。4.根据权利要求1所述的方法,其特征在于,基于所述多模态训练数据集,构建文本模型和视觉模型包括:逐条处理所述多模态训练数据集中的样本数据:通过语音识别技术将样本数据中的音频数据转化成语音识别文本,将所述语音识别文本与所述样本数据中的文本数据进行拼接,得到融合数据;将所述融合数据输入文本模型中进行融合特征提取,将所述样本数据中的视频数据输入视觉模型中进行图像特征提取;基于所述融合特征和所述图像特征进行相似度计算,制定标签分配规则,进而构建损失函数,反向传播更新所述文本模型和所述视觉模型的参数。5.根据权利要求1所述的方法,其特征在于,获取待识别商品的信息,通过所述文本模型提取所述信息中描述性文本的文本特征包括:获取待识别商品的信息;若所述信息中同时存在描述性语音和描述性文本,则将所述描述性语音转换成语音文本,并与所述描述性文本拼接得到新的描述性文本,通过所述文本模型提取新的所述描述性文本的文本特征;若所述信息中仅存在描述性文本,则通过所述文本模型提取所述描述性文本的文本特征;若所述信息中仅存在描述性语音,则将所述描述性语音转换成语音文本,并作为描述性文本,通过所述文本模型提取所述描述性文本的文本特征。6.根据...

【专利技术属性】
技术研发人员:冯旭王语斌
申请(专利权)人:同盾科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1