【技术实现步骤摘要】
一种跨模态检索的方法、设备及介质
[0001]本申请涉及计算机
,尤其涉及一种跨模态检索的方法、设备及介质。
技术介绍
[0002]随着信息技术的发展,搜索类产品正在经历从传统的文本搜索到语音搜索、视频搜索扩充,整体呈现更自然、更智能、更高效的发展趋势。当需要进行不同模态之间的搜索时,比如用视频找到相关的音频,或用图片找到相关的音频时,需要提供一种进行跨模态检索的方法;而目前使用的方法是利用特征向量匹配的方式,而只利用特征向量来表示,局限了不同模态的表征范围,召回率不高。
技术实现思路
[0003]本申请的一个目的是提供一种跨模态检索的方法、设备及介质,解决现有技术中使用单一的特征向量表示模态,局限了不同模态的表征范围,召回率不高的问题。
[0004]根据本申请的一个方面,提供了一种跨模态检索的方法,该方法包括:获取不同模态的特征向量,以及分别识别不同模态中的文本,得到文本结果;将获取到的不同模态的特征向量用余弦相似度方法计算不同模态之间的相似度值;将得到的文本结果使用错字率方法计算不同模态之间 ...
【技术保护点】
【技术特征摘要】
1.一种跨模态检索的方法,其特征在于,所述方法包括:获取不同模态的特征向量,以及分别识别不同模态中的文本,得到文本结果;将获取到的不同模态的特征向量用余弦相似度方法计算不同模态之间的相似度值;将得到的文本结果使用错字率方法计算不同模态之间的错字率;根据所述不同模态之间的相似度值以及错字率确定检索关联度,根据所述检索关联度在不同模态之间进行检索。2.根据权利要求1所述的方法,其特征在于,分别识别不同模态中的文本,包括:使用视频描述获取视频模态中的文字摘要内容;使用音频识别方法获取音频模态中的文字内容;使用OCR图文识别技术识别图片模态中的文字内容。3.根据权利要求2所述的方法,其特征在于,使用OCR图文识别技术识别图片模态中的文字内容,包括:使用OCR图文识别技术中的YOLO文本框检测神经网络与CRNN文字识别网络识别图片模态中的文字内容。4.根据权利要求1所述的方法,其特征在于,所述根据所述不同模态之间的相似度值以及错字率确定检索关联度,包括:根据所述不同模态之间的相似度和对应的权重值以及错字率和对应的权重值确定不同模态之间的检索关联度。5.根据权利要求1所述的方法,其特征在于,所述方法包括:将不同模态的内容进行存入数据库,在确定不同模态之间的相似度值以及错字率之后,将所述相似度值以及错字率存入所述数据库中;或,直接获取用户上传的不同模态的内容。6.根据权利要求5所述的方法,其特征在于...
【专利技术属性】
技术研发人员:ꢀ七四专利代理机构,
申请(专利权)人:上海蜜度信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。