System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 用于对象检测的方法、装置、设备和存储介质制造方法及图纸_技高网

用于对象检测的方法、装置、设备和存储介质制造方法及图纸

技术编号:41242836 阅读:4 留言:0更新日期:2024-05-09 23:54
本公开提供了用于对象检测的方法、装置、设备和存储介质。该方法包括:利用对象检测模型提取目标图像的一组视觉特征表示,一组视觉特征表示包括目标图像中的至少一个对象区域各自的视觉特征表示;以及利用语言模型,基于一组视觉特征表示来生成一组文本序列,每个文本序列描述视觉特征表示对应的对象区域中的对象所属的至少一个类别。由此,借助语言模型的生成能力和语义分析能力,可以无需依赖与目标图像相关联的文本来训练用于对象分类的模型来将图像中的对象与类别的文本信息进行对齐。不仅能够降低对带类别标注的大规模训练数据的依赖,而且在模型应用中能够提升对象检测的全面性和准确性。

【技术实现步骤摘要】

本公开的示例实施例总体涉及计算机,特别地涉及用于对象检测的方法、装置、设备和计算机可读存储介质。


技术介绍

1、随着互联网技术的发展,越来越多的应用或平台等均提供图像处理功能,给广大用户带来了诸多便利。具有图像处理功能的应用或平台可以基于经训练的机器学习模型向用户提供图像处理服务。图像识别任务是图像处理任务中的重要任务,对象检测任务是图像识别任务中的重要任务。期望能够提升机器学习模型执行对象检测任务所生成的检测结果的准确性。


技术实现思路

1、在本公开的第一方面,提供了一种对象检测的方法。该方法包括:利用语音识别编码器提取目标音频的一组声学特征表示,每个声学特征表示对应于目标文本序列中的一个文本单元,目标文本序列要被确定为目标音频的语音识别结果;利用说话人识别模型提取目标音频的一组说话人特征表示,每个说话人特征表示对应于目标文本序列中的一个文本单元;基于一组说话人特征表示中各个说话人特征表示之间的相似度,确定目标文本序列中各个文本单元对的至少一个说话人相似度,每个说话人相似度指示各个文本单元对属于相同说话人的概率;以及利用语音识别解码器,至少基于目标文本序列中已预测的文本单元、一组声学特征表示以及至少一个说话人相似度,确定目标文本序列中当前要预测的目标文本单元。

2、在本公开的第二方面,提供了一种用于对象检测的装置。该装置包括:第一特征提取模块,被配置为利用语音识别编码器提取目标音频的一组声学特征表示,每个声学特征表示对应于目标文本序列中的一个文本单元,目标文本序列要被确定为目标音频的语音识别结果;第二特征提取模块,被配置为利用说话人识别模型提取目标音频的一组说话人特征表示,每个说话人特征表示对应于目标文本序列中的一个文本单元;相似度确定模块,被配置为基于一组说话人特征表示中各个说话人特征表示之间的相似度,确定目标文本序列中各个文本单元对的至少一个说话人相似度,每个说话人相似度指示各个文本单元对属于相同说话人的概率;以及结果确定模块,被配置为利用语音识别解码器,至少基于目标文本序列中已预测的文本单元、一组声学特征表示以及至少一个说话人相似度,确定目标文本序列中当前要预测的目标文本单元。

3、在本公开的第三方面,提供了一种电子设备。该设备包括至少一个处理单元;以及至少一个存储器,至少一个存储器被耦合到至少一个处理单元并且存储用于由至少一个处理单元执行的指令。指令在由至少一个处理单元执行时使设备执行第一方面的方法。

4、在本公开的第四方面,提供了一种计算机可读存储介质。该介质上存储有计算机程序,计算机程序被处理器执行时实现第一方面的方法。

5、应当理解,该部分中所描述的内容并非旨在限定本公开的实施例的关键特征或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的描述而变得容易理解。

本文档来自技高网...

【技术保护点】

1.一种对象检测方法,包括:

2.根据权利要求1所述的方法,其中一组输出序列中的每个输出序列具有预设长度,并且每个对象对应的至少一个检测结果包括与预设长度相匹配的预设数目的检测结果。

3.根据权利要求1所述的方法,其中所述语言模型经由如下输出一组输出序列:

4.根据权利要求1所述的方法,其中利用语言模型,基于所述一组视觉特征表示来生成一组文本序列包括:

5.根据权利要求4所述的方法,其中所述语言模型和所述视觉-语言特征适配器是经训练的,并且在所述对象检测模型的训练过程中,经训练的所述语言模型和所述视觉-语言特征适配器的参数被固定。

6.根据权利要求5所述的方法,其中所述对象检测模型包括图像编码器和图像解码器,并且所述图像编码器是经训练的并且在所述对象检测模型的训练过程中所述图像编码器的参数被固定。

7.根据权利要求1所述的方法,其中所述对象检测模型和所述语言模型被联合训练。

8.根据权利要求1所述的方法,其中至少所述对象检测模型通过以下方式被训练:

9.根据权利要求8所述的方法,其中至少所述对象检测模型通过以下方式被训练:

10.根据权利要求1所述的方法,还包括:

11.一种用于对象检测的装置,包括:

12.一种电子设备,包括:

13.一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现根据权利要求1至10中任一项所述的方法。

...

【技术特征摘要】

1.一种对象检测方法,包括:

2.根据权利要求1所述的方法,其中一组输出序列中的每个输出序列具有预设长度,并且每个对象对应的至少一个检测结果包括与预设长度相匹配的预设数目的检测结果。

3.根据权利要求1所述的方法,其中所述语言模型经由如下输出一组输出序列:

4.根据权利要求1所述的方法,其中利用语言模型,基于所述一组视觉特征表示来生成一组文本序列包括:

5.根据权利要求4所述的方法,其中所述语言模型和所述视觉-语言特征适配器是经训练的,并且在所述对象检测模型的训练过程中,经训练的所述语言模型和所述视觉-语言特征适配器的参数被固定。

6.根据权利要求5所述的方法,其中所述对象检测模型包括图像编...

【专利技术属性】
技术研发人员:江毅林闯袁泽寰
申请(专利权)人:北京有竹居网络技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1