语义标注方法、装置和系统制造方法及图纸

技术编号:26172621 阅读:21 留言:0更新日期:2020-10-31 13:51
本说明书实施例提供一种语义标注方法、装置和系统,通过前端将三维场景的场景视频序列发送至服务器,由服务器进行场景重建,得到重建后的三维场景的描述信息,再由前端根据重建后的三维场景的描述信息在本地生成所述三维场景,并将所述三维场景的语义标注结果返回至所述服务器,其中,所述三维场景的语义标注结果基于所述三维场景的描述信息得到。

【技术实现步骤摘要】
语义标注方法、装置和系统
本公开涉及计算机视觉
,尤其涉及语义标注方法、装置和系统。
技术介绍
语义标注用于解决场景中的每个点属于哪个目标的问题,例如,对于室内场景,通过语义标注来确定场景中的每个点所属的类别为桌子、椅子、电脑等等。传统的语义标注方式在针对三维场景进行标注时,标注准确率较低。
技术实现思路
本公开提供一种语义标注方法、装置和系统。根据本公开实施例的第一方面,提供一种语义标注方法,应用于服务器,所述方法包括:获取前端发送的三维场景的场景视频序列;根据所述场景视频序列对所述三维场景进行场景重建,得到重建后的所述三维场景的描述信息;将所述三维场景的描述信息发送至所述前端,以获取所述前端返回的所述三维场景的语义标注结果,其中,所述三维场景的语义标注结果基于所述三维场景的描述信息得到。在一些实施例中,所述场景视频序列中的每一帧图像包括所述三维场景的R通道图像、G通道图像、B通道图像和深度图像。在一些实施例中,所述根据所述场景视频序列对所述三维场景进行场景重建,得到重建后的所述三维场景的描述信息,包括:根据所述场景视频序列对所述三维场景进行场景重建,得到所述三维场景对应的多个网格;分别获取所述多个网格中每个网格的描述信息,其中,所述三维场景的描述信息中包括所述每个网格的描述信息。在一些实施例中,所述方法还包括:获取所述三维场景中每个点的语义标签;在得到所述三维场景对应的多个网格之后,根据所述多个网格中每个网格中各个点的语义标签,生成所述每个网格的语义标签;其中,每个网格包括所述三维场景中的至少一个点;将所述每个网格的语义标签发送至所述前端,以在所述前端获取基于所述每个网格的语义标签得到的对所述语义标注结果的校正结果。在一些实施例中,所述方法还包括:在将所述三维场景的描述信息发送至所述前端之后,获取所述前端返回的所述语义标注结果;将所述语义标注结果投影到所述场景视频序列的每一帧图像上。在一些实施例中,所述前端的数量为多个。在一些实施例中,所述方法还包括:分别获取多个所述前端中每个前端的语义标注结果;根据所述每个前端的语义标注结果对应的场景,对所述每个前端的语义标注结果进行保存。根据本公开实施例的第二方面,提供一种语义标注方法,应用于前端,所述方法包括:将三维场景的场景视频序列发送至服务器,以使所述服务器根据所述场景视频序列对所述三维场景进行场景重建;接收所述服务器进行场景重建后返回的所述三维场景的描述信息;根据所述三维场景的描述信息生成所述三维场景,并将所述三维场景的语义标注结果返回至所述服务器,其中,所述三维场景的语义标注结果基于所述三维场景的描述信息得到。在一些实施例中,重建后的所述三维场景的描述信息中包括所述三维场景中的多个网格中每个网格的描述信息;所述三维场景的语义标注结果基于以下方式获取:根据所述多个网格中每个网格的描述信息,对所述多个网格进行聚合,得到至少一个聚合网格,所述至少一个聚合网格中的每个聚合网格对应所述三维场景中的一个对象;对所述至少一个聚合网格中的每个聚合网格进行语义标注,得到所述三维场景的语义标注结果。在一些实施例中,所述方法还包括:对所述语义标注结果中至少一个第一语义标注结果进行隐藏;和/或对已被隐藏的至少一个第一语义标注结果进行显示。在一些实施例中,所述对所述语义标注结果中至少一个第一语义标注结果进行隐藏,包括:生成所述至少一个第一语义标注结果中每个第一语义标注结果的一组切面,其中,一个第一语义标注结果的一组切面将该第一语义标注结果包裹在内;通过所述每个第一语义标注结果的一组切面,对所述每个第一语义标注结果进行隐藏。在一些实施例中,所述对所述至少一个聚合网格中的每个聚合网格进行语义标注,包括:接收对所述至少一个聚合网格中的每个聚合网格的选择指令;根据所述每个聚合网格对应的选择指令,生成所述每个聚合网格的包围框,一个聚合网格的包围框中包括该聚合网格中的各个点,所述包围框为包围盒或者凸包;对所述每个聚合网格的包围框中的点进行语义标注。在一些实施例中,所述根据所述三维场景的描述信息生成所述三维场景由第一线程执行;所述三维场景的语义标注结果由第二线程获取;其中,所述第一线程不同于所述第二线程。在一些实施例中,所述前端为网页。根据本公开实施例的第三方面,提供一种语义标注装置,应用于服务器,所述装置包括:第一获取模块,用于获取前端发送的三维场景的场景视频序列;重建模块,用于根据所述场景视频序列对所述三维场景进行场景重建,得到重建后的所述三维场景的描述信息;第一发送模块,用于将所述三维场景的描述信息发送至所述前端,以获取所述前端返回的所述三维场景的语义标注结果,其中,所述三维场景的语义标注结果基于所述三维场景的描述信息得到。在一些实施例中,所述场景视频序列中的每一帧图像包括所述三维场景的R通道图像、G通道图像、B通道图像和深度图像。在一些实施例中,所述第一发送模块包括:重建单元,用于根据所述场景视频序列对所述三维场景进行场景重建,得到所述三维场景对应的多个网格;获取单元,用于分别获取所述多个网格中每个网格的描述信息,其中,所述三维场景的描述信息中包括所述每个网格的描述信息。在一些实施例中,所述装置还包括:第二获取模块,用于获取所述三维场景中每个点的语义标签;生成模块,用于在得到所述三维场景对应的多个网格之后,根据所述多个网格中每个网格中各个点的语义标签,生成所述每个网格的语义标签;其中,每个网格包括所述三维场景中的至少一个点;第三发送模块,用于将所述每个网格的语义标签发送至所述前端,以在所述前端获取基于所述每个网格的语义标签得到的对所述语义标注结果的校正结果。在一些实施例中,所述装置还包括:第三获取模块,用于在将所述三维场景的描述信息发送至所述前端之后,获取所述前端返回的所述语义标注结果;投影模块,用于将所述语义标注结果投影到所述场景视频序列的每一帧图像上。在一些实施例中,所述前端的数量为多个。在一些实施例中,所述装置还包括:第四获取模块,用于分别获取多个所述前端中每个前端的语义标注结果;保存模块,用于根据所述每个前端的语义标注结果对应的场景,对所述每个前端的语义标注结果进行保存。根据本公开实施例的第四方面,提供一种语义标注装置,应用于前端,所述装置包括:第二发送模块,用于将三维场景的场景视频序列发送至服务器,以使所述服务器根据所述场景视频序列对所述三维场景进行场景重建;接收模块,用于接收所述服务器返回的所述三维场景的描述信息;返回模块,用于根据所述三维场景的描述信息生成所述三维场景,并将所述三维场景的语义标注结果返回至所述服务器,其中,所述三维场景的语义标注结果基于所述三维场景的描述信息得到。在一些实施例中,重建后的所述三维场景的描述信息中包括所述三维场景中的多个网格中每个网格的描述信息;所述返回模块包括:聚合单元,用于根据所述多个网格中每个网格的描述信息,对所述多个网格进行聚合,得到至少一个聚合网格,所述至少一个聚合网格本文档来自技高网...

【技术保护点】
1.一种语义标注方法,其特征在于,应用于服务器,所述方法包括:/n获取前端发送的三维场景的场景视频序列;/n根据所述场景视频序列对所述三维场景进行场景重建,得到重建后的所述三维场景的描述信息;/n将所述三维场景的描述信息发送至所述前端,以获取所述前端返回的所述三维场景的语义标注结果,其中,所述三维场景的语义标注结果基于所述三维场景的描述信息得到。/n

【技术特征摘要】
1.一种语义标注方法,其特征在于,应用于服务器,所述方法包括:
获取前端发送的三维场景的场景视频序列;
根据所述场景视频序列对所述三维场景进行场景重建,得到重建后的所述三维场景的描述信息;
将所述三维场景的描述信息发送至所述前端,以获取所述前端返回的所述三维场景的语义标注结果,其中,所述三维场景的语义标注结果基于所述三维场景的描述信息得到。


2.根据权利要求1所述的方法,其特征在于,所述场景视频序列中的每一帧图像包括所述三维场景的R通道图像、G通道图像、B通道图像和深度图像。


3.根据权利要求1或2所述的方法,其特征在于,所述根据所述场景视频序列对所述三维场景进行场景重建,得到重建后的所述三维场景的描述信息,包括:
根据所述场景视频序列对所述三维场景进行场景重建,得到所述三维场景对应的多个网格;
分别获取所述多个网格中每个网格的描述信息,其中,所述三维场景的描述信息中包括所述每个网格的描述信息。


4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
获取所述三维场景中每个点的语义标签;
在得到所述三维场景对应的多个网格之后,根据所述多个网格中每个网格中各个点的语义标签,生成所述每个网格的语义标签;其中,每个网格包括所述三维场景中的至少一个点;
将所述每个网格的语义标签发送至所述前端,以在所述前端获取基于所述每个网格的语义标签得到的对所述语义标注结果的校正结果。


5.根据权利要求1至4任意一项所述的方法,其特征在于,所述方法还包括:
在将所述三维场景的描述信息发送至所述前端之后,获取所述前端返回的所述语义标注结果;
将所述语义标注结果投影到所述场景视频序列的每一帧图像上。


6.根据权利要求1至5任意一项所述的方法,其特征在于,所述前端的数量为多个;所述方法还包括:
分别获取多个所述前端中每个前端的语义标注结果;
根据所述每个前端的语义标注结果对应的场景,对所述每个前端的语义标注结果进行保存。


7.一种语义标注方法,其特征在于,应用于前端,所述方法包括:
将三维场景的场景视频序列发送至服务器,以使所述服务器根据所述场景视频序列对所述三维场景进行场景重建;
接收所述服务器进行场景重建后返回的所述三维场景的描述信息;
根据所述三维场景的描述信息生成所述三维场景,并将所述三维场景的语义标注结果返回至所述服务器,其中,所述三维场景的语义标注结果基于所述三维场景的描述信息得到。


8.根据权利要求7所述的方法,其特征在于,所述三维场景的描述信息中包括所述三维场景中的多个网格中每个网格的描述信息;
所述三维场景的语义标注结果基于以下方式获取:
根据所述多个网格中每个网格的描述信息,对所述多个网格进行聚合,得到至少一个聚合网格,所述至少一个聚合网格中的每个聚合网格对应所述三维场景中的一个对象;
对所述至少一个聚合网格中的每个聚合网格进行语义标注,得到所述三维场景的语义标注结果。


9.根据权利要求7或8所述的方法,其特征在于,所述方法还包括:
对所述语义标注结果中至少一个第一语义标注结果进行隐藏;和/或
对已被隐藏的至少一个第一语义标注结果进行显示。


10.根据权利要求9所述的方法,其...

【专利技术属性】
技术研发人员:周晓巍赵洪城孙佳明黄子敬
申请(专利权)人:浙江商汤科技开发有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1