当前位置: 首页 > 专利查询>宁波大学专利>正文

一种基于深度学习重建的水下视频对象编码方法技术

技术编号:29465086 阅读:40 留言:0更新日期:2021-07-27 17:53
本发明专利技术公开了一种基于深度学习重建的水下视频对象编码方法,其结合水下视频在实际观察监测当中存在明显用户感兴趣信息与用户非感兴趣信息的应用特点,针对水下视频对象进行编码,减小了水下视频编码所需要编码的数据总量;在对象编码过程中,通过角点信息编码、对象掩膜编码以及少量关键帧编码的方式,进一步减小了水下视频编码所需要编码的数据总量,达到了低码率编码的目的;在解码端,通过基于深度学习重建的方法,构建了一个卷积神经网络以提升在低码率编码条件下的解码端视频对象质量,通过本发明专利技术方法对水下视频对象进行编码解决了水下低码率条件下高效编码的问题。

【技术实现步骤摘要】
一种基于深度学习重建的水下视频对象编码方法
本专利技术涉及一种水下视频对象信号处理技术,尤其是涉及一种基于深度学习重建的水下视频对象编码方法。
技术介绍
水下视频技术正在越来越多的领域中使用,例如自动水下航行器、油气勘探、水下管道检查和环境监控等。在水下视频传输过程中,通过有线传输的方式存在成本高、维护更新不容易的问题;通过电磁波传输的方式存在迅速衰减的问题。相比之下,声波传输是适合水下视频的无线通信方法,但是,水下声波路径的数据传输速率比无线电路径的数据传输速率低得多,水下声波路径的数据传输速率的数量级一般为kbps,数值通常小于100,而IEEE802.11ac无线电路径的数据传输速率的数量级一般为Mbps,数值通常为100+,由此可见水下声波路径的数据传输速率低。现有的视频编码标准,例如高效视频编码(HighEfficiencyVideoCoding,HEVC)标准,在高比特的数据传输速率下其视频压缩效果会更佳。相关实验结果表明,即使在带宽达到100kbps的传输通道上,以30fps传输320×240的彩色图像需要约500:1的压缩率。当水下视频的分辨率增大或者水下声波路径的数据传输速率更低时,这将严重影响水下视频的压缩质量。因此,用现有的视频编码标准直接压缩水下视频并不是最合适的,如何在数据传输速率不高的水下传输通道上实现具有庞大数据量的水下视频高效编码已成为重要问题。在水下实际监测、勘探过程中,用户往往需要观察、检测水下视频的某一特定对象,其它信息非用户所感兴趣。在水下声波路径的数据传输速率不高的前提下,这些非感兴趣信息在压缩与传输过程中占用了不必要的资源。通过结合用户端需求只编码水下视频对象来减少水下视频源传输的数据量,是实现水下视频在低码率条件下高效编码的有效方式之一。而且,现有的视频编码标准,如HEVC可以兼容对象的编码,但是这些视频编码标准是基于编码块进行压缩,并非专门针对低码率条件下的对象编码。基于上述原因,针对水下视频感兴趣对象设计一种有效的编码方法十分有必要。
技术实现思路
本专利技术所要解决的技术问题是提供一种基于深度学习重建的水下视频对象编码方法,其能够在低码率条件下实现水下视频对象的高效编码。本专利技术解决上述技术问题所采用的技术方案为:一种基于深度学习重建的水下视频对象编码方法,其特征在于包括以下步骤:步骤一:在编码端,对待处理的原始的水下视频进行处理,去除背景而保留对象信息,得到仅包含对象信息的水下视频;然后将仅包含对象信息的水下视频中当前待编码的第t帧定义为当前帧;其中,t为正整数,t的初始值为1,1≤t≤Frame,Frame表示待处理的原始的水下视频中包含的帧的总帧数或仅包含对象信息的水下视频中包含的帧的总帧数,Frame>1,当前帧的宽和高对应为Wpic和Hpic;步骤二:将当前帧记为Ft;然后获取Ft的对象掩膜,记为Matrixt;再采用HEVC标准的编码技术对Matrixt进行编码,得到Ft的对象掩膜码流,记为Mt;其中,Matrixt的宽和高对应为Wpic和Hpic;步骤三:对Ft进行Harris角点检测,检测得到Ft的n个角点;然后将Ft的n个角点的坐标位置构成一个坐标信息集合,记为Ω1,t,Ω1,t={r1,1,t,…,rm,1,t,…,rn,1,t,r1,2,t,…,rm,2,t,…,rn,2,t};并将Ft的n个角点的R通道颜色值、G通道颜色值、B通道颜色值构成一个颜色信息集合,记为Ω2,t,Ω2,t={r1,3,t,…,rm,3,t,…,rn,3,t,r1,4,t,…,rm,4,t,…,rn,4,t,r1,5,t,…,rm,5,t,…,rn,5,t};其中,min()为取最小值函数,a为预先设定的常数,a>1,num(o)表示Ft中属于对象信息的所有像素点的总个数与Ft中所有像素点的总个数的比,o表示Ft的对象信息,r1,1,t表示Ft的第1个角点的横坐标,rm,1,t表示Ft的第m个角点的横坐标,rn,1,t表示Ft的第n个角点的横坐标,r1,2,t表示Ft的第1个角点的纵坐标,rm,2,t表示Ft的第m个角点的纵坐标,rn,2,t表示Ft的第n个角点的纵坐标,r1,3,t表示Ft的第1个角点的R通道颜色值,rm,3,t表示Ft的第m个角点的R通道颜色值,rn,3,t表示Ft的第n个角点的R通道颜色值,r1,4,t表示Ft的第1个角点的G通道颜色值,rm,4,t表示Ft的第m个角点的G通道颜色值,rn,4,t表示Ft的第n个角点的G通道颜色值,r1,5,t表示Ft的第1个角点的B通道颜色值,rm,5,t表示Ft的第m个角点的B通道颜色值,rn,5,t表示Ft的第n个角点的B通道颜色值,m为正整数,1≤m≤n;步骤四:将Ω1,t中的每个元素从十进制数转化为二进制数,将二进制下的坐标信息集合记为Ω'1,t;同样,将Ω2,t中的每个元素从十进制数转化为二进制数,将二进制下的颜色信息集合记为Ω'2,t;然后采用基于上下文自适应的二进制算术编码技术对Ω'1,t中的所有元素进行编码,得到坐标信息码流,记为E1,t;同样采用基于上下文自适应的二进制算术编码技术对Ω'2,t中的所有元素进行编码,得到颜色信息码流,记为E2,t;再将E1,t和E2,t构成Ft的角点信息码流,记为Et,Et={E1,t,E2,t};步骤五:判断t是否等于(k-1)×N+1,如果t等于(k-1)×N+1,则将Ft作为关键帧,然后采用HEVC标准的编码技术对Ft进行编码,得到Ft的关键帧码流,记为Ot,再执行步骤六;如果t不等于(k-1)×N+1,则将Ft作为非关键帧,对Ft不进行任何处理,再执行步骤六;其中,N为预先设定的常数,N为正整数,1≤N≤Frame,k为正整数,k的取值在区间内遍历,floor()表示向下取整函数;步骤六:令t=t+1,将仅包含对象信息的水下视频中下一帧待编码的帧作为当前帧;然后返回步骤二继续执行,直到仅包含对象信息的水下视频中的所有帧处理完毕,得到所有对象掩膜码流和所有角点信息码流,及所有关键帧码流;再将所有对象掩膜码流和所有角点信息码流及所有关键帧码流发送给解码端;其中,t=t+1中的“=”为赋值符号;步骤七:在解码端,对接收到的所有对象掩膜码流和所有角点信息码流及所有关键帧码流进行解码,得到解码后的水下视频,该解码后的水下视频包括每帧的对象掩膜和每帧中的每个角点的横坐标、纵坐标、R通道颜色值、G通道颜色值、B通道颜色值,及所有关键帧;步骤八:构造一个卷积神经网络以进行基于深度学习的对象精细化重建;然后将解码后的水下视频中当前待处理的第t帧定义为当前帧;其中,1≤t≤Frame;步骤九:将当前帧记为F't,将F't的对象掩膜记为Matrix't,将F't的第m个角点的横坐标、纵坐标、R通道颜色值、G通道颜色值、B通道颜色值对应记为r'm,1,t、r'm,2,t、r'm,3,t、r'm,4,t、r'm,5,t;令Ct表示F't对应的最终重建结果;步骤十:根据Matrix't和F't的所有角点的横坐标本文档来自技高网
...

【技术保护点】
1.一种基于深度学习重建的水下视频对象编码方法,其特征在于包括以下步骤:/n步骤一:在编码端,对待处理的原始的水下视频进行处理,去除背景而保留对象信息,得到仅包含对象信息的水下视频;然后将仅包含对象信息的水下视频中当前待编码的第t帧定义为当前帧;其中,t为正整数,t的初始值为1,1≤t≤Frame,Frame表示待处理的原始的水下视频中包含的帧的总帧数或仅包含对象信息的水下视频中包含的帧的总帧数,Frame>1,当前帧的宽和高对应为W

【技术特征摘要】
1.一种基于深度学习重建的水下视频对象编码方法,其特征在于包括以下步骤:
步骤一:在编码端,对待处理的原始的水下视频进行处理,去除背景而保留对象信息,得到仅包含对象信息的水下视频;然后将仅包含对象信息的水下视频中当前待编码的第t帧定义为当前帧;其中,t为正整数,t的初始值为1,1≤t≤Frame,Frame表示待处理的原始的水下视频中包含的帧的总帧数或仅包含对象信息的水下视频中包含的帧的总帧数,Frame>1,当前帧的宽和高对应为Wpic和Hpic;
步骤二:将当前帧记为Ft;然后获取Ft的对象掩膜,记为Matrixt;再采用HEVC标准的编码技术对Matrixt进行编码,得到Ft的对象掩膜码流,记为Mt;其中,Matrixt的宽和高对应为Wpic和Hpic;
步骤三:对Ft进行Harris角点检测,检测得到Ft的n个角点;然后将Ft的n个角点的坐标位置构成一个坐标信息集合,记为Ω1,t,Ω1,t={r1,1,t,…,rm,1,t,…,rn,1,t,r1,2,t,…,rm,2,t,…,rn,2,t};并将Ft的n个角点的R通道颜色值、G通道颜色值、B通道颜色值构成一个颜色信息集合,记为Ω2,t,Ω2,t={r1,3,t,…,rm,3,t,…,rn,3,t,r1,4,t,…,rm,4,t,…,rn,4,t,r1,5,t,…,rm,5,t,…,rn,5,t};其中,min()为取最小值函数,a为预先设定的常数,a>1,num(o)表示Ft中属于对象信息的所有像素点的总个数与Ft中所有像素点的总个数的比,o表示Ft的对象信息,r1,1,t表示Ft的第1个角点的横坐标,rm,1,t表示Ft的第m个角点的横坐标,rn,1,t表示Ft的第n个角点的横坐标,r1,2,t表示Ft的第1个角点的纵坐标,rm,2,t表示Ft的第m个角点的纵坐标,rn,2,t表示Ft的第n个角点的纵坐标,r1,3,t表示Ft的第1个角点的R通道颜色值,rm,3,t表示Ft的第m个角点的R通道颜色值,rn,3,t表示Ft的第n个角点的R通道颜色值,r1,4,t表示Ft的第1个角点的G通道颜色值,rm,4,t表示Ft的第m个角点的G通道颜色值,rn,4,t表示Ft的第n个角点的G通道颜色值,r1,5,t表示Ft的第1个角点的B通道颜色值,rm,5,t表示Ft的第m个角点的B通道颜色值,rn,5,t表示Ft的第n个角点的B通道颜色值,m为正整数,1≤m≤n;
步骤四:将Ω1,t中的每个元素从十进制数转化为二进制数,将二进制下的坐标信息集合记为Ω'1,t;同样,将Ω2,t中的每个元素从十进制数转化为二进制数,将二进制下的颜色信息集合记为Ω'2,t;然后采用基于上下文自适应的二进制算术编码技术对Ω'1,t中的所有元素进行编码,得到坐标信息码流,记为E1,t;同样采用基于上下文自适应的二进制算术编码技术对Ω'2,t中的所有元素进行编码,得到颜色信息码流,记为E2,t;再将E1,t和E2,t构成Ft的角点信息码流,记为Et,Et={E1,t,E2,t};
步骤五:判断t是否等于(k-1)×N+1,如果t等于(k-1)×N+1,则将Ft作为关键帧,然后采用HEVC标准的编码技术对Ft进行编码,得到Ft的关键帧码流,记为Ot,再执行步骤六;如果t不等于(k-1)×N+1,则将Ft作为非关键帧,对Ft不进行任何处理,再执行步骤六;其中,N为预先设定的常数,N为正整数,1≤N≤Frame,k为正整数,k的取值在区间内遍历,floor()表示向下取整函数;
步骤六:令t=t+1,将仅包含对象信息的水下视频中下一帧待编码的帧作为当前帧;然后返回步骤二继续执行,直到仅包含对象信息的水下视频中的所有帧处理完毕,得到所有对象掩膜码流和所有角点信息码流,及所有关键帧码流;再将所有对象掩膜码流和所有角点信息码流及所有关键帧码流发送给解码端;其中,t=t+1中的“=”为赋值符号;
步骤七:在解码端,对接收到的所有对象掩膜码流和所有角点信息码流及所有关键帧码流进行解码,得到解码后的水下视频,该解码后的水下视频包括每帧的对象掩膜和每帧中的每个角点的横坐标、纵坐标、R通道颜色值、G通道颜色值、B通道颜色值,及所有关键帧;
步骤八:构造一个卷积神经网络以进行基于深度学习的对象精细化重建;然后将解码后的水下视频中当前待处理的第t帧定义为当前帧;其中,1≤t≤Frame;
步骤九:将当前帧记为F't,将F't的对象掩膜记为Matrix't,将F't的第m个角点的横坐标、纵坐标、R通道颜色值、G通道颜色值、B通道颜色值对应记为r'm,1,t、r'm,2,t、r'm,3,t、r'm,4,t、r'm,5,t;令Ct表示F't对应的最终重建结果;
步骤十:根据Matrix't和F't的所有角点的横坐标、纵坐标、R通道颜色值、G通道颜色值、B通道颜色值,重建得到初步重建结果,记为C't;
步骤十一:判断t是否等于(k'-1)×N+1,如果t等于(k'-1)×N+1,则令Ct等于F't,并将C't作为输入、F't作为标签训练卷积神经网络,训练得到卷积神经网络模型,然后执行步骤十二;如果t大于(k'-1)×N+1,则令Ct等于将C't输入到t等于(k'-1)×N+1时训练得到的卷积神经网络模型中进行测试得出的输出结果,然后执行步骤十二;其中,k'为正整数,k'的初始值为1;
步骤十二:令t=t+1,将解码后的水下视频中下一帧待处理的帧作为当前帧;然后返回步骤九继续执行,直到t等于k'×N+1时执行步骤十三;其中,t=t+1中的“=”为赋值符号;
步骤十三:令...

【专利技术属性】
技术研发人员:蒋刚毅赵旭辉郁梅
申请(专利权)人:宁波大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1