图像处理方法及装置制造方法及图纸

技术编号：31820249 阅读：28 留言：0更新日期：2022-01-12 12:10

本发明专利技术公开了一种图像处理方法及装置。其中，该方法包括：获取初始图像，其中，所述初始图像中含有文字的信息；将初始图像输入自编码网络模型，输出已编辑字符信息的图像，其中，所述自编码网络模型为使用多组训练数据通过机器学习训练得到的，所述多组训练数据中的训练数据均包括：包括字符信息的图像以及包括字符信息的图像对应的已编辑字符信息的图像。本发明专利技术解决了相关技术中对字符信息的编辑效果不佳的技术问题。佳的技术问题。佳的技术问题。

全部详细技术资料下载

【技术实现步骤摘要】
图像处理方法及装置

[0001]本专利技术涉及图像处理
，具体而言，涉及一种图像处理方法及装置。

技术介绍

[0002]在互联网时代，我们可以比以前更加方便的获取各种各样的视频，有各大视频网站的电影电视剧，也有如今火热的直播和短视频。为了更好的表达视频所要传达的信息，这些视频在制作过程大多会加上字幕。视频中的字幕有两种存在形式，一种是通过专门的字幕轨道添加，和视频轨道、音频轨道一样，各个轨道相互不干扰，播放的时候也可以控制开启和关闭，自由切换。另一种是直接添加到视频的图像中，作为视频图像内容的一部分，这种字幕在播放的时候就无法关闭，不能独立控制。在很多情况下，我们会有编辑字幕的需求，例如视频需要切换字幕语言，老旧视频的字幕质量太差不清晰，需要重新生成，视频作为素材需要擦除原有字幕等等。
[0003]为了擦除视频中的原有字幕，现有技术一中假设字幕的颜色固定，使用颜色阈值将字幕区域识别并用将其用另一种特定颜色覆盖用以编辑字幕内容。显然这种方式局限性很大，字幕的颜色往往不固定且有时候和背景相似，颜色阈值的办法识别效果...

【技术保护点】

【技术特征摘要】
1.一种图像处理方法，其特征在于，包括：接收客户端发送的服务调用请求，其中，所述服务调用请求中携带训练样本，其中，所述训练样本中包括：包括字符信息的图像，以及所述包括字符信息的图像对应的已编辑字符信息的图像；对字符信息的图像以及所述包括字符信息的图像对应的已编辑字符信息的图像通过机器学习训练；以及输出训练结果。2.根据权利要求1所述的方法，其特征在于，所述训练结果为模型参数集合，所述方法还包括：将所述模型参数集合进行打包并发送至所述客户端。3.一种图像处理方法，其特征在于，包括：获取训练样本，其中，所述训练样本中包括：包括字符信息的图像以及所述包括字符信息的图像对应的已编辑字符信息的图像；对包括字符信息的图像以及所述包括字符信息的图像对应的已编辑字符信息的图像通过机器学习训练，得到自编码网络模型。4.一种图像处理方法，其特征在于，包括：获取初始图像，其中，所述初始图像中含有字符信息；将初始图像输入自编码网络模型，输出已编辑字符信息的图像，其中，所述自编码网络模型为使用多组训练数据通过机器学习训练得到的，所述多组训练数据中的训练数据均包括：包括字符信息的图像以及所述包括字符信息的图像对应的已编辑字符信息的图像。5.根据权利要求1所述的方法，其特征在于，将初始图像输入自编码网络模型模型，输出已编辑字符信息的图像包括：对初始图像中的字符信息区域进行剪裁，得到字符信息区域的图像；将所述字符信息区域的图像输入自编码网络模型，输出已编辑字符信息的图像。6.根据权利要求5所述的方法，其特征在于，将所述字符信息区域的图像输入自编码网络模型，输出已编辑字符信息的图像之前，所述方法还包括：将所述字符信息区域的图像的原始尺寸缩小至预设尺寸；将初始图像输入自编码网络模型，输出已编辑字符信息的图像包括：将预设尺寸的字符信息区域的图像输入所述自编码网络模型，得到已编辑字符信息的区域图像；对已编辑字符信息的区域图像的尺寸放大至原始尺寸；将原始尺寸的已编辑字符信息的图像与对应的初始图像的RGB值进行对比，确定所述...

【专利技术属性】
技术研发人员：周文，任沛然，
申请(专利权)人：阿里巴巴集团控股有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人