数据处理方法和装置制造方法及图纸

技术编号:31500670 阅读:13 留言:0更新日期:2021-12-22 23:11
本申请公开了数据处理方法和装置,具体实现方案为:响应于接收到页面图像,对页面图像进行标注,生成与标注数据对应的各个图像集,各个图像集包括:用于识别容器类型的第一图像集、用于识别文本信息的第二图像集和用于检测图像元素的第三图像集,页面图像基于页面模板而生成;将各个图像集输入至训练得到的图像识别模型,生成与第一图像集对应的容器类型数据集、与第二图像集对应的文本数据集和与第三图像集对应的图像元素数据集;基于页面的模板信息,对容器类型数据集、文本数据集和图像元素数据集进行转换,生成与页面图像对应的模板数据集并上传。该方案利用图像识别技术,将页面图像转化为模板数据,实现了模板数据的精准定位。位。位。

【技术实现步骤摘要】
数据处理方法和装置


[0001]本申请的实施例涉及计算机
,具体涉及图像识别
,尤其涉及数据处理方法和装置。

技术介绍

[0002]随着网络的快速发展,人们通过浏览网页的形式交互访问各类网站的行为越来越普遍,因而对页面搭建的要求越来越高。目前动态页面的楼层搭建一般采用模板配置方式,用户通过在模板列表区选择符合需求的模板,再自定义配置样式、数据等信息,从而发布一个完整的线上活动页面。模板来源可以为前端项目本地存储的JSON(JavaScript Object Notation,JS对象简谱)文件,开发人员根据JSON串进行楼层渲染,不同的模板需要创建不同的文件进行模板数据存储。

技术实现思路

[0003]本申请提供了一种数据处理方法、装置、设备以及存储介质。
[0004]根据本申请的第一方面,提供了一种数据处理方法,该方法包括:响应于接收到页面图像,对页面图像进行标注,生成与标注数据对应的各个图像集,其中,各个图像集包括:用于识别容器类型的第一图像集、用于识别文本信息的第二图像集和用于检测图像元素的第三图像集,页面图像基于页面模板而生成;将各个图像集输入至训练得到的图像识别模型,生成与第一图像集对应的容器类型数据集、与第二图像集对应的文本数据集和与第三图像集对应的图像元素数据集,其中,图像识别模型用于表征对第一图像集中各个图像进行容器类型判定、对第二图像集中各个图像进行文字检测和文本识别、对第三图像集中各个图像进行图像元素检测和识别;基于页面的模板信息,对容器类型数据集、文本数据集和图像元素数据集进行转换,生成与页面图像对应的模板数据集,并上传模板数据集,其中,转换基于特定语言结构对容器类型数据集、文本数据集和图像元素数据集进行转换。
[0005]在一些实施例中,对页面图像进行标注,生成与标注数据对应的各个图像集,包括:对页面图像进行标注,得到与页面图像对应的标注数据;将标注数据输入至位置确定模型,生成与标注数据对应的各个区块的位置信息,其中,位置确定模型由标注数据的历史相关数据训练得到;基于各个区块的位置信息,确定与标注数据对应的各个图像集。
[0006]在一些实施例中,图像识别模型通过如下方式训练得到:获取训练样本集,其中,训练样本集中的训练样本包括用于识别容器类型的第一图像集、用于识别文本信息的第二图像集、用于检测图像元素的第三图像集、与第一图像集对应的容器类型数据集、与第二图像集对应的文本数据集和与第三图像集对应的图像元素数据集;利用深度学习方法,将训练样本集中训练样本包括的第一图像集、第二图像集和第三图像集作为输入数据,将与第一图像集对应的容器类型数据集、与第二图像集对应的文本数据集和与第三图像集对应的图像元素数据集作为期望输出数据,训练得到图像识别模型。
[0007]在一些实施例中,图像识别模型包括容器类型识别子模型、文本识别子模型和元
素识别子模型;将各个图像集输入至训练得到的图像识别模型,生成与第一图像集对应的容器类型数据集、与第二图像集对应的文本数据集和与第三图像集对应的图像元素数据集,包括:将第一图像集输入至容器类型识别子模型,生成与第一图像集对应的容器类型数据集,其中,容器类型识别子模型用于表征对第一图像集中各个图像进行容器类型判定;将第二图像集输入至文本识别子模型,生成与第二图像集对应的文本数据集,其中,文本识别子模型用于表征对第二图像集中各个图像进行文字检测和文本识别;将第三图像集输入至元素识别子模型,生成与第三图像集对应的图像元素数据集,其中,元素识别子模型用于表征对第三图像集中各个图像进行图像元素检测和识别。
[0008]在一些实施例中,文本识别子模型包括特征提取子模型和文字序列提取子模型;将第二图像集输入至文本识别子模型,生成与第二图像集对应的文本数据集,包括:将第二图像集输入至特征提取子模型,得到与第二图像集对应的各个特征矩阵,其中,特征提取子模型基于卷积神经网络而构建;将各个特征矩阵输入至文字序列提取子模型,得到与各个特征矩阵对应的文字序列,其中,文字序列提取子模型基于递归神经网络而构建;基于各个文字序列,确定与各个文字序列对应的文本信息,并生成与各个文本信息对应的文本数据集。
[0009]在一些实施例中,图像识别模型和/或容器类型识别子模型基于深度残差网络模型而构建。
[0010]在一些实施例中,在基于页面的模板信息,对容器类型数据集、文本数据集和图像元素数据集进行转换,生成与页面图像对应的模板数据集之前,还包括:对容器类型数据集、文本数据集和图像元素数据集进行矫正,得到矫正后的容器类型数据集、文本数据集和图像元素数据集,其中,矫正用于表征基于各个图像集中每个图像的图像位置、图像顺序和图像重复性的分析结果,将容器类型数据集、文本数据集和图像元素数据集中的数据进行重新排序。
[0011]在一些实施例中,矫正基于对各个图像集中每个图像进行图像缩放、图像灰度化、图像增强、图像降噪和图像边缘检测的组合处理而完成。
[0012]在一些实施例中,在对容器类型数据集、文本数据集和图像元素数据集进行矫正,得到矫正后的容器类型数据集、文本数据集和图像元素数据集之前,还包括:对各个图像集进行内容识别,得到与第一图像集对应的第一数据集、与第二图像集对应的第二数据集和与第三图像集对应的第三数据集;根据第一数据集、第二数据集和第三数据集与容器类型数据集、文本数据集和图像元素数据集的比对结果,对容器类型数据集、文本数据集和图像元素数据集中的数据进行修正,得到修正后的容器类型数据集、文本数据集和图像元素数据集。
[0013]在一些实施例中,方法还包括:基于模板数据集,生成与模板数据集对应的模板界面并展示;和/或,基于模板数据集,优化页面模板的设计方案。
[0014]根据本申请的第二方面,提供了一种数据处理装置,装置包括:标注单元,被配置成响应于接收到页面图像,对页面图像进行标注,生成与标注数据对应的各个图像集,其中,各个图像集包括:用于识别容器类型的第一图像集、用于识别文本信息的第二图像集和用于检测图像元素的第三图像集,页面图像基于页面模板而生成;生成单元,被配置成将各个图像集输入至训练得到的图像识别模型,生成与第一图像集对应的容器类型数据集、与
第二图像集对应的文本数据集和与第三图像集对应的图像元素数据集,其中,图像识别模型用于表征对第一图像集中各个图像进行容器类型判定、对第二图像集中各个图像进行文字检测和文本识别、对第三图像集中各个图像进行图像元素检测和识别;转换单元,被配置成基于页面的模板信息,对容器类型数据集、文本数据集和图像元素数据集进行转换,生成与页面图像对应的模板数据集,并上传模板数据集,其中,转换基于特定语言结构对容器类型数据集、文本数据集和图像元素数据集进行转换。
[0015]在一些实施例中,标注单元,包括:标注模块,被配置成对页面图像进行标注,得到与页面图像对应的标注数据;位置生成模块,被配置成将标注数据输入至位置确定模型,生成与标注数据对应的各个区块的位置信息,其中,位置确定模型由标本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,所述方法包括:响应于接收到页面图像,对所述页面图像进行标注,生成与所述标注数据对应的各个图像集,其中,所述各个图像集包括:用于识别容器类型的第一图像集、用于识别文本信息的第二图像集和用于检测图像元素的第三图像集,所述页面图像基于页面模板而生成;将各个图像集输入至训练得到的图像识别模型,生成与所述第一图像集对应的容器类型数据集、与所述第二图像集对应的文本数据集和与所述第三图像集对应的图像元素数据集,其中,所述图像识别模型用于表征对所述第一图像集中各个图像进行容器类型判定、对所述第二图像集中各个图像进行文字检测和文本识别、对所述第三图像集中各个图像进行图像元素检测和识别;基于所述页面的模板信息,对所述容器类型数据集、所述文本数据集和所述图像元素数据集进行转换,生成与所述页面图像对应的模板数据集,并上传所述模板数据集,其中,所述转换基于特定语言结构对所述容器类型数据集、所述文本数据集和所述图像元素数据集进行转换。2.根据权利要求1所述方法,其中,所述对所述页面图像进行标注,生成与所述标注数据对应的各个图像集,包括:对所述页面图像进行标注,得到与所述页面图像对应的标注数据;将所述标注数据输入至位置确定模型,生成与所述标注数据对应的各个区块的位置信息,其中,所述位置确定模型由所述标注数据的历史相关数据训练得到;基于所述各个区块的位置信息,确定与所述标注数据对应的各个图像集。3.根据权利要求1所述方法,其中,所述图像识别模型通过如下方式训练得到:获取训练样本集,其中,所述训练样本集中的训练样本包括用于识别容器类型的第一图像集、用于识别文本信息的第二图像集、用于检测图像元素的第三图像集、与所述第一图像集对应的容器类型数据集、与所述第二图像集对应的文本数据集和与所述第三图像集对应的图像元素数据集;利用深度学习方法,将所述训练样本集中训练样本包括的所述第一图像集、所述第二图像集和所述第三图像集作为输入数据,将与所述第一图像集对应的容器类型数据集、与所述第二图像集对应的文本数据集和与所述第三图像集对应的图像元素数据集作为期望输出数据,训练得到图像识别模型。4.根据权利要求1所述方法,其中,所述图像识别模型包括容器类型识别子模型、文本识别子模型和元素识别子模型;所述将各个图像集输入至训练得到的图像识别模型,生成与所述第一图像集对应的容器类型数据集、与所述第二图像集对应的文本数据集和与所述第三图像集对应的图像元素数据集,包括:将所述第一图像集输入至所述容器类型识别子模型,生成与所述第一图像集对应的容器类型数据集,其中,所述容器类型识别子模型用于表征对所述第一图像集中各个图像进行容器类型判定;将所述第二图像集输入至所述文本识别子模型,生成与所述第二图像集对应的文本数据集,其中,所述文本识别子模型用于表征对所述第二图像集中各个图像进行文字检测和文本识别;将所述第三图像集输入至所述元素识别子模型,生成与所述第三图像集对应的图像元
素数据集,其中,所述元素识别子模型用于表征对所述第三图像集中各个图像进行图像元素检测和识别。5.根据权利要求4所述方法,其中,所述文本识别子模型包括特征提取子模型和文字序列提取子模型;所述将所述第二图像集输入至所述文本识别子模型,生成与所述第二图像集对应的文本数据集,包括:将所述第二图像集输入至所述特征提取子模型,得到与所述第二图像集对应的各个特征矩阵,其中,所述特征提取子模型基于卷积神经网络而构建;将各个特征矩阵输入至所述文字序列提取子模型,得到与所述各个特征矩阵对应的文字序列,其中,所述文字序列提取子模型基于递归神经网络而构建;基于各个所述文字序列,确定与各个所述文字序列对应的文本信息,并生成与各个所述文本信息对应的文本数据集。6.根据权利要求4所述方法,其中,所述图像识别模型和/或所述容器类型识别子模型基于深度残差网络模型而构建。7.根据权利要求1所述方法,其中,在所述基于所述页面的模板信息,对所述容器类型数据集、所述文本数据集和所述图像元素数据集进行转换,生成与所述页面图像对应的模板数据集之前,还包括:对所述容器类型数据集、所述文本数据集和所述图像元素数据集进行矫正,得到所述矫正后的所述容器类型数据集、所述文本数据集和所述图像元素数据集,其中,所述矫正用于表征基于各个图像集中每个图像的图像位置、图像顺序和图像重复性的分析结果,将所述容器类型数据集、所述文本数据集和所述图像元素数据集中的数据进行重新排序。8.根据权利要求7所述方法,其中,所述矫正基于对各个图像集中每个图像进行图像缩放、图像灰度化、图像增强、图像降噪和图像边缘检测的组合处理而完成。9.根据权利要求7所述方法,其中,在所述对所述容器类型数据集、所述文本数据集和所述图像元素数据集进行矫正,得到所述矫正后的所述容器类型数据集、所述文本数据集和所述图像元素数据集之前,还包括:对各个图像集进行内容识别,得到与所述第一图像集对应的第一数据集、与所述第二图像集对应的第二数据集和与所述第三图像集对应的第三数据集;根据所述第一数据集、所述第二数据集和所述第三数据集与所述容器类型数据集、所述文本数据集和所述图像元素数据集的比对结果,对所述容器类型数据集、所述文本数据集和所述图像元素数据集中的数据进行修正,得到修正后的所述容器类型数据集、所述文本数据集和所述图像元素数据集。10.根据权利要求1所述方法,还包括:基于所述模板数据集,生成与所述模板数据集对应的模板界面并展示;和/或,基于所述模板数据集,优化所述页面模板的设计方案。11.一种数据处理装置,所述装置包括:标注单元,被配置成响应于接收到页面图像,对所述页面图像进行标注,生成与所述标注数据对应的各个图像集,其中,所述各个图像集包括:用于识别容器类型的...

【专利技术属性】
技术研发人员:张娟
申请(专利权)人:北京京东世纪贸易有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1