【技术实现步骤摘要】
样本集生成、页面元素识别模型训练方法及装置
[0001]本公开涉及计算机
,具体涉及图像处理
、
自然语言处理和深度学习等
,尤其涉及一种样本集生成
、
页面元素识别模型训练方法及装置
。
技术介绍
[0002]前端智能化是业界重要发展方向之一,所谓前端智能化,即是用户上传网页设计图,无需开发,直接生成网页代码
。
如何识别到用户上传图片中的元素,是其中重要一步
。
通用方法是通过深度学习,输入大量预先标注好元素位置的样本图片,生成针对性深度学习模型,使用该模型便可以预测用户输入图片中包含的元素
。
标注样本图片的数量越多,预测效果越好
。
技术实现思路
[0003]本公开提供了一种用于样本集生成方法
、
装置
、
电子设备及存储介质
。
[0004]根据本公开的第一方面,提供了一种样本集生成方法,包括:获取待处理的页面区域,并确定所述页面区域内的初始元素和初始标记点,所述页面区域用于样本生成;获取所述初始元素预设的缩放参数集合,并根据所述缩放参数集合中的各缩放参数分别对所述初始元素和所述初始标记点进行变形处理,得到变形处理后的初始样本集合和所述初始样本集合中各初始样本的候选标记点;针对任一初始样本,获取所述初始样本的替换元素集合,并分别基于所述替换元素集合中的各替换元素对所述初始样本进行更新,得到更新后的候选样本;基于各候选样本和各候选样本的候选
【技术保护点】
【技术特征摘要】
1.
一种样本集生成方法,包括:获取待处理的页面区域,并确定所述页面区域内的初始元素和初始标记点,所述页面区域用于样本生成;获取所述初始元素预设的缩放参数集合,并根据所述缩放参数集合中的各缩放参数分别对所述初始元素和所述初始标记点进行变形处理,得到变形处理后的初始样本集合和所述初始样本集合中各初始样本的候选标记点;针对任一初始样本,获取所述初始样本的替换元素集合,并分别基于所述替换元素集合中的各替换元素对所述初始样本进行更新,得到更新后的候选样本;基于各候选样本和各候选样本的候选标记点,生成所述页面区域内的目标训练样本集合
。2.
根据权利要求1所述的方法,其中,所述根据所述缩放参数集合中的各缩放参数分别对所述初始元素和所述初始标记点进行变形处理,得到变形处理后的初始样本集合和所述初始样本集合中各初始样本的候选标记点,包括:获取所述初始元素的缩放中心;基于所述缩放中心
、
所述缩放参数集合中的各缩放参数分别对所述初始元素和所述初始标记点进行变形处理,以获取所述初始样本集合和所述初始样本集合中各初始样本的候选标记点
。3.
根据权利要求2所述的方法,其中,基于所述缩放中心
、
所述缩放参数集合中的各缩放参数对所述初始元素进行变形处理,包括:以所述缩放中心点为基点,对所述初始元素按照所述缩放参数进行缩放操作
。4.
根据权利要求3所述的方法,其中,所述分别基于所述替换元素集合中的各替换元素对所述初始样本进行更新,得到更新后的候选样本,包括:分别基于所述替换元素集合中的各替换元素对所述初始样本进行替换处理,以得到所述候选样本
。5.
根据权利要求4所述的方法,其中,所述分别基于所述替换元素集合中的各替换元素对所述初始样本进行替换处理,包括:获取所述初始样本的可替换元素以及所述可替换元素的元素类型;基于所述元素类型,从所述替换元素集合中确定每个所述可替换元素对应的目标替换元素集合;将所述目标替换元素集合中的元素对对应可替换元素进行替换处理
。6.
根据权利要求5所述的方法,其中,所述将所述目标替换元素集合中的元素对对应可替换元素进行替换处理,包括:响应于所述元素类型为文本类型,所述目标替换元素集合中的元素替换所述对应可替换元素
。7.
根据权利要求5所述的方法,其中,所述将所述目标替换元素集合中的元素对对应可替换元素进行替换处理,包括:响应于所述元素类型为图片类型,将所述可替换元素的
src
属性值分别修改为所述目标替换元素集合中的各元素的
src
属性值
。8.
根据权利要求2所述的方法,其中,基于所述缩放中心
、
所述缩放参数集合中的各缩
放参数对所述初始标记点进行变形处理,包括:获取缩放中心点的第一坐标和所述初始标记点的第二坐标;基于所述缩放参数
、
所述第一坐标和所述第二坐标计算坐标迁移值;基于所述坐标迁移值和所述第二坐标,确定变形后的所述初始标记点为目标标记点,并获取所述目标标记点的第三坐标
。9.
根据权利要求8所述的方法,其中,所述基于所述缩放参数
、
所述第一坐标和所述第二坐标计算坐标迁移值,包括:计算所述第一坐标和所述第二坐标的坐标差;将所述坐标差和所述缩放参数进行相乘,以获取所述坐标迁移值
。10.
根据权利要求1所述的方法,其中,所述确定所述页面区域内的初始元素,包括:获取所述页面区域的页面数据;基于所述页面数据确定组件数据,作为所述初始元素
。11.
一种页面元素识别模型训练方法,其中,包括:获取待训练的初始页面元素识别模型,并通过如权利要求1‑
10
中任一项所述的样本集生成方法对目标页面进行处理,以获取所述目标页面的训练样本集;基于所述训练样本集对所述初始页面元素识别模型进行训练,直至训练完成,生成目标页面元素识别模型
。12.
一种样本集生成装置,包括:获取模块,用于获取待处理的页面区域,并确定所述页面区域内的初始元素和初始标记点,所述页面区域用于样本生成;变形模块,用于获取所述初始元素预设的缩放参数集合,并根据所述缩放参数集合中的各缩放参数分别对所述初始元素和所述初始标记点进行变形处理,得到变形处理后的初始样本集合和所述初始样本集合中各初始样本的候选...
【专利技术属性】
技术研发人员:李宇航,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。