样本集生成制造技术

技术编号:39580935 阅读:23 留言:0更新日期:2023-12-03 19:31
本公开提供了一种样本集生成

【技术实现步骤摘要】
样本集生成、页面元素识别模型训练方法及装置


[0001]本公开涉及计算机
,具体涉及图像处理

自然语言处理和深度学习等
,尤其涉及一种样本集生成

页面元素识别模型训练方法及装置


技术介绍

[0002]前端智能化是业界重要发展方向之一,所谓前端智能化,即是用户上传网页设计图,无需开发,直接生成网页代码

如何识别到用户上传图片中的元素,是其中重要一步

通用方法是通过深度学习,输入大量预先标注好元素位置的样本图片,生成针对性深度学习模型,使用该模型便可以预测用户输入图片中包含的元素

标注样本图片的数量越多,预测效果越好


技术实现思路

[0003]本公开提供了一种用于样本集生成方法

装置

电子设备及存储介质

[0004]根据本公开的第一方面,提供了一种样本集生成方法,包括:获取待处理的页面区域,并确定所述页面区域内的初始元素和初始标记点,所述页面区域用于样本生成;获取所述初始元素预设的缩放参数集合,并根据所述缩放参数集合中的各缩放参数分别对所述初始元素和所述初始标记点进行变形处理,得到变形处理后的初始样本集合和所述初始样本集合中各初始样本的候选标记点;针对任一初始样本,获取所述初始样本的替换元素集合,并分别基于所述替换元素集合中的各替换元素对所述初始样本进行更新,得到更新后的候选样本;基于各候选样本和各候选样本的候选标记点,生成所述页面区域内的目标训练样本集合

[0005]根据本公开的第二方面,提供了一种页面元素识别模型训练方法,包括:获取待训练的初始页面元素识别模型,并通过如第一方面实施例所述的样本集生成方法对目标页面进行处理,以获取所述目标页面的训练样本集;基于所述训练样本集对所述初始页面元素识别模型进行训练,直至训练完成,生成目标页面元素识别模型

[0006]根据本公开的第三方面,提供了一种样本集生成装置,包括:获取模块,用于获取待处理的页面区域,并确定所述页面区域内的初始元素和初始标记点,所述页面区域用于样本生成;变形模块,用于获取所述初始元素预设的缩放参数集合,并根据所述缩放参数集合中的各缩放参数分别对所述初始元素和所述初始标记点进行变形处理,得到变形处理后的初始样本集合和所述初始样本集合中各初始样本的候选标记点;更新模块,用于针对任一初始样本,获取所述初始样本的替换元素集合,并分别基于所述替换元素集合中的各替换元素对所述初始样本进行更新,得到更新后的候选样本;生成模块,用于基于各候选样本和各候选样本的候选标记点,生成所述页面区域内的目标训练样本集合

[0007]根据本公开的第四方面,提供了一种页面元素识别模型训练装置,包括:调用模块,用于获取待训练的初始页面元素识别模型,并通过如第一方面实施例所述的样本集生成方法对目标页面进行处理,以获取所述目标页面的训练样本集;训练模块,用于基于所述
训练样本集对所述初始页面元素识别模型进行训练,直至训练完成,生成目标页面元素识别模型

[0008]根据本公开的第五方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述一方面实施例所述的样本集生成方法

[0009]根据本公开第六方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其上存储有计算机程序
/
指令,所述计算机指令用于使所述计算机执行上述一方面实施例所述的样本集生成方法

[0010]根据本公开的第七方面,提供了一种计算机程序产品,包括计算机程序
/
指令,所述计算机程序
/
指令被处理器执行时实现上述一方面实施例所述的样本集生成方法

[0011]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围

本公开的其它特征将通过以下的说明书而变得容易理解

附图说明
[0012]附图用于更好地理解本方案,不构成对本公开的限定

其中:
[0013]图1为本公开实施例提供的一样本集生成方法的流程示意图;
[0014]图2为本公开实施例提供的另一样本集生成方法的初始元素的示意图;
[0015]图3为本公开实施例提供的另一样本集生成方法的流程示意图;
[0016]图4为本公开实施例提供的另一样本集生成方法的流程示意图;
[0017]图5为本公开实施例提供的另一样本集生成方法的初始样本的示意图;
[0018]图6为本公开实施例提供的另一样本集生成方法的流程示意图;
[0019]图7为本公开实施例提供的一页面元素识别模型训练方法的流程示意图;
[0020]图8为本公开实施例提供的一样本集生成装置的结构示意图;
[0021]图9为本公开实施例提供的一页面元素识别模型训练装置的结构示意图;
[0022]图
10
是为根据本公开实施例的电子设备的框图

具体实施方式
[0023]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的

因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神

同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述

[0024]下面参考附图描述本公开实施例的样本集生成方法

装置和电子设备

[0025]自然语言处理
(Natural Language Processing

NLP)
是计算机科学领域与人工智能领域中的一个重要方向

它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法

自然语言处理是一门融语言学

计算机科学

数学于一体的科学

自然语言处理主要应用于机器翻译

舆情监测

自动摘要

观点提取

文本分类

问题回答

文本语义对比

语音识别等方面

[0026]深度学习
(Deep Learning
,简称
DL)
,是机器学习
(Machine Learning
,简称
ML)
...

【技术保护点】

【技术特征摘要】
1.
一种样本集生成方法,包括:获取待处理的页面区域,并确定所述页面区域内的初始元素和初始标记点,所述页面区域用于样本生成;获取所述初始元素预设的缩放参数集合,并根据所述缩放参数集合中的各缩放参数分别对所述初始元素和所述初始标记点进行变形处理,得到变形处理后的初始样本集合和所述初始样本集合中各初始样本的候选标记点;针对任一初始样本,获取所述初始样本的替换元素集合,并分别基于所述替换元素集合中的各替换元素对所述初始样本进行更新,得到更新后的候选样本;基于各候选样本和各候选样本的候选标记点,生成所述页面区域内的目标训练样本集合
。2.
根据权利要求1所述的方法,其中,所述根据所述缩放参数集合中的各缩放参数分别对所述初始元素和所述初始标记点进行变形处理,得到变形处理后的初始样本集合和所述初始样本集合中各初始样本的候选标记点,包括:获取所述初始元素的缩放中心;基于所述缩放中心

所述缩放参数集合中的各缩放参数分别对所述初始元素和所述初始标记点进行变形处理,以获取所述初始样本集合和所述初始样本集合中各初始样本的候选标记点
。3.
根据权利要求2所述的方法,其中,基于所述缩放中心

所述缩放参数集合中的各缩放参数对所述初始元素进行变形处理,包括:以所述缩放中心点为基点,对所述初始元素按照所述缩放参数进行缩放操作
。4.
根据权利要求3所述的方法,其中,所述分别基于所述替换元素集合中的各替换元素对所述初始样本进行更新,得到更新后的候选样本,包括:分别基于所述替换元素集合中的各替换元素对所述初始样本进行替换处理,以得到所述候选样本
。5.
根据权利要求4所述的方法,其中,所述分别基于所述替换元素集合中的各替换元素对所述初始样本进行替换处理,包括:获取所述初始样本的可替换元素以及所述可替换元素的元素类型;基于所述元素类型,从所述替换元素集合中确定每个所述可替换元素对应的目标替换元素集合;将所述目标替换元素集合中的元素对对应可替换元素进行替换处理
。6.
根据权利要求5所述的方法,其中,所述将所述目标替换元素集合中的元素对对应可替换元素进行替换处理,包括:响应于所述元素类型为文本类型,所述目标替换元素集合中的元素替换所述对应可替换元素
。7.
根据权利要求5所述的方法,其中,所述将所述目标替换元素集合中的元素对对应可替换元素进行替换处理,包括:响应于所述元素类型为图片类型,将所述可替换元素的
src
属性值分别修改为所述目标替换元素集合中的各元素的
src
属性值
。8.
根据权利要求2所述的方法,其中,基于所述缩放中心

所述缩放参数集合中的各缩
放参数对所述初始标记点进行变形处理,包括:获取缩放中心点的第一坐标和所述初始标记点的第二坐标;基于所述缩放参数

所述第一坐标和所述第二坐标计算坐标迁移值;基于所述坐标迁移值和所述第二坐标,确定变形后的所述初始标记点为目标标记点,并获取所述目标标记点的第三坐标
。9.
根据权利要求8所述的方法,其中,所述基于所述缩放参数

所述第一坐标和所述第二坐标计算坐标迁移值,包括:计算所述第一坐标和所述第二坐标的坐标差;将所述坐标差和所述缩放参数进行相乘,以获取所述坐标迁移值
。10.
根据权利要求1所述的方法,其中,所述确定所述页面区域内的初始元素,包括:获取所述页面区域的页面数据;基于所述页面数据确定组件数据,作为所述初始元素
。11.
一种页面元素识别模型训练方法,其中,包括:获取待训练的初始页面元素识别模型,并通过如权利要求1‑
10
中任一项所述的样本集生成方法对目标页面进行处理,以获取所述目标页面的训练样本集;基于所述训练样本集对所述初始页面元素识别模型进行训练,直至训练完成,生成目标页面元素识别模型
。12.
一种样本集生成装置,包括:获取模块,用于获取待处理的页面区域,并确定所述页面区域内的初始元素和初始标记点,所述页面区域用于样本生成;变形模块,用于获取所述初始元素预设的缩放参数集合,并根据所述缩放参数集合中的各缩放参数分别对所述初始元素和所述初始标记点进行变形处理,得到变形处理后的初始样本集合和所述初始样本集合中各初始样本的候选...

【专利技术属性】
技术研发人员:李宇航
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1