【技术实现步骤摘要】
数据提取方法、装置、电子设备及存储介质
[0001]本申请涉及图像处理
,尤其涉及一种数据提取方法、装置、电子设备及存储介质。
技术介绍
[0002]目前,由于网络或纸质报刊中的部分图表数据中没有标注明确的数值信息,或是图表数据中存在数值信息部分缺失现象,导致技术人员需要手动对图表数据进行测量,或是根据图表呈现的大概趋势对图表中的数据进行推测,耗费大量人力和时间成本,且难以得到一个较为精确的数据,这种传统的数据测量方法效率较低且测量误差大。因此,亟需一种快速且误差较小的图表数据的提取方法。
技术实现思路
[0003]有鉴于此,本申请提出一种数据提取方法、装置、电子设备及存储介质。
[0004]本申请第一方面,提供了一种数据提取方法,包括:
[0005]将待提取图像输入至第一拟合模型,经由所述第一拟合模型输出所述待提取图像的数据标识的数量;所述待提取图像包含第一数据标识对应的第一标识数值及待识别对应第二标识数值的第二数据标识;其中,所述数据标识表征所述待提取图像中的标识数值;
[0 ...
【技术保护点】
【技术特征摘要】
1.一种数据提取方法,其特征在于,包括:将待提取图像输入至第一拟合模型,经由所述第一拟合模型输出所述待提取图像的数据标识的数量;所述待提取图像包含第一数据标识对应的第一标识数值及待识别对应第二标识数值的第二数据标识;其中,所述数据标识表征所述待提取图像中的标识数值;将所述待提取图像和所述数据标识的数量输入至第二拟合模型,经由所述第二拟合模型输出所述待提取图像的相对数值关系;所述相对数值关系表征第二数据标识对应的所述第二标识数值与第一数据标识对应的所述第一标识数值之间的对比关系;根据所述第一数据标识对应的第一标识数值和所述相对数值关系,确定所述待提取图像中所述第二数据标识对应的所述第二标识数值,其中,所述第一拟合模型和所述第二拟合模型均是经过预训练的。2.根据权利要求1所述的方法,其特征在于,所述待提取图像包括待提取柱状图像,所述数据标识包括柱形图样,所述待提取柱状图像包含第一柱形图样对应的第一标识数值及待识别对应第二标识数值的第二柱形图样;所述相对数值关系表征第二柱形图样对应的所述第二标识数值与第一柱形图样对应的所述第一标识数值之间的对比关系。3.根据权利要求1所述的方法,其特征在于,所述待提取图像包括待提取折线图像,所述数据标识包括折线点图样,所述待提取折线图像包含第一折线点图样对应的第一标识数值及待识别对应第二标识数值的第二折线点图样;所述相对数值关系表征第二折线点图样对应的所述第二标识数值与第一折线点图样对应的所述第一标识数值之间的对比关系。4.根据权利要求1所述的方法,其特征在于,所述第一拟合模型的所述预训练,包括:获取第一图像训练集;所述第一图像训练集中的每个图像包含第一数据标识对应的第一标识数值及待识别对应第二标识数值的第二数据标识;其中,所述数据标识表征所述图像中的标识数值;对所述第一图像训练集进行标注,得到所述第一图像训练集中每个图像对应的所述数据标识的数量;通过经过标注的所述第一图像训练集对所述第一拟合模型进行所述预训练,直至满足迭代训练终止条件,获得预训练好的所述第一拟合模型。5.根据权利要求1所述的方法,其特征在于,所述第二拟合模型的所述预训练,包括:获取第二图像训练集;所述第二图像训练集中的每个图像包含第一数据标识对应的第一标识数值及待识别对应第二标识数值的第二数据标识;其中,所述数据标识表征所述图像中的标识数值;将所述第二图像训练集输入至所述第一拟合模型中,得到所述第二图像训练集中每个图像对应的数据标识的数量;根据所述数据标识的数量对所述第二图像训练集中的每个图像进行切分,得到每个图像对应的多个子图,每个所述子图中包含一个所述数据标识;确定不同子图的数据标识对应的标识数值之间的相对数值关系;基于所述第二图像训练集、所述数据标识的数量和所述相对数值关系对所述第二拟合模型进行所述预训练,直至满足迭代训练终止条件,获得预训练好的所述第二拟合模型...
【专利技术属性】
技术研发人员:徐帅,刘勇成,胡志鹏,袁思思,程龙,
申请(专利权)人:网易杭州网络有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。