One or more embodiments of the specification provide a method and a device, an electronic device, and a storage medium for obtaining the feature information of the chart. In one embodiment, a method including obtaining chart feature information obtained: identification charts; identify the chart to identify text fragments; according to the text position, determining the text fragment belongs to chart role; according to the text content and the text is the chart chart to determine the characteristics of the role, the identification chart, and generate the chart features of text files.
【技术实现步骤摘要】
获取图表特征信息的方法及装置、电子设备、存储介质
本说明书一个或多个实施例涉及计算机
,尤其涉及一种获取图表特征信息的方法及装置、电子设备、存储介质。
技术介绍
目前,图表(Chart)广泛存在于各类文档或网页中,图表往往包含一些统计信息,因而可以很好地向读者传递和表达有价值的信息。当今随着大数据以及机器学习技术的发展,出现了将图表中包含的有价值信息应用到机器学习领域中的需求。然而,由于现今的大部分图表都是以静态图片的形式进行展示的,并且计算机目前还很难直接从图表中提取到有效的数据,导致无法将图表中蕴含的有价值信息应用到机器学习领域。
技术实现思路
有鉴于此,本说明书一个或多个实施例提供一种获取图表特征信息的方法及装置、电子设备、存储介质。为实现上述目的,本说明书一个或多个实施例提供的技术方案如下:在一个方面,提供了一种获取图表特征信息的方法,包括:获得待识别图表;识别所述待识别图表中的文本片段;根据所述文本片段所处的位置,确定所述文本片段所属的图表角色;根据所述文本片段的内容以及所述文本片段所属的图表角色,确定所述待识别图表的图表特征,并生成包含各图表特征的文本文件。在另一个方面,提供了一种获取图表特征信息的装置,包括:图片获得单元、文本识别单元、角色确定单元以及文件生成单元;所述图片获得单元获得待识别图表;所述文本识别单元识别所述待识别图表中的文本片段;所述角色确定单元根据所述文本片段所处的位置,确定所述文本片段所属的图表角色;所述文件生成单元根据所述文本片段的内容以及所述文本片段所属的图表角色,确定所述待识别图表的图表特征,并生成包含各图表特征的文 ...
【技术保护点】
一种获取图表特征信息的方法,包括:获得待识别图表;识别所述待识别图表中的文本片段;根据所述文本片段所处的位置,确定所述文本片段所属的图表角色;根据所述文本片段的内容以及所述文本片段所属的图表角色,确定所述待识别图表的图表特征,并生成包含各图表特征的文本文件。
【技术特征摘要】
1.一种获取图表特征信息的方法,包括:获得待识别图表;识别所述待识别图表中的文本片段;根据所述文本片段所处的位置,确定所述文本片段所属的图表角色;根据所述文本片段的内容以及所述文本片段所属的图表角色,确定所述待识别图表的图表特征,并生成包含各图表特征的文本文件。2.根据权利要求1所述的方法,所述根据所述文本片段所处的位置,确定所述文本片段所属的图表角色包括:根据预定义的标准图表以及所述文本片段所处的位置,确定与所述文本片段对应的图表角色,所述标准图表定义图表角色和位置的对应关系。3.根据权利要求1所述的方法,所述待识别图表角色包括对象的标题和对象的标签数据,所述对象包括X坐标轴、Y坐标轴、图例中的至少一者。4.根据权利要求1所述的方法,所述待识别图表特征包括图表使用的几何标记类型、与各图表角色对应的字段名、与各字段名对应的数值类型中的至少一者。5.根据权利要求1所述的方法,所述根据所述文本片段的内容以及所述文本片段所属的图表角色,确定所述待识别图表的图表特征包括:利用图像识别技术,识别所述待识别图表中的图表所使用的几何标记类型;将图表角色为标题的文本片段的内容确定为该图表角色对应的字段名;根据与所述字段名对应的并且图表角色为标签数据的文本片段的内容,确定与该字段名对应的数值类型。6.根据权利要求5所述的方法,所述几何标记类型包括点、线、面、体中的至少一者。7.根据权利要求1所述的方法,所述文本文件为JSON格式。8.根据权利要求1所述的方法,所述生成包含各图表特征的文本文件包括:基于预定义的图形语法,生成包含各图表特征的文本文件。9.根据权利要求1所述的方法,在获得待识别图表之后,在识别所述待识别图表中的文本片段之前,所述方法还包括:识别所述待识别图表是否属于设定图表类型;所述识别所述待识别图表中的文本片段包括:如果所述待识别图表属于设定图表类型,则识别所述待识别图表中的文本片段。10.一种获取图表特征信息的装置,包括:图片获得单元、文本识别单元、角色确定单元以及文件生成单元;所述图片获得单元获得待识别图表;所述文本识别单元识别所述待识别图表中的文本片段;所述角色确定单元根据所述文本片段所处的位置,确定所述文本片段所属的图表角色;所述文件生成单元根据所述文本片...
【专利技术属性】
技术研发人员:章伟星,
申请(专利权)人:阿里巴巴集团控股有限公司,
类型:发明
国别省市:开曼群岛,KY
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。