获取图表特征信息的方法及装置、电子设备、存储介质制造方法及图纸

技术编号:17363976 阅读:54 留言:0更新日期:2018-02-28 14:16
本说明书一个或多个实施例提供了一种获取图表特征信息的方法及装置、电子设备、存储介质。在一种实施例中,一种获取图表特征信息的方法,包括:获得待识别图表;识别所述待识别图表中的文本片段;根据所述文本片段所处的位置,确定所述文本片段所属的图表角色;根据所述文本片段的内容以及所述文本片段所属的图表角色,确定所述待识别图表的图表特征,并生成包含各图表特征的文本文件。

Method and device, electronic equipment, storage medium to obtain the feature information of the chart

One or more embodiments of the specification provide a method and a device, an electronic device, and a storage medium for obtaining the feature information of the chart. In one embodiment, a method including obtaining chart feature information obtained: identification charts; identify the chart to identify text fragments; according to the text position, determining the text fragment belongs to chart role; according to the text content and the text is the chart chart to determine the characteristics of the role, the identification chart, and generate the chart features of text files.

【技术实现步骤摘要】
获取图表特征信息的方法及装置、电子设备、存储介质
本说明书一个或多个实施例涉及计算机
,尤其涉及一种获取图表特征信息的方法及装置、电子设备、存储介质。
技术介绍
目前,图表(Chart)广泛存在于各类文档或网页中,图表往往包含一些统计信息,因而可以很好地向读者传递和表达有价值的信息。当今随着大数据以及机器学习技术的发展,出现了将图表中包含的有价值信息应用到机器学习领域中的需求。然而,由于现今的大部分图表都是以静态图片的形式进行展示的,并且计算机目前还很难直接从图表中提取到有效的数据,导致无法将图表中蕴含的有价值信息应用到机器学习领域。
技术实现思路
有鉴于此,本说明书一个或多个实施例提供一种获取图表特征信息的方法及装置、电子设备、存储介质。为实现上述目的,本说明书一个或多个实施例提供的技术方案如下:在一个方面,提供了一种获取图表特征信息的方法,包括:获得待识别图表;识别所述待识别图表中的文本片段;根据所述文本片段所处的位置,确定所述文本片段所属的图表角色;根据所述文本片段的内容以及所述文本片段所属的图表角色,确定所述待识别图表的图表特征,并生成包含各图表特征的文本文件。在另一个方面,提供了一种获取图表特征信息的装置,包括:图片获得单元、文本识别单元、角色确定单元以及文件生成单元;所述图片获得单元获得待识别图表;所述文本识别单元识别所述待识别图表中的文本片段;所述角色确定单元根据所述文本片段所处的位置,确定所述文本片段所属的图表角色;所述文件生成单元根据所述文本片段的内容以及所述文本片段所属的图表角色,确定所述待识别图表的图表特征,并生成包含各图表特征的文本文件。在又一个方面,提供了一种电子设备,包括:处理器;用于存储处理器可执行指令的存储器;所述处理器被配置为:获得待识别图表;识别所述待识别图表中的文本片段;根据所述文本片段所处的位置,确定所述文本片段所属的图表角色;根据所述文本片段的内容以及所述文本片段所属的图表角色,确定所述待识别图表的图表特征,并生成包含各图表特征的文本文件。在又一个方面,提供了一种电子设备,一种计算机存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如下步骤:获得待识别图表;识别所述待识别图表中的文本片段;根据所述文本片段所处的位置,确定所述文本片段所属的图表角色;根据所述文本片段的内容以及所述文本片段所属的图表角色,确定所述待识别图表的图表特征,并生成包含各图表特征的文本文件。通过以上技术方案可以看出,通过获得待识别图表,并识别图表中的文本片段,然后确定出各个文本片段所属的图表角色,最终依据所述文本片段的内容以及所述文本片段所属的图表角色,确定所述待识别图表的图表特征,并生成包含各图表特征的文本文件。通过上述过程,可以将图片形式展示的图表中包含的图表特征提取出来并生成一个包含这些图表特征的文本文件,因为该文本文件可以被计算机直接读取到其内包含的文本信息,故可以被应用到机器学习中。附图说明图1示出了一示例性实施例提供的一种获取图表特征信息的方法的流程图;图2A示出了一种示例的待识别图表;图2B标记了图2A所示的待识别图表中包含的文本片段;图2C示出了一种预定义的标准图表;图3示出了一示例性实施例提供的一种获取图表特征信息的装置的模块图;图4示出了一示例性实施例提供的一种电子设备的结构。具体实施方式目前,出现在各类文档或网页中的图表(Chart)的类型有很多种,例如:条形图、柱状图、折线图、饼图等。虽然人们可以通过对图表进行视觉解码来获取信息,但是计算机却不能直接获取到图表中蕴含的信息,这就导致了大量图表中的有价值信息不能被应用到机器学习领域中。如果没有一种有效的方法对这些图表进行解码,以提取出图表中蕴含的有效信息并将其存储,这将是一大损失。图1示出了一示例性实施例提供的一种获取图表特征信息的方法的流程图,该方法可以应用于各类电子设备(如服务器、用户设备UE、终端设备等)上。如图1所示,在一实施例中,该方法可包括如下步骤101至步骤107,其中:在步骤101中,获得待识别图表。其中,待识别图表可为静态图片(如JPG格式)或动态图片。当然,如果为动态图片,则可以截图方式获得静态图片并作为输入图片。在实际的应用场景中,可以预先筛选出内容为图表的若干图片,这些图片可以来源于网站或各类文档,并将所筛选出的图片作为需要输入的待识别图表。步骤101获得待识别图表的方式很多,包括:从数据库中读取待识别图表,或从网页中截取待识别图表,或接收用户上传的待识别图表等,本文不一一列举。在步骤103中,识别所述待识别图表中的文本片段。该步骤103可以通过各类图像识别技术来实现,例如:光学字符识别(OpticalCharacterRecognition,OCR)、自然场景文字识别(SceneTextRecognition,STR)等,由于识别图像中包含的字符属于本领域常规技术,故对此本文不再予以赘述。参照图2A和图2B所示,可以识别出图2A所示的待识别图表中所包含的各文本片段为图2B中方框内的内容。在步骤105中,根据所述文本片段所处的位置,确定所述文本片段所属的图表角色。在本申请实施例中,所述待识别图表角色可以包括但不限于对象的标题和对象的标签数据,以笛卡尔坐标系的图表为例,所述对象可以包括但不限于X坐标轴(axis)、、Y坐标轴、图例(legend)中的至少一者。在一实施例中,在步骤105之前,可以预定义一种标准图表(如图2C所示),其中该标准图表中可定义了各个图表角色与其位置的对应关系,如:对于在Y坐标轴左侧的一定区域内出现的文本,其图表角色为“Y坐标轴的标题和标签数据”,同样地,可针对Y坐标轴的标题和标签数据分别定义其所处的位置范围。以图2A所示的待识别图表为例,基于预定义的标准图表,可以确定出文本片段和图表角色的对应关系如下:文本片段图表角色NumberofRecordsY轴的标题Y轴左侧的0、10、20、30、40Y轴的标签数据BIN(yield)X轴的标题X轴下方的20、40、60X轴的标签数据Site图例的标题Crookston、Duluth、Rapids、Morris、University、Waseca图例的标签数据在步骤107中,根据所述文本片段的内容以及所述文本片段所属的图表角色,确定所述待识别图表的图表特征,并生成包含各图表特征的文本文件。其中,所述待识别图表特征包括但不限于:图表使用的几何标记类型、与各图表角色对应的字段名、与各字段名对应的数值类型中的至少一者。对本文涉及到的几个术语定义如下:图形语法(TheGrammarofGraphics):LelandWilkinson创建了一套用来描述所有统计图形深层特性的语法规则,该语法回答了『什么是统计图形』这一问题。其中,图形的构造过程可分为三个阶段:规范定义、组装和显示,其中规范定义是整个语法的基础,描述了不同图形对象间的转变和最终图形显示映射。通过图形语法,一张图表就是从数据(Data)到几何对象(geometry)的图形属性(attributes)的映射,此外,图形中还可能包含数据的统计变换(statistic),最后将图形绘制在某个特定的坐标系(coordinate)中。视觉编码:将数据信息映射成本文档来自技高网...
获取图表特征信息的方法及装置、电子设备、存储介质

【技术保护点】
一种获取图表特征信息的方法,包括:获得待识别图表;识别所述待识别图表中的文本片段;根据所述文本片段所处的位置,确定所述文本片段所属的图表角色;根据所述文本片段的内容以及所述文本片段所属的图表角色,确定所述待识别图表的图表特征,并生成包含各图表特征的文本文件。

【技术特征摘要】
1.一种获取图表特征信息的方法,包括:获得待识别图表;识别所述待识别图表中的文本片段;根据所述文本片段所处的位置,确定所述文本片段所属的图表角色;根据所述文本片段的内容以及所述文本片段所属的图表角色,确定所述待识别图表的图表特征,并生成包含各图表特征的文本文件。2.根据权利要求1所述的方法,所述根据所述文本片段所处的位置,确定所述文本片段所属的图表角色包括:根据预定义的标准图表以及所述文本片段所处的位置,确定与所述文本片段对应的图表角色,所述标准图表定义图表角色和位置的对应关系。3.根据权利要求1所述的方法,所述待识别图表角色包括对象的标题和对象的标签数据,所述对象包括X坐标轴、Y坐标轴、图例中的至少一者。4.根据权利要求1所述的方法,所述待识别图表特征包括图表使用的几何标记类型、与各图表角色对应的字段名、与各字段名对应的数值类型中的至少一者。5.根据权利要求1所述的方法,所述根据所述文本片段的内容以及所述文本片段所属的图表角色,确定所述待识别图表的图表特征包括:利用图像识别技术,识别所述待识别图表中的图表所使用的几何标记类型;将图表角色为标题的文本片段的内容确定为该图表角色对应的字段名;根据与所述字段名对应的并且图表角色为标签数据的文本片段的内容,确定与该字段名对应的数值类型。6.根据权利要求5所述的方法,所述几何标记类型包括点、线、面、体中的至少一者。7.根据权利要求1所述的方法,所述文本文件为JSON格式。8.根据权利要求1所述的方法,所述生成包含各图表特征的文本文件包括:基于预定义的图形语法,生成包含各图表特征的文本文件。9.根据权利要求1所述的方法,在获得待识别图表之后,在识别所述待识别图表中的文本片段之前,所述方法还包括:识别所述待识别图表是否属于设定图表类型;所述识别所述待识别图表中的文本片段包括:如果所述待识别图表属于设定图表类型,则识别所述待识别图表中的文本片段。10.一种获取图表特征信息的装置,包括:图片获得单元、文本识别单元、角色确定单元以及文件生成单元;所述图片获得单元获得待识别图表;所述文本识别单元识别所述待识别图表中的文本片段;所述角色确定单元根据所述文本片段所处的位置,确定所述文本片段所属的图表角色;所述文件生成单元根据所述文本片...

【专利技术属性】
技术研发人员:章伟星
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1