文本数据的定位方法及装置、存储介质、终端制造方法及图纸

技术编号:21344051 阅读:31 留言:0更新日期:2019-06-13 22:40
本发明专利技术公开了一种文本数据的定位方法及装置、存储介质、终端,涉及数据处理技术领域,主要目的在于解决现有利用中心点在一条直线上的方式对文本数据的上下、左右排版浮动进行定位时,无法对文本数据进行准确定位,导致会对本文数据的识别造成加大的误差的问题。主要包括:获取基准文本数据的顶点坐标数据,并为所述顶点坐标数据配置边界松弛量;通过配置有边界松弛量的顶点坐标判断目标文本数据与所述基准文本数据是否属于一行、和/或一列;若属于一行、和/或一列,则将所述基准文本数据的定位确定为所述目标文本数据的定位。

Text Data Location Method and Device, Storage Media and Terminal

The invention discloses a text data positioning method and device, storage medium and terminal, which relates to the field of data processing technology. The main purpose of the invention is to solve the problem that the text data can not be positioned accurately when the text data is positioned up and down and left and right typesetting floating by the way of using the center point in a straight line, resulting in more errors in the recognition of the text data. Poor problem. It mainly includes: acquiring the vertex coordinate data of the reference text data and configuring the boundary relaxation for the vertex coordinate data; determining whether the target text data and the reference text data belong to one row, and/or one column by configuring the vertex coordinate with the boundary relaxation; and determining the location of the reference text data as the target text if it belongs to one row, and/or one column. The location of this data.

【技术实现步骤摘要】
文本数据的定位方法及装置、存储介质、终端
本专利技术涉及一种数据处理
,特别是涉及一种文本数据的定位方法及装置、存储介质、终端。
技术介绍
随着大数据时代的快速发展,将记录在纸章上的内容转为记录在电脑端的数据已经成为数据处理的一种便利手段。其中,将带有图片、文字的数据内容上传至电脑时,需要将图片和文字分别进行图片上传或者文字输入,例如,商家将餐品的菜单数据进行录入,即包括对餐品图片的上传,以及餐品名称、价格等文字的输入。目前,利用光学字符识别(OpticalCharacterRecognition,OCR)方式可以将图片中的文本数据提取出来,然后通过特定的算法对文本数据进行识别。其中,这些算法在识别文本数据时需要对图片中的版面信息进行分析,而分析的基础则依赖于文本数据的具体定位,例如,菜单版面分析中,对菜名和价格的分析,需要根据特定算法对一行或一列中的文本数据进行分析,分析的过程中则要参考菜名和价格出现的行或列。然而,由于文本数据在页面排版时,并非按照精准的行列位置进行布局,常常会出现文本数据上下、左右排版浮动,利用中心点在一条直线上的方式对文本数据进行定位时,会对本文数据的识本文档来自技高网...

【技术保护点】
1.一种文本数据的定位方法,其特征在于,包括:获取基准文本数据的顶点坐标数据,并为所述顶点坐标数据配置边界松弛量,所述边界松弛量用于延伸所述顶点坐标数据中属于所述基准文本数据的行与列的边界值;通过配置有边界松弛量的顶点坐标判断目标文本数据与所述基准文本数据是否属于一行、和/或一列;若属于一行、和/或一列,则将所述基准文本数据的定位确定为所述目标文本数据的定位。

【技术特征摘要】
1.一种文本数据的定位方法,其特征在于,包括:获取基准文本数据的顶点坐标数据,并为所述顶点坐标数据配置边界松弛量,所述边界松弛量用于延伸所述顶点坐标数据中属于所述基准文本数据的行与列的边界值;通过配置有边界松弛量的顶点坐标判断目标文本数据与所述基准文本数据是否属于一行、和/或一列;若属于一行、和/或一列,则将所述基准文本数据的定位确定为所述目标文本数据的定位。2.根据权利要求1所述的方法,其特征在于,所述获取基准文本数据的顶点坐标数据,并为所述顶点坐标数据配置边界松弛量包括:从全部目标文本数据中选取基准文本数据,并提取所述基准文本数据的顶点坐标数据;从所述顶点坐标数据中划分出行坐标数据、列坐标数据,并为所述行坐标数据、所述列坐标数据分别配置行边界松弛量、列边界松弛量。3.根据权利要求2所述的方法,其特征在于,所述通过配置有边界松弛量的顶点坐标判断目标文本数据与所述基准文本数据是否属于一行、和/或一列包括:判断所述配置有行松弛量的行坐标数据是否包含有所述目标文本数据的行坐标数据;和/或,判断所述目标文本数据的列坐标数据是否满足预置边界包含条件,所述预置边界包含条件用于确定所述目标文本数据的列坐标数据与所述配置有列松弛变量的列坐标之间的包含关系。4.根据权利要求3所述的方法,其特征在于,所述判断所述目标文本数据的列坐标数据是否满足预置边界包含条件包括:判断所述基准文本数据的列坐标数据形成的第一区域是否大于所述目标文本数据的列坐标数据形成的第二区域;若所述第一区域大于所述第二区域,且所述配置有列松弛量的列坐标数据包含有所述目标文本数据的列坐标数据,则判断所述第一区域与所述第二区域之间的权重值是否大于预设权重值;若所述第一区域小于所述第二区域,且所述配置有列松弛量的列坐标数据被包含于所述目标文本数据的列坐标数据中,则根据所述第二区域的列坐标数据更新所述配置有列松弛量的列坐标数据,并执行判断所述目标文本数据的列坐标数据是否满足预置边界包含条件的步骤。5.根据权利要求4所述的方法,其特征在于,所述判断所述基准文本数据的列坐标数据形成的第一区域是否大于所述目标文本数据的列坐标数据形成的第二区域之后,所述方法还包括:若所述第一区域等于所述第二区域,则根据配置有列松弛量的列坐标数...

【专利技术属性】
技术研发人员:刘泉吴洋杨宇陈晨魏世康田正中兰杰朱兴
申请(专利权)人:口碑上海信息技术有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1