一种对文本进行无表格线切表的方法及装置制造方法及图纸

技术编号:20242559 阅读:70 留言:0更新日期:2019-01-29 23:24
本发明专利技术提供一种对文本进行无表格线切表的方法,包括:对文本进行切行,并获得每一个文本行的行特征信息和第一个文本行的行内容语义信息;根据行特征信息与行内容语义信息以得到切表模型的训练数据;通过切表模型将在文本中切出无表格线的表格。实施上述方法的装置,包括文字坐标获取模块、文本行切行模块、文本行解析模块、训练数据获取模块与切表模型。本发明专利技术能代替规则方法,更加便捷、准确地进行无表格线表的切表任务,且不因无表格线表格的样式变换而影响效果,适用性高,能极大提升无表格线切表任务的准确率、成本和效率。

【技术实现步骤摘要】
一种对文本进行无表格线切表的方法及装置
本专利技术涉及一种文本处理方法,尤其是一种对文本进行无表格线切表的方法及装置。
技术介绍
目前,对于有表格线的表格可以通过线框的信息很容易的判断出表格的范围。但对于无表格线的表格,必须根据图像(表格形态)和语义(文本内容)两方面共同建模判断是否属于表格。这些判断表格的方式,很难通过一整套规则完备的写出来。
技术实现思路
针对上述问题中存在的不足之处,本专利技术提供一种能够获得精确的无表格线表格范围的一种对文本进行无表格线切表的方法及装置。为实现上述目的,本专利技术提供一种对文本进行无表格线切表的方法,包括以下步骤:步骤1、对文本进行切行,并获得每一个文本行的行特征信息和第一个文本行的行内容语义信息;步骤2、根据行特征信息与行内容语义信息以得到切表模型的训练数据;步骤3、通过切表模型将在文本中切出无表格线的表格。上述的一种对文本进行无表格线切表的方法,其中,在步骤1中,包括以下子步骤:步骤11、获得文本中的文字坐标,并根据文字坐标对文本进行切行,以形成多个文本行;步骤12、对每一个文本行进行解析,以获得每一个文本行的行特征信息和第一个文本行的行内容语本文档来自技高网...

【技术保护点】
1.一种对文本进行无表格线切表的方法,包括以下步骤:步骤1、对文本进行切行,并获得每一个文本行的行特征信息和第一个文本行的行内容语义信息;步骤2、根据行特征信息与行内容语义信息以得到切表模型的训练数据;步骤3、通过切表模型将在文本中切出无表格线的表格。

【技术特征摘要】
1.一种对文本进行无表格线切表的方法,包括以下步骤:步骤1、对文本进行切行,并获得每一个文本行的行特征信息和第一个文本行的行内容语义信息;步骤2、根据行特征信息与行内容语义信息以得到切表模型的训练数据;步骤3、通过切表模型将在文本中切出无表格线的表格。2.根据权利要求1所述的一种对文本进行无表格线切表的方法,其特征在于,在步骤1中,包括以下子步骤:步骤11、获得文本中的文字坐标,并根据文字坐标对文本进行切行,以形成多个文本行;步骤12、对每一个文本行进行解析,以获得每一个文本行的行特征信息和第一个文本行的行内容语义信息。3.根据权利要求2所述的一种对文本进行无表格线切表的方法,其特征在于,对文本进行PDF解析,获得文本中的文字坐标。4.根据权利要求3所述的一种对文本进行无表格线切表的方法,其特征在于,行特征信息包括各个文本行之间的距离间距、上下之间的对齐关系;行内容语义信息包括文本行的表头、科目方面的语义文本。5.根据权利要求1所述的一种对文本进行无表格线切表的方法,其特征在于,在步骤2中,对行特征信息进行清洗、预处理,以生成切表模型的训练数据。6.根据权利要求1所述的一种对文本进行无表格线切表的方法,其...

【专利技术属性】
技术研发人员:李鹏辉竺晨曦邱锡鹏
申请(专利权)人:上海犀语科技有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1