表格识别方法、模型训练方法、装置及设备制造方法及图纸

技术编号:30425384 阅读:24 留言:0更新日期:2021-10-24 16:57
本申请公开了一种表格识别方法、模型训练方法、装置及设备。该表格识别方法在对表格进行跨页断行识别时,通过从第一页面中的第一单元格内获取第一文本信息,并在第二页面中确定与第一单元格对应的第二单元格,继而从第二单元格获取第二文本信息,然后对第一文本信息和第二文本信息进行自然语言分析,当分析结果为两者属于上下文语句时,确定表格在第一页面和第二页面间存在跨页断行。该表格识别方法通过判断表格在两个页面的单元格内的文本信息是否属于上下文语句,从而识别表格有无在两个页面间发生截断,基于被截断的单元格原本文本信息所具有的逻辑连贯性,可有效提高表格跨页断行的识别精度。本申请可广泛应用于人工智能技术领域。术领域。术领域。

【技术实现步骤摘要】
表格识别方法、模型训练方法、装置及设备


[0001]本申请涉及人工智能
,尤其是一种表格识别方法、模型训练方法、装置及设备。

技术介绍

[0002]进入信息时代以来,处理信息的手段也愈发多样化。其中,表格是一种可视性强、排版规则的信息处理方式,具有逻辑清晰、便于阅读等优点,且表格化的文本信息容易提取、重点突出,比较适用于大规模的分析和处理。因而表格在各行各业中得到了非常广泛的应用。
[0003]但是,由于表格在页面上的排版限制,经常会出现一个完整的表格被截断、分别布局在多个页面上的情况。其中,部分表格中的文本信息会出现跨页断行,即原本属于同一个单元格的文本内容会分散在不同页面的两个单元格中,阅览时很容易遗漏内容,比较影响用户的体验。相关技术中,对于表格的识别,往往只是区分不同页面上布局的是否为同一个表格,采用手段一般是比对对应页面的单元格的布局特征(例如单元格的数量和长宽等),但这种方式并不能有效识别表格出现跨页断行的情形。综上,相关技术中存在的技术问题亟需得到解决。

技术实现思路

[0004]本申请的目的在于至少本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种表格识别方法,其特征在于,包括以下步骤:从表格在第一页面中的第一单元格内获取第一文本信息;根据所述第一单元格的布局特征,从第二页面中的所述表格内确定与所述第一单元格对应的第二单元格;从所述第二单元格内获取第二文本信息;对所述第一文本信息和所述第二文本信息进行自然语言分析;当所述自然语言分析的结果为所述第一文本信息和所述第二文本信息属于上下文语句,确定所述表格在所述第一页面和所述第二页面间存在跨页断行。2.根据权利要求1所述的方法,其特征在于,所述从表格在第一页面中的第一单元格内获取第一文本信息,包括:从所述表格在所述第一页面内最上层的单元格或者最下层的单元格中确定所述第一单元格;从确定到的所述第一单元格内获取所述第一文本信息。3.根据权利要求2所述的方法,其特征在于,所述根据所述第一单元格的布局特征,从第二页面中的所述表格内确定与所述第一单元格对应的第二单元格,包括:确定所述第一单元格处于所述第一页面内最上层,从所述表格在所述第二页面内最下层的单元格中确定所述第二单元格;或者,确定所述第一单元格处于所述第一页面内最下层,从所述表格在所述第二页面内最上层的单元格中确定所述第二单元格。4.根据权利要求1所述的方法,其特征在于,所述第二页面通过以下步骤确定:获取所述第一页面的第一页码;确定页码与所述第一页码相邻的页面为所述第二页面。5.根据权利要求1或者4中任一项所述的方法,其特征在于,所述根据所述第一单元格的布局特征,从第二页面中的所述表格内确定与所述第一单元格对应的第二单元格,包括:根据所述第一单元格的位置特征,或者根据所述第一单元格的尺寸特征,从所述第二页面中的所述表格内确定与所述第一单元格对应的所述第二单元格。6.根据权利要求1所述的方法,其特征在于,所述对所述第一文本信息和所述第二文本信息进行自然语言分析,包括:将所述第一文本信息和所述第二文本信息输入到第一语言模型中,得到所述第一文本信息和所述第二文本信息属于上下文语句的预测概率;根据所述预测概率的大小,得到第一预测结果;所述第一预测结果用于表征所述第一文本信息和所述第二文本信息是否属于上下文语句。7.根据权利要求1所述的方法,其特征在于,所述对所述第一文本信息和所述第二文本信息进行自然语言分析,包括:将所述第一文本信息输入到第二语言模型中,得到所述第二语言模型输出的预测文本信息,并确定所述预测文本信息和所述第二文本信息的相似度;或者,将所述第二文本信息输入到第二语言模型中,得到所述第二语言模型输出的预测文本信息,并确定所述预测文本信息和所述第一文本信息的相似度;
根据所述相似度的大小,得到第一预测结果;所述第一预测结果用于表...

【专利技术属性】
技术研发人员:朱龙军
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1