一种基于语义处理的表格片段链接复原方法及系统技术方案

技术编号:28037179 阅读:16 留言:0更新日期:2021-04-09 23:19
本发明专利技术的一种基于语义处理的表格片段链接复原方法,具体包括如下步骤:S100、对表格进行结构化抽取得到表格片段;S200、对步骤S100抽取的表格片段进行预处理;S300、采用LSTM深度学习模型学习表格上下文和表格内数据的语义信息,来判断相邻表格片段是否应该被链接;S400、对模型处理结果进行规则校验,对需要进行链接的表格片段进行复原。本实施例的方法利用LSTM深度学习模型进行表示学习,自动化挖掘表格上下文和表格内数据中所蕴含的语义信息,实现对PDF文档中的换行换页场景下的表格片段是否应该进行链接复原的智能化识别,并对该组表格片段进行链接复原。

【技术实现步骤摘要】
一种基于语义处理的表格片段链接复原方法及系统
本专利技术属于表格文本处理
,具体来说是一种基于语义处理的表格片段链接复原方法及系统。
技术介绍
近年来,深度学习技术在自然语言处理、图形图像、自动驾驶等多个领域得到大量应用,且表现效果要明显优于传统方法。在自然语言处理领域,深度学习技术通过在高维空间中编码文本文字,能够捕获深层次的语法和语义信息,从而为进一步从语义出发实现自然语言处理领域的高级应用提供了技术基础。在文本信息处理中,存在大量不同样式的表格。当前技术对于表格信息的提取仍存在许多问题。如当出现换页换行的时候,单纯通过分隔线或简单的规则难以判断出换行或非换行的情况。对于无表格线的情况,计算机难以对相邻两行是否输出同一单元格做出准确判断。
技术实现思路
1.专利技术要解决的技术问题本专利技术的目的在于解决现有的表格处理方法难以准确的判断相邻的单元格是否可以进行合并的问题。2.技术方案为达到上述目的,本专利技术提供的技术方案为:本专利技术的一种基于语义处理的表格片段链接复原方法,具体包括如下步骤:S100、对表格进行结构化抽取得到表格片段;S200、对步骤S100抽取的表格片段进行预处理;S300、采用LSTM深度学习模型学习表格上下文和表格内数据的语义信息,来判断相邻表格片段是否应该被链接;S400、对模型处理结果进行规则校验,对需要进行链接的表格片段进行复原。优选的,所述步骤S100具体为根据表格结构将表格中的表格片段进行抽取。优选的,所述步骤S200中的预处理具体为对表格片段的上下文进行提取并清洗、对表格片段中单元格文本进行提取,将提取并合并后的单元格序列转化成文本,以及对文字进行清洗除去表格片段的上下文和表格内的无效内容。优选的,所述步骤S300具体包括如下步骤:S310、获取上下文词向量,对每个表格片段的上下文利用word2vec学习获取对应的向量;S320、获取表格内文本词向量,对每个表格片段的表格内文本利用word2vec学习获取对应的向量;S330、词向量拼接,对上下文词向量和表格内文本词向量进行拼接;S340、模型处理,通过LSTM深度学习模型对文本进行双向的LSTM处理,学习文本的语义信息,获取表格片段的语义特征;S350、复原判断,通过线性分类器对拼接后的每组表格片段是否应该进行链接复原进行判断。优选的,所述步骤S400中对模型处理结果进行规则校验具体为对合并后的单元格信息进行校验,针对模型预测错误的结果进行规则校正。优选的,所述对文字进行清洗除去表格片段的上下文和表格内的无效内容中,对文字清洗具体为删除无意义的标点符号。优选的,所述步骤S350的复原判断具体为将经过预处理和转化后的表格信息(向量化)作为输入,通过线性分类器判断两个表格之间的关系如下:先判断是否为同一个表格,当判断为不是同一个表格时不进行链接复原;当判断为同一个表格时,判断前一个表格的最后一行和后一个表格的第一行是否为同一行,当不是同一行是直接进行拼接;当是同一行时,保留前一个表格的最后一行,将后一个表格的第一行文本合并入前一个表格的最后一行。一种基于语义处理的表格片段链接复原系统,所述系统用于执行上述所述的方法,所述系统包括表格抽取模块,所述表格抽取模块用于对表格进行结构化抽取得到表格片段;预处理模块,所述预处理模块用于对抽取的表格片段进行预处理;模型处理模块,所述模型处理模块用于根据表格上下文和表格内数据的语义信息,来判断相邻表格片段是否应该被链接;校验及复原模块,所述校验及复原模块用于对模型处理结果进行规则校验,并对需要进行链接的表格片段进行复原。优选的,所述模型处理模块包括上下文词向量获取单元、表格文本词向量获取单元、词向量拼接单元、处理单元和判断单元。优选的,所述上下文词向量获取单元用于对每个表格片段的上下文利用word2vec学习获取对应的上下文词向量;所述表格文本词向量获取单元用于对每个表格片段的表格内文本利用word2vec学习获取对应的表格文本词向量。优选的,所述词向量拼接单元用于对上下文词向量和表格内文本词向量进行拼接;所述处理单元用于通过LSTM深度学习模型对文本进行双向的LSTM处理,学习文本的语义信息,获取表格片段的语义特征;所述判断单元用于通过线性分类器对拼接后的每组表格片段是否应该进行链接复原进行判断。3.有益效果采用本专利技术提供的技术方案,与现有技术相比,具有如下有益效果:本专利技术的一种基于语义处理的表格片段链接复原方法,具体包括如下步骤:S100、对表格进行结构化抽取得到表格片段;S200、对步骤S100抽取的表格片段进行预处理;S300、采用LSTM深度学习模型学习表格上下文和表格内数据的语义信息,来判断相邻表格片段是否应该被链接;S400、对模型处理结果进行规则校验,对需要进行链接的表格片段进行复原。本实施例的方法利用LSTM深度学习模型进行表示学习,自动化挖掘表格上下文和表格内数据中所蕴含的语义信息,实现对PDF文档中的换行换页场景下的表格片段是否应该进行链接复原的智能化识别,并对该组表格片段进行链接复原。附图说明图1为本专利技术的一种基于语义处理的表格片段链接复原方法的流程图;图2为本专利技术的一种基于语义处理的表格片段链接复原系统的结构示意图。示意图中的标号说明:100、表格抽取模块;200、预处理模块;300、模型处理模块;310、上下文词向量获取单元;320、表格文本词向量获取单元;330、词向量拼接单元;340、处理单元;350、判断单元;400、校验及复原模块。具体实施方式为了便于理解本专利技术,下面将参照相关附图对本专利技术进行更全面的描述,附图中给出了本专利技术的若干实施例,但是,本专利技术可以以许多不同的形式来实现,并不限于本文所描述的实施例,相反地,提供这些实施例的目的是使对本专利技术的公开内容更加透彻全面。需要说明的是,当元件被称为“固设于”另一个元件,它可以直接在另一个元件上或者也可以存在居中的元件;当一个元件被认为是“连接”另一个元件,它可以是直接连接到另一个元件或者可能同时存在居中元件;本文所使用的术语“垂直的”、“水平的”、“左”、“右”以及类似的表述只是为了说明的目的。除非另有定义,本文所使用的所有的技术和科学术语与属于本专利技术的
的技术人员通常理解的含义相同;本文中在本专利技术的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本专利技术;本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。实施例1参照附图1-附图2,本实施例的一种基于语义处理的表格片段链接复原方法,具体包括如下步骤:S100、对表格进行结构化抽取得到表格片段;S200、对步骤S100抽取的表格片段进本文档来自技高网
...

【技术保护点】
1.一种基于语义处理的表格片段链接复原方法,其特征在于,具体包括如下步骤:/nS100、对表格进行结构化抽取得到表格片段;/nS200、对步骤S100抽取的表格片段进行预处理;/nS300、采用LSTM深度学习模型学习表格上下文和表格内数据的语义信息,来判断相邻表格片段是否应该被链接;/nS400、对模型处理结果进行规则校验,对需要进行链接的表格片段进行复原。/n

【技术特征摘要】
1.一种基于语义处理的表格片段链接复原方法,其特征在于,具体包括如下步骤:
S100、对表格进行结构化抽取得到表格片段;
S200、对步骤S100抽取的表格片段进行预处理;
S300、采用LSTM深度学习模型学习表格上下文和表格内数据的语义信息,来判断相邻表格片段是否应该被链接;
S400、对模型处理结果进行规则校验,对需要进行链接的表格片段进行复原。


2.根据权利要求1所述的一种基于语义处理的表格片段链接复原方法,其特征在于:所述步骤S100具体为根据表格结构将表格中的表格片段进行抽取。


3.根据权利要求1所述的一种基于语义处理的表格片段链接复原方法,其特征在于:所述步骤S200中的预处理具体为对表格片段的上下文进行提取并清洗、对表格片段中单元格文本进行提取,将提取并合并后的单元格序列转化成文本,以及对文字进行清洗除去表格片段的上下文和表格内的无效内容。


4.根据权利要求1所述的一种基于语义处理的表格片段链接复原方法,其特征在于,所述步骤S300具体包括如下步骤:
S310、获取上下文词向量,对每个表格片段的上下文利用word2vec学习获取对应的向量;
S320、获取表格内文本词向量,对每个表格片段的表格内文本利用word2vec学习获取对应的向量;
S330、词向量拼接,对上下文词向量和表格内文本词向量进行拼接;
S340、模型处理,通过LSTM深度学习模型对文本进行双向的LSTM处理,学习文本的语义信息,获取表格片段的语义特征;
S350、复原判断,通过线性分类器对拼接后的每组表格片段是否应该进行链接复原进行判断。


5.根据权利要求1所述的一种基于语义处理的表格片段链接复原方法,其特征在于:所述步骤S400中对模型处理结果进行规则校验具体为对合并后的单元格信息进行校验,针对模型预测错误的结果进行规则校正。


6.根据权利要求3所述的一种基于语义处理的表格片段链接复原方法,其特征在于:所述对文字进行清洗除去表格片段的上下文和表格内的无效内容中,对文字清洗具体为删除无意义的标点符号。


7.根据权利要求4所述...

【专利技术属性】
技术研发人员:金鑫李鹏辉
申请(专利权)人:上海犀语科技有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1