一种基于语义处理的表格片段链接复原方法及系统技术方案

技术编号：28037179 阅读：16 留言：0更新日期：2021-04-09 23:19

本发明专利技术的一种基于语义处理的表格片段链接复原方法，具体包括如下步骤：S100、对表格进行结构化抽取得到表格片段；S200、对步骤S100抽取的表格片段进行预处理；S300、采用LSTM深度学习模型学习表格上下文和表格内数据的语义信息，来判断相邻表格片段是否应该被链接；S400、对模型处理结果进行规则校验，对需要进行链接的表格片段进行复原。本实施例的方法利用LSTM深度学习模型进行表示学习，自动化挖掘表格上下文和表格内数据中所蕴含的语义信息，实现对PDF文档中的换行换页场景下的表格片段是否应该进行链接复原的智能化识别，并对该组表格片段进行链接复原。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于语义处理的表格片段链接复原方法及系统
本专利技术属于表格文本处理
，具体来说是一种基于语义处理的表格片段链接复原方法及系统。
技术介绍
近年来，深度学习技术在自然语言处理、图形图像、自动驾驶等多个领域得到大量应用，且表现效果要明显优于传统方法。在自然语言处理领域，深度学习技术通过在高维空间中编码文本文字，能够捕获深层次的语法和语义信息，从而为进一步从语义出发实现自然语言处理领域的高级应用提供了技术基础。在文本信息处理中，存在大量不同样式的表格。当前技术对于表格信息的提取仍存在许多问题。如当出现换页换行的时候，单纯通过分隔线或简单的规则难以判断出换行或非换行的情况。对于无表格线的情况，计算机难以对相邻两行是否输出同一单元格做出准确判断。
技术实现思路
1.专利技术要解决的技术问题本专利技术的目的在于解决现有的表格处理方法难以准确的判断相邻的单元格是否可以进行合并的问题。2.技术方案为达到上述目的，本专利技术提供的技术方案为：本专利技术的一种基于语义处理的表格片段链接复原方法，具体包括如下步骤：S100、对表格进行结构化抽取得到表格片段；S200、对步骤S100抽取的表格片段进行预处理；S300、采用LSTM深度学习模型学习表格上下文和表格内数据的语义信息，来判断相邻表格片段是否应该被链接；S400、对模型处理结果进行规则校验，对需要进行链接的表格片段进行复原。优选的，所述步骤S100具体为根据表格结...

【技术保护点】
1.一种基于语义处理的表格片段链接复原方法，其特征在于，具体包括如下步骤：/nS100、对表格进行结构化抽取得到表格片段；/nS200、对步骤S100抽取的表格片段进行预处理；/nS300、采用LSTM深度学习模型学习表格上下文和表格内数据的语义信息，来判断相邻表格片段是否应该被链接；/nS400、对模型处理结果进行规则校验，对需要进行链接的表格片段进行复原。/n

【技术特征摘要】
1.一种基于语义处理的表格片段链接复原方法，其特征在于，具体包括如下步骤：
S100、对表格进行结构化抽取得到表格片段；
S200、对步骤S100抽取的表格片段进行预处理；
S300、采用LSTM深度学习模型学习表格上下文和表格内数据的语义信息，来判断相邻表格片段是否应该被链接；
S400、对模型处理结果进行规则校验，对需要进行链接的表格片段进行复原。

2.根据权利要求1所述的一种基于语义处理的表格片段链接复原方法，其特征在于：所述步骤S100具体为根据表格结构将表格中的表格片段进行抽取。

3.根据权利要求1所述的一种基于语义处理的表格片段链接复原方法，其特征在于：所述步骤S200中的预处理具体为对表格片段的上下文进行提取并清洗、对表格片段中单元格文本进行提取，将提取并合并后的单元格序列转化成文本，以及对文字进行清洗除去表格片段的上下文和表格内的无效内容。

4.根据权利要求1所述的一种基于语义处理的表格片段链接复原方法，其特征在于，所述步骤S300具体包括如下步骤：
S310、获取上下文词向量，对每个表格片段的上下文利用word2vec学习获取对应的向量；
S320、获取表格内文本词向量，对每个表格片段的表格内文本利用word2vec学习获取对应的向量；
S330、词向量拼接，对上下文词向量和表格内文本词向量进行拼接；
S340、模型处理，通过LSTM深度学习模型对文本进行双向的LSTM处理，学习文本的语义信息，获取表格片段的语义特征；
S350、复原判断，通过线性分类器对拼接后的每组表格片段是否应该进行链接复原进行判断。

5.根据权利要求1所述的一种基于语义处理的表格片段链接复原方法，其特征在于：所述步骤S400中对模型处理结果进行规则校验具体为对合并后的单元格信息进行校验，针对模型预测错误的结果进行规则校正。

6.根据权利要求3所述的一种基于语义处理的表格片段链接复原方法，其特征在于：所述对文字进行清洗除去表格片段的上下文和表格内的无效内容中，对文字清洗具体为删除无意义的标点符号。

7.根据权利要求4所述...

【专利技术属性】
技术研发人员：金鑫，李鹏辉，
申请(专利权)人：上海犀语科技有限公司，
类型：发明
国别省市：上海;31

全部详细技术资料下载我是这个专利的主人