【技术实现步骤摘要】
使用深度学习技术确定文档中的上下文阅读顺序
本公开涉及用于处理文档的技术。更详细地,本公开涉及用于确定文档的阅读顺序的技术。
技术介绍
将纸质文档或表单数字化并且将其转换为自适应或可回流文档的常见用例呈现了很多挑战。仅仅扫描文档是不够的,因为它只提供文档的“图像”版本,并且需要进一步处理来执行诸如结构提取和文本提取等任务。对于文本提取的特定情况,最简单的方法是对经扫描的文档执行光学字符识别(“OCR”)处理并且存储所识别的文本内容。然而,这种简单的方法具有几个显著的缺点。具体地,一般文档包括在多个行和列上任意排列的句子、段落、标题、图像、表格和其他元素。因此,在解析经扫描的文档时出现的自然问题是确定文档的正确阅读顺序。也就是说,在阅读文档时,人类读者可以自然地推断文档中的正确阅读顺序,因为人类读者识别文档的上下文,这允许人类读者基于读者已阅读到的文档中的当前点来推断阅读顺序的下一方向。然而,计算设备并不自然地适于这种类型的推断,以允许其确定文档的正确阅读顺序。由于文档通常以多列和多行排列,文档的阅读顺序不明显,并且提取文档的阅读顺序当然不容易被编码为由计算设备执行 ...
【技术保护点】
1.一种用于确定文档中的阅读顺序的方法,所述方法包括:通过第一网络处理当前文本运行,以生成所述当前文本运行的第一表示,所述第一表示包括使用有状态的字符级模型来训练的递归神经网络(“RNN”)的隐藏状态,其中所述第一网络的所述隐藏状态在训练过程中没有重置;通过相应的第二网络和第三网络来处理在所述当前文本运行的右侧的第二文本运行和在所述当前文本运行的下方的第三文本运行,以生成相应的第二表示和第三表示,其中所述第二表示和所述第三表示包括使用无状态的字符级模型来训练的RNN的相应隐藏状态,其中所述第二网络和所述第三网络的所述隐藏状态在训练过程中被周期性重置;级联所述第一表示、所述第 ...
【技术特征摘要】
2017.12.15 US 15/843,9531.一种用于确定文档中的阅读顺序的方法,所述方法包括:通过第一网络处理当前文本运行,以生成所述当前文本运行的第一表示,所述第一表示包括使用有状态的字符级模型来训练的递归神经网络(“RNN”)的隐藏状态,其中所述第一网络的所述隐藏状态在训练过程中没有重置;通过相应的第二网络和第三网络来处理在所述当前文本运行的右侧的第二文本运行和在所述当前文本运行的下方的第三文本运行,以生成相应的第二表示和第三表示,其中所述第二表示和所述第三表示包括使用无状态的字符级模型来训练的RNN的相应隐藏状态,其中所述第二网络和所述第三网络的所述隐藏状态在训练过程中被周期性重置;级联所述第一表示、所述第二表示和所述第三表示以生成级联表示;通过分类器处理所述级联表示,以生成预测的下一文本运行标签;基于所述预测的下一文本运行标签来生成文本块,所述文本块包括按照阅读顺序序列的至少一个文本运行;以及基于所述预测的下一文本运行标签来更新所述当前文本运行,使得所述当前文本运行是在所述当前文本运行的右侧的文本运行和在所述当前文本运行的下方的文本运行中的一项。2.根据权利要求1所述的方法,其中如果所述分类器预测所述下一文本运行在所述当前文本运行的右侧,则所述第二文本运行与所述文本块相关联。3.根据权利要求1所述的方法,其中如果所述分类器预测所述下一文本运行在所述当前文本运行的下方,则所述第三文本运行与所述文本块相关联。4.根据权利要求1所述的方法,其中所述第二网络和所述第三网络基于相应的所述第二网络和所述第三网络的预测的下一字符以及输入序列中的实际的下一字符、使用损失函数来训练。5.根据权利要求4所述的方法,其中所述第一网络基于所述第一网络的预测的下一字符和输入序列中的实际的下一字符、使用损失函数来训练。6.根据权利要求5所述的方法,其中所述第一网络使用损失函数来训练,所述损失函数基于所述第一网络的预测的下一文本字符与输入序列中的实际的下一字符的比较、以及用于下一文本运行的预测标签与所述下一文本运行的实际位置的比较来计算损失。7.根据权利要求6所述的方法,其中所述第一网络使用截断的时间上的反向传播算法来训练。8.一种用于确定文档中的阅读顺序的系统,所述系统包括:一个或多个处理器;文本运行标记模块,由所述一个或多个处理器可执行或可控制或可执行且可控制,其中所述文本运行标记模块向接收的文本运行分配作为R1(“当前”)、R2(“右侧”)、R3(“下方”)之一的标签;阅读顺序预测网络,还包括由所述一个或多个处理器可执行或可控制或可执行且可控制的第一LSTM(“长短期记忆”)网络、第二LSTM网络和第三LSTM网络,其中所述阅读顺序预测网络通过处理使用有状态的字符级模型训练的所述第一LSTM网络的隐藏状态以及使用无状态的字符级模型训练的所述第二LSTM网络和所述第三LSTM网络的隐藏状态的级联表示,基于经标记的R1文本运行、经标记的R2文本运行、经标记的R3文本运行来生成作为R2、R3和EOS(语句的...
【专利技术属性】
技术研发人员:S·索德哈尼,K·加格,B·克里什纳穆泰,
申请(专利权)人:奥多比公司,
类型:发明
国别省市:美国,US
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。