一种识别文档段落的方法、装置及电子设备制造方法及图纸

技术编号：24354773 阅读：23 留言：0更新日期：2020-06-03 02:19

本发明专利技术实施例提供了一种识别文档段落的方法、装置及电子设备，通过获取待处理文档，生成待处理文档图像，将待处理文档图像输入基于卷积神经网络的段落识别模型，获得待处理文档图像的段落识别结果。由于段落识别模型是利用文档图像样本及文档图像样本中的段落位置进行训练获得的，因而相对现有技术能够更准确的建立表示文档图像特征与段落位置之间关系的模型，提高了文档段落识别的准确性，使识别结果与人工识别的结果更加接近，便于进行后续的文档编辑和排版。

A method, device and electronic equipment for identifying document paragraphs

全部详细技术资料下载

【技术实现步骤摘要】
一种识别文档段落的方法、装置及电子设备
本专利技术涉及计算机
，特别是涉及一种识别文档段落的方法、装置及电子设备。
技术介绍
目前，在对可移植文档格式PDF进行编辑的过程中，常常需要识别出文档中的段落，以便更加快捷地对段落中的文字进行排版。识别PDF文档中段落的通常做法是：通过PDF文软件获得文档的页面参数信息，如页眉页脚的位置、左右页边距、文本对象的字体、字号等，然后结合文字行的缩进及标点符号解析出文字位置，从而确定出段落所在区域。但是，这种利用页面参数及格式分析出的段落所在区域可能出现位置偏差，容易将多个段落识别为一个段落或者将一个段落识别为多个段落，使得识别的结果准确性不够高，可能出现与人工识别结果不符的情况，
技术实现思路
本专利技术实施例的目的在于提供一种识别文档段落的方法、装置及电子设备，以提高段落识别的准确性，获得与人工识别段落更接近的结果。具体技术方案如下：第一方面，本专利技术实施例提供了一种识别文档段落的方法，所述方法包括：获取待处理文档；所述文档中包含至少一个段落；生成待处理文档图像；将所述待处理文档图像输入至段落识别模型；所述段落识别模型为：预先用包含段落所在矩形区域的真实坐标的训练样本进行训练，获得的表示文档图像特征与段落所在位置之间关系的卷积神经网络模型；获得所述待处理文档图像的段落识别结果。可选的，所述段落识别模型，采用如下方法训练获得：获取多个训练样本；其中每个训练样本包括文档图像及该文档图像中段落...

【技术保护点】
1.一种识别文档段落的方法，其特征在于，所述方法包括：/n获取待处理文档；所述文档中包含至少一个段落；/n生成待处理文档图像；/n将所述待处理文档图像输入至段落识别模型；所述段落识别模型为：预先用包含段落所在矩形区域的真实坐标的训练样本进行训练，获得的表示文档图像特征与段落所在位置之间关系的卷积神经网络模型；/n获得所述待处理文档图像的段落识别结果。/n

【技术特征摘要】
1.一种识别文档段落的方法，其特征在于，所述方法包括：
获取待处理文档；所述文档中包含至少一个段落；
生成待处理文档图像；
将所述待处理文档图像输入至段落识别模型；所述段落识别模型为：预先用包含段落所在矩形区域的真实坐标的训练样本进行训练，获得的表示文档图像特征与段落所在位置之间关系的卷积神经网络模型；
获得所述待处理文档图像的段落识别结果。

2.根据权利要求1所述的方法，其特征在于，所述段落识别模型，采用如下方法训练获得：
获取多个训练样本；其中每个训练样本包括文档图像及该文档图像中段落所在矩形区域的真实坐标；
将预设数量个文档图像输入待训练段落识别模型；所述待训练识别模型为预设的初始卷积神经网络模型；
利用待训练段落识别模型计算各个文档图像中段落所在矩形区域的坐标；
使用计算出的各个输入的文档图像中段落所在矩形区域的坐标、各个输入的文档图像中段落所在矩形区域的真实坐标以及预设的损失函数，计算损失值；
根据损失值判断待训练段落识别模型是否收敛；如果收敛，则待训练段落识别模型为训练完成的段落识别模型；
如果未收敛，则调整待训练段落识别模型的网络参数，返回所述将预设数量个文档图像输入待训练段落识别模型的步骤。

3.根据权利要求1所述的方法，其特征在于，在所述获得所述待处理文档图像的段落识别结果的步骤后，所述方法还包括：
判断所述段落识别结果中的首行缩进是否符合预设的首行缩进条件，如果是，则在所述待处理文档中标注出段落所在的矩形区域。

4.根据权利要求2所述的方法，其特征在于，所述获取多个训练样本的步骤，包括：
获取用于训练的文档；
将所述用于训练的文档转换为文档图像；其中，所述用于训练的文档中的每一页文档对应转换得到一张用于训练的文档图像；
以所述用于训练的文档图像所在版面的四个顶点中的任意一个顶点为原点，建立坐标系；
标注所述用于训练的文档图像中段落所在矩形区域的四个顶点坐标。

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：
获得所述待处理文档图像的段落识别结果后，检测PDF文档编辑界面中的编辑按钮是否被按下；
当检测到PDF文档编辑界面中的编辑按钮被按下时，生成工具栏，用于对识别出的段落进行编辑；其中，所述对识别出的段落进行编辑，包括：对所述识别出的段落中的文字字体、字号、颜色等进行修改。

6.一种识别文档段落的装置，其特征在于，所述装置包括：
获取单元，用于获取待处理文档；所述文档中包含至少一个段落；
生成单元，用于生成待处理文档图像；
识别单元，用于将所述待处理文档图像输入至段落识别模型；所述段落识别模型为：预先用包含段落所在矩形区域的真实坐标的训练样本进行训练，获得的表示文档图像特征与段落所在位置之间关系的卷积神经网络模型；
结果获得单元，用于获得所述待处...

【专利技术属性】
技术研发人员：邓斌，
申请(专利权)人：北京金山办公软件股份有限公司，珠海金山办公软件有限公司，广州金山移动科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人