【技术实现步骤摘要】
一种非结构化文本表格识别方法和系统
[0001]本专利技术涉及OCR识别领域,具体涉及一种将不可编辑的非结构化文本数字化,属于计算机视觉的扩展应用。
技术介绍
[0002]非结构化文本数字化是推动现代工作向数字化、网络化、智能化转型的基础,非结构化文本数字化对数字经济、人工智能发展具有重大意义,表格识别是数据处理的基础,在各行各业中都具有重要的应用价值,近年来一直是计算机视觉领域的研究热点之一。
[0003]表格识别旨在从图像或者非结构化文本中检测出表格的位置,获取表格的结构和内容,并抽取特定信息,主要包括表格区域检测、表格结构识别和表格内容的识别等研究问题;随着深度学习的发展,针对这些问题的新研究和新方法纷纷涌现;然而,由于表格应用场景广泛,表格的样式众多,在表格识别领域仍存在不少问题亟需解决;例如:现有表格结构识别模型在处理无线表和少线表时,其效果距离实际应用仍有所差距;表格内容识别中的模型大多受限于指定数据集,泛化能力较差;同时,随着移动设备拍照技术的发展,对于现实场景表格的识别需求越来越大,现实场景表格图像由 ...
【技术保护点】
【技术特征摘要】
1.一种非结构化文本表格识别方法,包括如下步骤:步骤1获取非结构化文本中的图像数据集,使用投影直方图进行预处理操作;步骤2对图像数据集版面信息进行分析,检测出表格区域;步骤3对表格结构序列进行预测,检测出表格行结构;步骤4对表格行结构进行行识别,得到单元格框和文本内容;步骤5根据表格行检测和识别,对文本框和单元格内容进行匹配,最终得到Excel形式的表格信息数据;根据图像预处理、表检测、表格行检测和表格行识别训练表格识别模型,保存模型参数;调用上述表格识别模型对非结构化文本进行表格识别,得到识别结果。2.根据权利要求1所述一种非结构化文本表格识别方法,其特征在于,步骤1中对于获取的非结构化文本图像数据集需要进行对应的HTML格式注释,并提供数据集表格结构和字符;对于图像预处理使用中值滤波器去除图像的噪声伪影,绘制投影直方图,采用文本倾斜校正算法进行表对齐,并引入了水平膨胀和水平投影。3.根据权利要求1所述一种非结构化文本表格识别方法,其特征在于,步骤2中对图像数据集版面信息进行字符索引记录,根据获取的字符区索引数组,进行区域切割,检测出表格区域,然后修改文件代码,使得表格边界的颜色比文档其它部分更具区分性。4.根据权利要求1所述一种非结构化文本表格识别方法,其特征在于,步骤3中对于表格行检测采用了可变形卷积的残差网络模型作为特征...
【专利技术属性】
技术研发人员:李敏,张丽平,周鸣乐,韩德隆,刘一鸣,
申请(专利权)人:齐鲁工业大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。