一种基于智能识别文本的表格信息更新方法及系统技术方案

技术编号:43839446 阅读:18 留言:0更新日期:2024-12-31 18:35
本发明专利技术涉及表格信息更新技术领域,特别一种基于智能识别文本的表格信息更新方法及系统;其方法包括以下步骤:关联至少一个待更新表格,并对输入的表格图像进行预处理;对预处理后的表格图像采用OCR识别技术和深度学习的卷积神经网络进行识别,将表格图像中的表格内容进行提取;通过预训练的语言模型理解表格内容中的语义关系,并将表格内容进行关系关联;根据语义关系将表格内容输入至待更新表格中,并对应更新,通过结合OCR、CNN、预训练语言模型和图像处理技术,可以自动化整个流程,表格的边界检测、内容提取、语义分析和数据关联都通过算法自动完成,极大提高了处理效率。

【技术实现步骤摘要】

本专利技术涉及表格信息更新,特别涉及一种基于智能识别文本的表格信息更新方法及系统


技术介绍

1、人们在日常工作、学习和生活中经常需要填写各种各样的表格:如信息登记表,财务报表、调查问卷、银行的存/汇款单等,成为了记录信息的一种重要方式;随着无纸化办公的普及,大量纸质文档需要录入到计算机中,依靠人工进行信息提取及核查准确性,既耗费时间,又耗费人力资源;随着数字化建设的快速发展,如何高效准确提取纸质单据中的关键信息就显得尤为重要;现有技术中一般采用ocr识别技术对表格信息进行处理,ocr可以扫描表格的图像或文档,识别出其中的字符,并将这些字符转化为可编辑的文本数据;但是ocr识别精度受限于图像的质量、表格复杂度、字体样式等。尤其对于含有多种格式的复杂表格,ocr可能难以精确识别表格的行列关系;此外,ocr对非标准化字体(如手写体)或分辨率较低的图片的识别准确率较低;中国专利公开号为cn110796031b公开了一种基于人工智能的表格识别方法、基于人工智能的表格识别装置以及电子设备,主要涉及计算机视觉、自然语言处理和机器学习等技术。该方法包括:基于图像语义对待本文档来自技高网...

【技术保护点】

1.一种基于智能识别文本的表格信息更新方法,其特征在于,包括以下步骤:

2.权利要求1所述的一种基于智能识别文本的表格信息更新方法,其特征在于,在S1中包括:基于图像中的线条检测,采用霍夫变换检测直线,提取表格的行与列边界;

3.权利要求2所述的一种基于智能识别文本的表格信息更新方法,其特征在于,在S2中包括:

4.根据权利要求1所述的一种基于智能识别文本的表格信息更新方法,其特征在于,在S3中包括:

5.根据权利要求4所述的一种基于智能识别文本的表格信息更新方法,其特征在于,预训练的语言模型包括:

6.根据权利要求5所述的一种...

【技术特征摘要】

1.一种基于智能识别文本的表格信息更新方法,其特征在于,包括以下步骤:

2.权利要求1所述的一种基于智能识别文本的表格信息更新方法,其特征在于,在s1中包括:基于图像中的线条检测,采用霍夫变换检测直线,提取表格的行与列边界;

3.权利要求2所述的一种基于智能识别文本的表格信息更新方法,其特征在于,在s2中包括:

4.根据权利要求1所述的一种基于智能识别文本的表格信息更新方法,其特征在于,在s3中包括:

5.根据权利要求4所述的一种基于智能识别文本的表格信息更新方法,其特征在于,预训练的语言模型包括:

6.根...

【专利技术属性】
技术研发人员:涂震魏强范玉平高岐陈瑞兴
申请(专利权)人:江西微博科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1