一种基于大语言模型的通用证件识别方法技术

技术编号：41462669 阅读：14 留言：0更新日期：2024-05-30 14:19

本发明专利技术涉及图像识别技术领域，具体为一种基于大语言模型的通用证件识别方法，包括以下步骤：对卡证图像进行图像增强处理；对卡证图像进行OCR识别，得到文本内容与文本在图像中位置的坐标信息；根据OCR获得的文本与坐标信息，对文本进行排序，得到符合人类阅读顺序的文本序列；按照预定的格式将得到的文本输入大语言模型，判断卡证类别；有益效果为：本发明专利技术提出的基于大语言模型的通用证件识别方法，基于大语言模型的通用的对卡证图像内容进行识别提取的方法，解决卡证识别方法通用性差、文字识别错误率高的问题。本方法只需少量样本，不需要收集大量数据进行训练。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及图像识别，具体为一种基于大语言模型的通用证件识别方法。

技术介绍

1、现有技术中，目前通常使用光学字符识别(optical character recognition,ocr)来对卡证图像进行识别，但卡证图像的种类繁多，版式也较为复杂，针对一种证件设计的识别方法难以应用于其它证件。而且卡证图像可能出现不清晰、有污迹、分辨率低等问题，对卡证图像进行ocr所得到的结果经常会有错别字和顺序错乱等问题。

2、目前也有基于深度学习的卡证识别技术，但都需要使用大量数据进行训练。而卡证图像很容易涉及到隐私敏感信息，难以大量收集进行训练。

技术实现思路

1、本专利技术的目的在于提供一种基于大语言模型的通用证件识别方法，以解决上述
技术介绍
中提出的卡证识别方法通用性差、文字识别错误率高的问题。

2、为实现上述目的，本专利技术提供如下技术方案：一种基于大语言模型的通用证件识别方法，所述方法包括以下步骤：

3、对卡证图像进行图像增强处理；

4、对卡证图...

【技术保护点】

1.一种基于大语言模型的通用证件识别方法，其特征在于：所述方法包括以下步骤：

2.根据权利要求1所述的一种基于大语言模型的通用证件识别方法，其特征在于：图像增强处理的方式包括但不限于矫正图像的方向、增强对比度、对图像进行裁剪、对卡证区域进行仿射变换。

3.根据权利要求1所述的一种基于大语言模型的通用证件识别方法，其特征在于：坐标信息为由OCR识别所得到的包围文本内容的四边形。

4.根据权利要求1所述的一种基于大语言模型的通用证件识别方法，其特征在于：得到符合人类阅读顺序的文本序列的具体操作包括：

5.根据权利要求1所述的一种基于大语言模型的...

【技术特征摘要】

1.一种基于大语言模型的通用证件识别方法，其特征在于：所述方法包括以下步骤：

3.根据权利要求1所述的一种基于大语言模型的通用证件识别方法，其特征在于：坐标信息为由ocr识别所得到的包围文本内容的四边形。

...

【专利技术属性】
技术研发人员：张吉臣，段强，姜凯，魏子重，景伟，王慧平，李锐，
申请(专利权)人：山东浪潮科学研究院有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人