一种票据信息提取方法、系统和存储介质技术方案

技术编号:44403795 阅读:29 留言:0更新日期:2025-02-25 10:17
本发明专利技术属于人工智能领域,具体涉及一种票据信息提取方法、系统和存储介质,包括如下步骤:获取包含票据的电子文件,将电子文件预处理为便于提取信息的图像文件;分别使用多模态大模型和OCR模型提取图像文件中票据信息,并以结构化格式输出文本信息;通过大语言模型对多模态大模型和OCR模型分别输出的文本信息进行分析、校正和对比,针对不同任务对大语言模型进行微调或提示词工程引导,使输出结果符合预期。与现有技术相比,本发明专利技术解决现有技术中OCR识别准确率不高、提取信息不全等问题,本方案不仅提升了票据信息处理的速度,还极大地提高了自动化处理过程的精度,在财务、审计和其他相关业务场景中,显著增强了工作效率与数据可靠性。

【技术实现步骤摘要】

本专利技术属于人工智能领域,具体涉及一种票据信息提取方法、系统和存储介质


技术介绍

1、光学字符识别(ocr)技术是将打印文档转换为机器可读文档的最常用技术之一,特别是在票据信息的归档过程中,其作用尤为重要。通过ocr技术,可以提取票据中的关键信息,如票据号码、开票日期、购买方信息、销售方信息等。然而,虽然ocr技术在许多方面具有很大的优势,但在实际应用中仍然存在许多不足和痛点。

2、首先,尽管ocr引擎可以很好地识别规范形式打印的文本,但对于手写文本或被各种过时的数字化技术处理过的文本,ocr的识别准确率依然较低。这类文本通常包含大量的数字噪点(digital noise),这些噪点会严重影响ocr的处理结果,导致输出错误或缺失数据。例如,手写体的票据由于字迹不规范,常常会被ocr引擎误识别,从而导致关键信息的提取错误。而一些老旧的打印机或扫描仪生成的文档,由于设备本身的分辨率较低,或者文档经过多次复印、扫描,导致质量下降,这些因素都会增加ocr识别的难度和错误率。

3、其次,ocr技术虽然能够提取文本中的文字信息,但缺乏对信息本文档来自技高网...

【技术保护点】

1.一种票据信息提取方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的一种票据信息提取方法,其特征在于,所述的电子文件包括票据的pdf格式和图片格式的文件。

3.根据权利要求1所述的一种票据信息提取方法,其特征在于,提取的文本信息根据用户指定格式输出。

4.根据权利要求3所述的一种票据信息提取方法,其特征在于,所述的用户指定格式包括键值对。

5.一种票据信息提取系统,其特征在于,采用如权利要求1-4任一所述的方法;

6.根据权利要求5所述的一种票据信息提取系统,其特征在于,所述的工作智能体包括用于信息提取的第一子智能体以...

【技术特征摘要】

1.一种票据信息提取方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的一种票据信息提取方法,其特征在于,所述的电子文件包括票据的pdf格式和图片格式的文件。

3.根据权利要求1所述的一种票据信息提取方法,其特征在于,提取的文本信息根据用户指定格式输出。

4.根据权利要求3所述的一种票据信息提取方法,其特征在于,所述的用户指定格式包括键值对。

5.一种票据信息提取系统,其特征在于,采用如权利要求1-4任一所述的方法;

6.根据权利要求5所述的一种票据信息提取系统,其特征在于,所述的工作智能体包括用于信息提取的第一子智能体以及用于分析和...

【专利技术属性】
技术研发人员:何炳余包震宇司泽逸文黄远刘一谦张腾飞刘艺飞邬翊来李田田丁畅谢辉刘于嘉孙淑媛刘峻愷杨晋昌
申请(专利权)人:中核装备技术研究上海有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1