【技术实现步骤摘要】
本专利技术属于人工智能领域,具体涉及一种票据信息提取方法、系统和存储介质。
技术介绍
1、光学字符识别(ocr)技术是将打印文档转换为机器可读文档的最常用技术之一,特别是在票据信息的归档过程中,其作用尤为重要。通过ocr技术,可以提取票据中的关键信息,如票据号码、开票日期、购买方信息、销售方信息等。然而,虽然ocr技术在许多方面具有很大的优势,但在实际应用中仍然存在许多不足和痛点。
2、首先,尽管ocr引擎可以很好地识别规范形式打印的文本,但对于手写文本或被各种过时的数字化技术处理过的文本,ocr的识别准确率依然较低。这类文本通常包含大量的数字噪点(digital noise),这些噪点会严重影响ocr的处理结果,导致输出错误或缺失数据。例如,手写体的票据由于字迹不规范,常常会被ocr引擎误识别,从而导致关键信息的提取错误。而一些老旧的打印机或扫描仪生成的文档,由于设备本身的分辨率较低,或者文档经过多次复印、扫描,导致质量下降,这些因素都会增加ocr识别的难度和错误率。
3、其次,ocr技术虽然能够提取文本中的文
...【技术保护点】
1.一种票据信息提取方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的一种票据信息提取方法,其特征在于,所述的电子文件包括票据的pdf格式和图片格式的文件。
3.根据权利要求1所述的一种票据信息提取方法,其特征在于,提取的文本信息根据用户指定格式输出。
4.根据权利要求3所述的一种票据信息提取方法,其特征在于,所述的用户指定格式包括键值对。
5.一种票据信息提取系统,其特征在于,采用如权利要求1-4任一所述的方法;
6.根据权利要求5所述的一种票据信息提取系统,其特征在于,所述的工作智能体包括用于信息
...【技术特征摘要】
1.一种票据信息提取方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的一种票据信息提取方法,其特征在于,所述的电子文件包括票据的pdf格式和图片格式的文件。
3.根据权利要求1所述的一种票据信息提取方法,其特征在于,提取的文本信息根据用户指定格式输出。
4.根据权利要求3所述的一种票据信息提取方法,其特征在于,所述的用户指定格式包括键值对。
5.一种票据信息提取系统,其特征在于,采用如权利要求1-4任一所述的方法;
6.根据权利要求5所述的一种票据信息提取系统,其特征在于,所述的工作智能体包括用于信息提取的第一子智能体以及用于分析和...
【专利技术属性】
技术研发人员:何炳余,包震宇,司泽逸文,黄远,刘一谦,张腾飞,刘艺飞,邬翊来,李田田,丁畅,谢辉,刘于嘉,孙淑媛,刘峻愷,杨晋昌,
申请(专利权)人:中核装备技术研究上海有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。