一种基于模板对齐的材料信息抽取方法、装置及电子设备制造方法及图纸

技术编号:44132338 阅读:34 留言:0更新日期:2025-01-24 22:52
本发明专利技术提供了一种基于模板对齐的材料信息抽取方法、装置及电子设备,涉及信息提取技术领域,包括:获取材料模板;材料模板包括目标参照区信息列表,目标参照区信息列表包括目标参照区信息及其框选框;对待识别材料进行全文文字识别,得到待识别材料文字信息;将待识别材料文字信息与目标参照区信息列表进行比对,得到满足目标相似度的参照区信息列表,参照区信息列表包括参照区信息及其框选框;基于参照区信息的框选框、目标参照区信息的框选框确定待识别材料的缩放比例;基于待识别材料的缩放比例将待识别材料与材料模板对齐,完成对待识别材料的材料抽取。本发明专利技术无需大量标注训练,一种材料配置一个模板,便可达到材料信息的精确抽取。

【技术实现步骤摘要】

本专利技术涉及信息提取,特别是涉及一种基于模板对齐的材料信息抽取方法、装置及电子设备


技术介绍

1、随着信息技术的飞速发展,特别是数字化和人工智能技术的不断进步,纸质材料的处理与利用方式正经历着前所未有的变革。传统上,纸质材料的整理、归纳、关键信息提取和统计需要人工完成,不仅效率低下,而且容易出错。随着电子文档的普及,人们开始探索利用计算机和人工智能技术自动完成这些任务。

2、在信息抽取领域,一种常用的方法是结合光学字符识别(ocr)技术和基于深度学习的信息抽取模型。这种方法首先通过ocr技术将纸质材料图片中的文字识别出来,然后利用深度学习模型对识别出的文本进行结构化处理,提取出所需的关键信息,并以表格形式输出。然而,这种方法在实际应用中面临着诸多挑战。

3、首先,基于深度学习的信息抽取模型需要大量的高质量标注样本进行训练。在实际情况中,获取足够数量的标注样本往往是一项耗时且成本高昂的工作。此外,深度学习模型对训练数据的依赖性很强,如果训练数据不足或质量不高,将严重影响模型的抽取效果。

4、其次,现有的信息抽取技术通常本文档来自技高网...

【技术保护点】

1.一种基于模板对齐的材料信息抽取方法,其特征在于,包括:

2.如权利要求1所述的基于模板对齐的材料信息抽取方法,其特征在于,所述获取材料模板,包括:

3.如权利要求2所述的基于模板对齐的材料信息抽取方法,其特征在于,所述基于所述参照区信息的框选框、所述目标参照区信息的框选框确定所述待识别材料的缩放比例,包括:

4.如权利要求3所述的基于模板对齐的材料信息抽取方法,其特征在于,所述基于所述待识别材料的缩放比例将所述待识别材料与所述材料模板对齐,完成所述待识别材料的材料抽取,包括:

5.如权利要求4所述的基于模板对齐的材料信息抽取方法,其特征...

【技术特征摘要】

1.一种基于模板对齐的材料信息抽取方法,其特征在于,包括:

2.如权利要求1所述的基于模板对齐的材料信息抽取方法,其特征在于,所述获取材料模板,包括:

3.如权利要求2所述的基于模板对齐的材料信息抽取方法,其特征在于,所述基于所述参照区信息的框选框、所述目标参照区信息的框选框确定所述待识别材料的缩放比例,包括:

4.如权利要求3所述的基于模板对齐的材料信息抽取方法,其特征在于,所述基于所述待识别材料的缩放比例将所述待识别材料与所述材料模板对齐,完成所述待识别材料的材料抽取,包括:

5.如权利要求4所述的基于模板对齐的材料信息抽取方法,其特征在于,所述基于...

【专利技术属性】
技术研发人员:李霞朱思雨杨忠伟张冲
申请(专利权)人:卓繁智能技术上海有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1