基于大模型的文本识别方法、分类方法和装置制造方法及图纸

技术编号:45905632 阅读:10 留言:0更新日期:2025-07-22 21:30
本发明专利技术属于人工智能文本处理技术领域,涉及基于大模型的文本识别方法、分类方法和装置。本发明专利技术通过OCR识别文本后,利用大模型Transformer架构的语义理解与推理能力,精准提取上下文关键信息,通过Prompt Engineering获取用户所需要数据,通过文本摘要形成向量簇,与向量库进行内积比较,输出分类名称,对输入文本分类,从而实现转化、识别、分类、存储。本发明专利技术结合了OCR识别、文本信息提取和文件属性分类等多种技术,实现了对文档的高效、准确处理。利用PPOCRv4工作流和Macro‑o1大模型对文件关键信息进行结构化提取,提高了文件关键信息提取的准确性和深度。利用Jina‑V3‑Embedding大模型和向量库进行内积比较,实现了对文本属性的快速、准确分类。

【技术实现步骤摘要】

本专利技术属于人工智能文本处理,涉及一种人工智能大模型辅助的文本识别方法、文本分类方法和装置。


技术介绍

1、随着数字化转型的加速,文字处理技术已成为政务、金融、医疗、法律等领域的核心需求。据统计,全球企业每年需处理超5000亿份文档,其中70%的非结构化数据如合同、报告、票据等依赖人工解析,导致效率低下、错误率高,平均人工审核错误率达8%-12%。

2、现有文字处理技术主要有:1、光学字符识别(ocr)系统,如tesseract、adobeacrobat等。但是该技术存在语义割裂问题,仅能提取文字坐标信息,无法理解上下文逻辑;例如医疗报告中,无法区分“阴性/阳性”结论与普通文本的语义权重差异。在复杂排版文档如多栏合同中,传统ocr内容错位率高达35%,且无法识别表格与文本的关联性。2、基于正则表达式或关键词库的分类系统,如elasticsearch。然而该技术规则引擎存在僵化匹配的缺陷,在应对新文档类型时需人工编写规则,金融领域平均每新增一类合同需耗费20人/小时维护规则库,在某些政务档案系统中因无法识别政策文件的衍生子类导致40%文件被错误本文档来自技高网...

【技术保护点】

1.一种基于大模型的文本识别方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的基于大模型的文本识别方法,其特征在于,获取原始文件并转换为字节流后,将转换后的字节流数据缓存至临时存储区;

3.根据权利要求1所述的基于大模型的文本识别方法,其特征在于,对原始文件的文本内容进行识别包括以下内容:

4.根据权利要求1所述的基于大模型的文本识别方法,其特征在于,提取文本信息步骤如下:

5.一种基于大模型的文本分类方法,其特征在于,该文本分类方法包括权利要求1-4任一项所述的基于大模型的文本识别方法步骤,还进一步包括:>

6.根据权利...

【技术特征摘要】

1.一种基于大模型的文本识别方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的基于大模型的文本识别方法,其特征在于,获取原始文件并转换为字节流后,将转换后的字节流数据缓存至临时存储区;

3.根据权利要求1所述的基于大模型的文本识别方法,其特征在于,对原始文件的文本内容进行识别包括以下内容:

4.根据权利要求1所述的基于大模型的文本识别方法,其特征在于,提取文本信息步骤如下:

5.一种基于大模型的文本分类方法,其特征在于,该文本分类方法包括权利要求1-4任一项所述的基于大模型的文本识别方法步骤,还进一步包括:...

【专利技术属性】
技术研发人员:杨凯于文钦李皓高凌孙江王诚宇
申请(专利权)人:青岛方天科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1