【技术实现步骤摘要】
本专利技术属于人工智能文本处理,涉及一种人工智能大模型辅助的文本识别方法、文本分类方法和装置。
技术介绍
1、随着数字化转型的加速,文字处理技术已成为政务、金融、医疗、法律等领域的核心需求。据统计,全球企业每年需处理超5000亿份文档,其中70%的非结构化数据如合同、报告、票据等依赖人工解析,导致效率低下、错误率高,平均人工审核错误率达8%-12%。
2、现有文字处理技术主要有:1、光学字符识别(ocr)系统,如tesseract、adobeacrobat等。但是该技术存在语义割裂问题,仅能提取文字坐标信息,无法理解上下文逻辑;例如医疗报告中,无法区分“阴性/阳性”结论与普通文本的语义权重差异。在复杂排版文档如多栏合同中,传统ocr内容错位率高达35%,且无法识别表格与文本的关联性。2、基于正则表达式或关键词库的分类系统,如elasticsearch。然而该技术规则引擎存在僵化匹配的缺陷,在应对新文档类型时需人工编写规则,金融领域平均每新增一类合同需耗费20人/小时维护规则库,在某些政务档案系统中因无法识别政策文件的衍生子类
...【技术保护点】
1.一种基于大模型的文本识别方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的基于大模型的文本识别方法,其特征在于,获取原始文件并转换为字节流后,将转换后的字节流数据缓存至临时存储区;
3.根据权利要求1所述的基于大模型的文本识别方法,其特征在于,对原始文件的文本内容进行识别包括以下内容:
4.根据权利要求1所述的基于大模型的文本识别方法,其特征在于,提取文本信息步骤如下:
5.一种基于大模型的文本分类方法,其特征在于,该文本分类方法包括权利要求1-4任一项所述的基于大模型的文本识别方法步骤,还进一步包括:
>6.根据权利...
【技术特征摘要】
1.一种基于大模型的文本识别方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的基于大模型的文本识别方法,其特征在于,获取原始文件并转换为字节流后,将转换后的字节流数据缓存至临时存储区;
3.根据权利要求1所述的基于大模型的文本识别方法,其特征在于,对原始文件的文本内容进行识别包括以下内容:
4.根据权利要求1所述的基于大模型的文本识别方法,其特征在于,提取文本信息步骤如下:
5.一种基于大模型的文本分类方法,其特征在于,该文本分类方法包括权利要求1-4任一项所述的基于大模型的文本识别方法步骤,还进一步包括:...
【专利技术属性】
技术研发人员:杨凯,于文钦,李皓,高凌,孙江,王诚宇,
申请(专利权)人:青岛方天科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。