基于大语言模型的信息提取装置、方法制造方法及图纸

技术编号:41872138 阅读:11 留言:0更新日期:2024-07-02 00:23
本申请涉及自然语言处理领域,公开一种基于大语言模型的信息提取方法,包括文本识别模块、信息提取模块、答案定位模块。文本识别模块用于处理不同格式的文档,通过ocr技术做文本识别,并通过版面分析算法进一步得出完整的文档内容;信息提取模块用于处理文档内容,根据用户问题,通过结构化检索与向量检索相结合提取其中关键信息;答案定位模块用于根据关键信息,定位到其在原文中的位置。本公开通过结合OCR技术、向量检索、提示词工程等创新方法,增加对不同格式文档、不同长度文本的兼容性,并激发大语言模型的信息提取能力;并通过答案定位模块精确定位答案出处,以便用户进行溯源验证。本公开还提供一种基于大语言模型的信息提取方法、装置。

【技术实现步骤摘要】

本申请涉及自然语言处理领域,具体涉及一种基于大语言模型的信息提取装置、方法


技术介绍

1、信息提取(information extraction,简称ie)是自然语言处理(nlp)领域的一个重要任务,旨在从非结构化文本中提取有用的信息,将其转化为结构化数据以便于进一步分析和应用。信息提取技术的发展旨在解决大规模文本数据处理中的信息过载问题,为企业、研究机构和政府部门提供了强大的分析工具。

2、在本专利技术之前,信息提取和文本识别领域已经存在多种技术和方法,例如命名实体识别(ner)、关系抽取(re)、基于规则的方法等,但这些技术存在一些限制和问题,如下所述:

3、语义理解的挑战:信息提取装置通常依赖于词法分析和句法分析,但在理解文本的深层语义和上下文时仍存在挑战。处理多义词、模糊语言和复杂的语言结构仍然是一个难题。

4、噪声和错误的处理:非结构化文本中通常包含大量的噪声和错误,这可能会导致信息提取装置产生不准确的结果。例如,文本中可能包含拼写错误、不完整的信息或错误的关系。信息提取装置需要具备强大的错误容忍性。

本文档来自技高网...

【技术保护点】

1.一种基于大语言模型的信息提取装置,其特征在于,包括:

2.根据权利要求1所述的信息提取装置,其特征在于,所述信息提取模块被配置为:

3.根据权利要求1所述的信息提取装置,其特征在于,所述答案定位模块被配置为:

4.一种基于大语言模型的信息提取方法,其特征在于,包括:

5.根据权利要求4所述的方法,其特征在于,步骤6)包括:

6.根据权利要求5所述的方法,其特征在于,所述向量检索包括:

7.根据权利要求6所述的方法,其特征在于,

8.根据权利要求7所述的方法,其特征在于,计算文本段与用户问题的相似度得分...

【技术特征摘要】

1.一种基于大语言模型的信息提取装置,其特征在于,包括:

2.根据权利要求1所述的信息提取装置,其特征在于,所述信息提取模块被配置为:

3.根据权利要求1所述的信息提取装置,其特征在于,所述答案定位模块被配置为:

4.一种基于大语言模型的信息提取方法,其特征在于,包括:

5.根据权利要求4所述的方法,其特征在于,步骤6)包括:

6.根据权利要求5所述的方法,其特征在于,所述...

【专利技术属性】
技术研发人员:王光鑫陈其宾宁方刚姜凯
申请(专利权)人:山东浪潮科学研究院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1