基于大语言模型和影像知识库的语料自动生成方法及装置制造方法及图纸

技术编号：40419812 阅读：4 留言：0更新日期：2024-02-20 22:38

本申请公开了一种基于大语言模型和影像知识库的语料自动生成方法及装置，包括：给定语料生成格式；基于影像词库以及语料生成格式对多个第一影像报告样本进行统计分析，并生成多个第一语料；获取多个第二影像报告样本，其中第一影像报告样本与第二影像报告样本不同；基于大语言模型和多个第一语料对多个第二影像报告样本进行实体以及实体关系训练，从而生成多个第二语料；以及基于大语言模型和影像知识库对多个第二语料进行上下文映射关系训练，从而生成多个第三语料。从而将本申请所生成的多个第三语料用作训练影像报告结构化NLP模型的语料，能够极大的提升影像报告结构化NLP模型的训练效率和输出质量。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及数据处理，特别是涉及一种基于大语言模型和影像知识库的语料自动生成方法及装置。

技术介绍

1、医学影像报告作为临床诊断越来越重要的诊断依据，其影像报告内容的规范性，时刻影响着医生阅读医学影像报告的效率。利用nlp结构化的影像报告内容，能够有效提高医生阅读医学影像报告的效率。但是作为训练医学影像报告结构化nlp模型的关键因素—训练语料（即，训练样本）的获取却成为了一大难题。

2、传统的训练语料的获取主要采用人工模式（即，人工标注以及人工筛选等）。但是利用人工模式获取训练语料的方式不仅效率低下，而且受限于标注人员的知识范围和经验，容易出现标注不准确、不一致以及筛选不合理的情况。从而，上述利用人工模式获取到的训练语料极大的限制了影像报告结构化nlp模型的训练效率和输出质量。

3、公开号为cn117314562a，名称为请求信息处理方法、系统、设备和存储介质。方法包括：响应于第一用户对目标物品的议价服务请求，获取目标物品的物品信息；根据物品信息和预设的议价策略信息，确定目标物品对应的第一议价语料；根据第一用户的身份信息发送第一议价语料给目标物品所属的第二用户；在预设时间段内检测是否接收到第二用户对第一议价语料的第一回复信息；若在预设时间段内接收到第一回复信息，根据第一回复信息反馈议价结果信息给第一用户。

4、公开号为cn117290485a，名称为一种基于llm的问答增强方法。将原始语料文本经过text2vec模型转换成对应的语料文本向量并存入至向量数据库，同时记录与原始语料文本信息匹配的映射

5、针对上述的现有技术中存在的利用人工模式获取训练语料的方式不仅效率低下，而且受限于标注人员的知识范围和经验，容易出现标注不准确、不一致以及筛选不合理的情况，从而极大的限制了影像报告结构化nlp模型的训练效率和输出质量的技术问题，目前尚未提出有效的解决方案。

技术实现思路

1、本公开的实施例提供了一种基于大语言模型和影像知识库的语料自动生成方法及装置，以至少解决现有技术中存在的利用人工模式获取训练语料的方式不仅效率低下，而且受限于标注人员的知识范围和经验，容易出现标注不准确、不一致以及筛选不合理的情况，从而极大的限制了影像报告结构化nlp模型的训练效率和输出质量的技术问题。

2、根据本公开实施例的一个方面，提供了一种基于大语言模型和影像知识库的语料自动生成方法，包括：给定语料生成格式；基于影像词库以及语料生成格式对多个第一影像报告样本进行统计分析，并生成多个第一语料；获取多个第二影像报告样本，其中第一影像报告样本与第二影像报告样本不同；基于大语言模型和多个第一语料对多个第二影像报告样本进行实体以及实体关系训练，从而生成多个第二语料；以及基于大语言模型和影像知识库对多个第二语料进行上下文映射关系训练，从而生成多个第三语料。

3、根据本公开实施例的另一个方面，还提供了一种存储介质，存储介质包括存储的程序，其中，在程序运行时由处理器执行以上所述的方法。

4、根据本公开实施例的另一个方面，还提供了一种基于大语言模型和影像知识库的语料自动生成装置，包括：格式给定模块，用于给定语料生成格式；第一语料生成模块，用于基于影像词库以及语料生成格式对多个第一影像报告样本进行统计分析，并生成多个第一语料；样本获取模块，用于获取多个第二影像报告样本，其中第一影像报告样本与第二影像报告样本不同；第二语料生成模块，用于基于大语言模型和多个第一语料对多个第二影像报告样本进行实体以及实体关系训练，从而生成多个第二语料；以及第三语料生成模块，用于基于大语言模型和影像知识库对多个第二语料进行上下文映射关系训练，从而生成多个第三语料。

5、根据本公开实施例的另一个方面，还提供了一种基于大语言模型和影像知识库的语料自动生成装置，包括：处理器；以及存储器，与处理器连接，用于为处理器提供处理以下处理步骤的指令：给定语料生成格式；基于影像词库以及语料生成格式对多个第一影像报告样本进行统计分析，并生成多个第一语料；获取多个第二影像报告样本，其中第一影像报告样本与第二影像报告样本不同；基于大语言模型和多个第一语料对多个第二影像报告样本进行实体以及实体关系训练，从而生成多个第二语料；以及基于大语言模型和影像知识库对多个第二语料进行上下文映射关系训练，从而生成多个第三语料。

6、本申请提供了一种基于大语言模型和影像知识库的语料自动生成方法。首先，操作人员给定语料生成格式。然后，基于影像词库和给定的语料生成格式对多个第一影像报告样本进行统计分析，从而生成用作初始语料的多个第一语料。之后操作人员获取多个第二影像报告样本。然后，基于大语言模型和多个第一语料对多个第二影像报告样本进行实体以及实体关系训练，从而生成多个第二语料。最后，基于大语言模型和影像知识库对多个第二语料进行上下文映射关系训练，从而生成训练影像报告结构化nlp模型的第三语料。

7、由于本申请是基于大语言模型和多个第一语料对多个第二影像报告样本进行实体以及实体关系训练，从而生成的多个第二语料，因此最终生成的多个第二语料较为精确。

8、进一步由于本申请是基于大语言模型和影像知识库对多个第二语料进行训练，从而生成的多个第三语料，因此相较于传统的基于人工筛选和人工标注生成多个第三语料来说，基于大语言模型和影像知识库生成多个第三语料的效率较高，并且最终生成的多个第三语料是可用作训练影像报告结构化nlp模型的高质量语料。

9、从而将本申请所生成的多个第三语料用作训练影像报告结构化nlp模型的语料，能够极大的提升影像报告结构化nlp模型的训练效率和输出质量。进而解决了现有技术中存在的利用人工模式获取训练语料的方式不仅效率低下，而且受限于标注人员的知识范围和经验，容易出现标注不准确、不一致以及筛选不合理的情况，从而极大的限制了影像报告结构化nlp模型的训练效率和输出质量的技术问题。

本文档来自技高网...

【技术保护点】

1.一种基于大语言模型和影像知识库的语料自动生成方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，基于影像词库以及所述语料生成格式对多个第一影像报告样本进行统计分析，并生成多个第一语料的操作，包括：

3.根据权利要求2所述的方法，其特征在于，基于大语言模型和所述多个第一语料对所述多个第二影像报告样本进行实体以及实体关系训练，从而生成多个第二语料的操作，包括：

4.根据权利要求3所述的方法，其特征在于，基于所述大语言模型，并利用所述多个第一语料对所述多个第四语料进行自动标注，生成所述多个第二语料的操作，包括：

5.根据权利要求1所述的方法，其特征在于，还包括：

6.根据权利要求1所述的方法，其特征在于，基于所述大语言模型和影像知识库对所述多个第二语料进行上下文映射关系训练，从而生成多个第三语料的操作，包括：

7.根据权利要求6所述的方法，其特征在于，对比所述多个第一映射关系和与所述多个第一映射关系对应的多个第二映射关系，从而生成所述多个第三语料的操作，包括：

8.一种存储介质，其特

9.一种基于大语言模型和影像知识库的语料自动生成装置，其特征在于，包括：

10.一种基于大语言模型和影像知识库的语料自动生成装置，其特征在于，包括：

...

【技术特征摘要】

1.一种基于大语言模型和影像知识库的语料自动生成方法，其特征在于，包括：

5.根据权利要求1所述的方法，其特征在于，还包括：

...

【专利技术属性】
技术研发人员：王中华，余双宏，张志伟，
申请(专利权)人：万里云医疗信息科技北京有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人