医疗大语言模型的训练及推理的方法、装置、设备及介质制造方法及图纸

技术编号：40455133 阅读：4 留言：0更新日期：2024-02-22 23:12

本发明专利技术提供了医疗大语言模型的训练及推理的方法、装置、设备及介质。该训练方法包括获取医疗文本数据；基于正则表达式来提取医疗文本数据中的关键词，其中关键词被分类为一个或多个主题；基于关键词对医学知识库进行索引以获得相关联医学知识，其中相关联医学知识根据关键词所属的主题被分类成相关联医学知识集合；对医疗文本数据与相关联医学知识集合进行聚类分析，以标识医疗文本数据和相关联医学知识集合的相关性；基于医疗文本数据和相关联医学知识集合的相关性，过滤相关联医学知识集合中与医疗文本数据的相关性低于阈值的相关联医学知识集合；以及基于经过滤的相关联医学知识集合以及医疗文本数据训练医疗大语言模型LLM以更新医疗LLM的参数。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及数据处理领域，更具体地，涉及基于医疗大语言模型(large languagemodel，llm)的训练及推理的方法、装置、设备及介质。

技术介绍

1、随着信息产业的发展，利用人工智能技术的智慧医疗越来越普及。

2、大语言模型是一种人工智能模型，旨在理解和生成人类语言。大语言模型通过在大量文本数据的基础上进行训练，可以执行广泛的任务，包括文本总结、推理等等。目前大语言模型涌现的能力是其他机器学习模型不具备的–例如，包括上下文、指令遵循和循序渐进的推理能力。因此，借助大语言模型可以对病理关键信息提炼和抽取以实现医疗逻辑推理，进而帮助医疗工作者更快地获取期望得到的医疗信息，从而使得医疗工作者快速和准确地进行诊断和治疗。

3、然而，常规的医学文本的内容之间的逻辑通常较为复杂。此外，在大数据环境下，医疗机构的各种类型的文本数据各不相同(例如，不同的医院可能使用不同的医疗文本模板，不同的医疗工作者的记录风格也各自迥异)。换句话说，由于海量的非结构化的医疗文本数据之间存在复杂的逻辑关系、格式和内容也各不相同，利用医疗文本数据来训练大语言模型可能无法准确地提炼和抽取到文本数据中关键的病理信息，进而导致经过医疗文本数据训练的大语言模型的输出精度较低，无法为医疗工作者提供正确地医疗逻辑推理以及期望得到的医疗信息。

4、因此，需要一种新的医疗大语言模型的训练及医疗逻辑推理的方法来解决上述技术问题。

技术实现思路

1、针对上述问题，本专利技术提供了一种医疗

2、根据本专利技术的一个方面，提供了一种医疗大语言模型llm的训练方法。所述医疗大语言模型llm的训练方法方法包括获取与用户相关联的医疗文本数据；基于以预定医学规则生成的正则表达式来提取所述医疗文本数据中的关键词，其中所述关键词被分类为一个或多个主题；基于所确定的所述医疗文本数据中的关键词对医学知识库进行索引以获得所述医学知识库中的相关联医学知识，其中所述医学知识库中的相关联医学知识根据所述关键词所属的一个或多个主题被分类成与所述一个或多个主题相对应的一个或多个相关联医学知识集合；对所述医疗文本数据与所述一个或多个相关联医学知识集合进行聚类分析，以标识所述医疗文本数据和所述一个或多个类别的相关联医学知识集合的相关性；基于所述医疗文本数据和所述一个或多个相关联医学知识集合的相关性，过滤所述一个或多个相关联医学知识集合中与所述医疗文本数据的相关性低于阈值的相关联医学知识集合；以及基于经过滤的所述一个或多个相关联医学知识集合以及所述医疗文本数据训练医疗大语言模型llm以更新所述医疗大语言模型llm的参数。

3、根据本专利技术的一些实施例，对所述医疗文本数据与所述一个或多个相关联医学知识集合进行聚类分析，以标识所述医疗文本数据和所述一个或多个类别的相关联医学知识集合的相关性包括：利用分词器对所述医疗文本数据与所述一个或多个相关联医学知识集合进行变换，以生成经token化的医疗文本数据和经token化的一个或多个相关联医学知识集合；以及对所述经token化的医疗文本数据和经token化的一个或多个相关联医学知识集合进行聚类分析，以标识所述经token化的医疗文本数据和所述经token化的一个或多个相关联医学知识集合的相关性。

4、根据本专利技术的一些实施例，基于所述医疗文本数据和所述一个或多个相关联医学知识集合的相关性，过滤所述一个或多个相关联医学知识集合中与所述医疗文本数据的相关性低于阈值的相关联医学知识集合包括：基于所述经token化的医疗文本数据和所述经token化的一个或多个相关联医学知识集合的相关性，过滤所述经token化的一个或多个相关联医学知识集合中与所述经token化的医疗文本数据的相关性低于阈值的相关联医学知识集合。

5、根据本专利技术的一些实施例，基于经过滤的所述一个或多个相关联医学知识集合以及所述医疗文本数据训练医疗大语言模型llm以更新所述医疗大语言模型llm的参数包括：基于经过滤的所述经token化的一个或多个相关联医学知识集合以及所述经token化的医疗文本数据训练医疗大语言模型llm以更新所述医疗大语言模型llm的参数。

6、根据本专利技术的一些实施例，所述预定医学规则包括以下各项中的一个或多个：检查项目、放射治疗、诊断名称、手术名、病理诊断、药品通用名标准化治理、部位标准化治理、分化程度标准化治理。基于以预定医学规则生成的正则表达式来提取所述医疗文本数据中的关键词包括：基于以预定医学规则生成的正则表达式来从所述医疗文本数据中确定包含有具体主题的内容，以及基于所述包含有具体主题的内容确定所述医疗文本数据中的关键词。

7、根据本专利技术的一些实施例，所述医学知识库是基于医学知识构建的，其中所述医学知识包括医学文档、药品表、症状体征表、病理学百科信息等医学相关文本信息中的一个或多个；以及所述医学知识库中的医学知识按照主题被分类。

8、根据本专利技术的一些实施例，所述方法还包括：对所述医疗文本数据进行词频分析以确定所述医疗文本数据中的词汇频率；以及基于所述医疗文本数据中的词汇频率优化所述医疗文本数据中的关键词。

9、根据本专利技术的一些实施例，基于所述医疗文本数据中的词汇频率优化所述医疗文本数据中的关键词包括：标识所述医疗文本数据中的具有高于阈值词汇频率的词汇；以及基于未包括在基于所述正则表达式提取的所述医疗文本数据中的关键词中的并且具有高于阈值词汇频率的词汇，更新所述医疗文本数据中的关键词。

10、根据本专利技术的一些实施例，获取与用户相关联的医疗文本数据包括：对与用户相关联的医疗文本数据进行数据清洗，以过滤所述医疗文本数据中的乱码以及特殊字符；获取经过滤的医疗文本数据。

11、根据本专利技术的一些实施例，获取与用户相关联的医疗文本数据包括：从多个数据源获取与同一用户相关联的医疗文本信息，其中从所述多个数据源获取的与同一用户相关联的医疗文本信息具有不同维度；以及将从所述多个数据源获取的与同一用户相关联的医疗文本信息合并，以生成非结构化的医疗文本数据。

12、根据本专利技术的一些实施例，所述医疗大语言模型llm是基于无标注的医学文本训练的大语言模型llm，并且所述医疗大语言模型llm用于对所输入的文本数据进行医疗逻辑的语义总结和/或推理。

13、根据本专利技术的一些实施例，所述聚类分析使用无监督学习聚类算法，利用向量空间距离、主题相似性、规则相似性等医学特征和文本属性进行聚类。

14、根据本专利技术的另一方面，提供了一种基于医疗大语言模型llm的医疗逻辑推本文档来自技高网...

【技术保护点】

1.一种医疗大语言模型LLM的训练方法，包括：

2.根据权利要求1所述的医疗大语言模型LLM的训练方法，其中，对所述医疗文本数据与所述一个或多个相关联医学知识集合进行聚类分析，以标识所述医疗文本数据和所述一个或多个类别的相关联医学知识集合的相关性包括：

3.根据权利要求2所述的医疗大语言模型LLM的训练方法，其中，基于所述医疗文本数据和所述一个或多个相关联医学知识集合的相关性，过滤所述一个或多个相关联医学知识集合中与所述医疗文本数据的相关性低于阈值的相关联医学知识集合包括：

4.根据权利要求3所述的医疗大语言模型LLM的训练方法，其中，基于经过滤的所述一个或多个相关联医学知识集合以及所述医疗文本数据训练医疗大语言模型LLM以更新所述医疗大语言模型LLM的参数包括：

5.根据权利要求1-4中任一项所述的医疗大语言模型LLM的训练方法，其中，所述预定医学规则包括以下各项中的一个或多个：检查项目、放射治疗、诊断名称、手术名、病理诊断、药品通用名标准化治理、部位标准化治理、分化程度标准化治理；

6.根据权利要求1-4中任一项所述

7.根据权利要求1-4中任一项所述的医疗大语言模型LLM的训练方法，还包括：

8.根据权利要求7所述的医疗大语言模型LLM的训练方法，其中，基于所述医疗文本数据中的词汇频率优化所述医疗文本数据中的关键词包括：

9.根据权利要求1-4中任一项所述的医疗大语言模型LLM的训练方法，其中，获取与用户相关联的医疗文本数据包括：

10.根据权利要求1-4中任一项所述的医疗大语言模型LLM的训练方法，其中，获取与用户相关联的医疗文本数据包括：

11.根据权利要求1-4中任一项所述的医疗大语言模型LLM的训练方法，其中，所述医疗大语言模型LLM是基于无标注的医学文本训练的大语言模型LLM，并且所述医疗大语言模型LLM用于对所输入的文本数据进行医疗逻辑的语义总结和/或推理。

12.根据权利要求1-4中任一项所述的医疗大语言模型LLM的训练方法，其中，所述聚类分析使用无监督学习聚类算法，利用向量空间距离、主题相似性、规则相似性等医学特征和文本属性进行聚类。

13.一种基于医疗大语言模型LLM的医疗逻辑推理方法，包括：

14.一种医疗大语言模型LLM的训练装置，包括：

15.根据权利要求14所述的医疗大语言模型LLM的训练装置，其中，所述相关性标识单元还被配置为：

16.根据权利要求15所述的医疗大语言模型LLM的训练装置，其中，所述数据过滤单元还被配置为：

17.根据权利要求16所述的医疗大语言模型LLM的训练装置，其中，所述医疗大语言模型LLM训练单元还被配置为：

18.根据权利要求14-17中任一项所述的医疗大语言模型LLM的训练装置，其中，所述预定医学规则包括以下各项中的一个或多个：检查项目、放射治疗、诊断名称、手术名、病理诊断、药品通用名标准化治理、部位标准化治理、分化程度标准化治理；

19.根据权利要求14-17中任一项所述的医疗大语言模型LLM的训练装置，其中，所述医学知识库是基于医学知识构建的，其中所述医学知识包括医学文档、药品表、症状体征表、病理学百科信息等医学相关文本信息中的一个或多个；以及所述医学知识库中的医学知识按照主题被分类。

20.根据权利要求14-17中任一项所述的医疗大语言模型LLM的训练装置还包括关键词优化单元，被配置为：

21.根据权利要求20所述的医疗大语言模型LLM的训练装置，所述关键词优化单元还被配置为：

22.根据权利要求14-17中任一项所述的医疗大语言模型LLM的训练装置，其中，所述数据获取单元还被配置为：

23.根据权利要求14-17中任一项所述的医疗大语言模型LLM的训练装置，其中，所述数据获取单元还被配置为：

24.根据权利要求14-17中任一项所述的医疗大语言模型LLM的训练装置，其中，所述医疗大语言模型LLM是基于无标注的医学文本训练的大语言模型LLM，并且所述医疗大语言模型LLM用于对所输入的文本数据进行医疗逻辑的语义总结和/或推理。

25.根据权利要求14-17中任一项所述的医疗大语言模型LLM的训练装置，其中，所述聚类分析使用无监督学习聚类算法，利用向量空间距离...

【技术特征摘要】

1.一种医疗大语言模型llm的训练方法，包括：

2.根据权利要求1所述的医疗大语言模型llm的训练方法，其中，对所述医疗文本数据与所述一个或多个相关联医学知识集合进行聚类分析，以标识所述医疗文本数据和所述一个或多个类别的相关联医学知识集合的相关性包括：

3.根据权利要求2所述的医疗大语言模型llm的训练方法，其中，基于所述医疗文本数据和所述一个或多个相关联医学知识集合的相关性，过滤所述一个或多个相关联医学知识集合中与所述医疗文本数据的相关性低于阈值的相关联医学知识集合包括：

4.根据权利要求3所述的医疗大语言模型llm的训练方法，其中，基于经过滤的所述一个或多个相关联医学知识集合以及所述医疗文本数据训练医疗大语言模型llm以更新所述医疗大语言模型llm的参数包括：

5.根据权利要求1-4中任一项所述的医疗大语言模型llm的训练方法，其中，所述预定医学规则包括以下各项中的一个或多个：检查项目、放射治疗、诊断名称、手术名、病理诊断、药品通用名标准化治理、部位标准化治理、分化程度标准化治理；

6.根据权利要求1-4中任一项所述的医疗大语言模型llm的训练方法，其中，所述医学知识库是基于医学知识构建的，其中所述医学知识包括医学文档、药品表、症状体征表、病理学百科信息等医学相关文本信息中的一个或多个；以及所述医学知识库中的医学知识按照主题被分类。

7.根据权利要求1-4中任一项所述的医疗大语言模型llm的训练方法，还包括：

8.根据权利要求7所述的医疗大语言模型llm的训练方法，其中，基于所述医疗文本数据中的词汇频率优化所述医疗文本数据中的关键词包括：

9.根据权利要求1-4中任一项所述的医疗大语言模型llm的训练方法，其中，获取与用户相关联的医疗文本数据包括：

10.根据权利要求1-4中任一项所述的医疗大语言模型llm的训练方法，其中，获取与用户相关联的医疗文本数据包括：

11.根据权利要求1-4中任一项所述的医疗大语言模型llm的训练方法，其中，所述医疗大语言模型llm是基于无标注的医学文本训练的大语言模型llm，并且所述医疗大语言模型llm用于对所输入的文本数据进行医疗逻辑的语义总结和/或推理。

12.根据权利要求1-4中任一项所述的医疗大语言模型llm的训练方法，其中，所述聚类分析使用无监督学习聚类算法，利用向量空间距离、主题相似性、规则相似性等医学特征和文本属性进行聚类。

13.一种基于医疗大语言模型llm的医疗逻辑推理方法，...

【专利技术属性】
技术研发人员：张程剀，刘泽恩，刘晓华，陈小梅，
申请(专利权)人：北京壹永科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人