基于大语言模型的无标签医疗表格数据学习方法和装置制造方法及图纸

技术编号：40632404 阅读：6 留言：0更新日期：2024-03-13 21:17

本发明专利技术公开了一种基于大语言模型的无标签医疗表格数据学习方法和装置，包括：获取无标签医疗表格数据，并对无标签医疗表格数据进行预处理得到处理后的医疗表格数据；为医疗表格数据中的每条记录生成标注任务提示词组成提示词数据集，其中，标注任务提示词包括通用提示词、独有提示词以及要求提示词；利用大语言模型基于提示词数据集为每条记录标注伪标签，得到带有伪标签的医疗表格数据集；采用DivideMix算法并根据带有伪标签的医疗表格数据集对分类模型进行有噪声数据学习以优化分类模型参数。这样可以充分利用无标签医疗表格数据进行分类任务学习。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于无标签表格数据的深度学习，具体涉及一种基于大语言模型的无标签医疗表格数据学习方法和装置。

技术介绍

1、医疗数据在现代医疗保健中发挥关键作用，随着医疗技术进步，数据类型和数量激增，包括电子健康记录、医学影像和基因组数据等，这些数据对提高患者护理质量、帮助医生作出精准诊断和治疗决策、推动医学研究至关重要。然而，数据的复杂性、海量体积、存储和分析挑战、质量和标准化问题、隐私和安全问题、合规性考量、以及缺乏有效标注等问题，都给数据的管理和应用带来了诸多挑战。

2、对医疗数据进行有效分类在医疗保健领域至关重要，它不仅有助于提高诊断准确性，还对个性化治疗计划的制定发挥着关键作用。通过将医疗数据精确分类，医生能够迅速获取关键信息，更准确地识别疾病模式和制定治疗方案，尤其在个性化医疗领域中，这一过程使医生能够根据患者独特的医疗需求提供定制化的治疗计划。

3、此外，合理的数据分类还能提高医疗资源的使用效率，优化患者信息管理，减少重复检查，从而节约成本和时间。在医学研究方面，准确的数据分类对于进行流行病学研究、药物研发和临床试验至关重要，它帮助研究人员更容易地识别关键变量和趋势，加速医学知识的发展。因此，随着医疗技术的发展，对医疗数据进行有效分类对于提升整个医疗保健系统的效能具有不可估量的价值。

4、人工智能(ai)，尤其是先进系统如大语言模型，在处理医疗数据，特别是未标注数据方面显示出重要作用。具体大语言模型可以对医疗数据进行标注，即为医疗数据生成伪标签，但是这些伪标签可能含有噪声，即不总是完全

5、在这个背景下，开发一种能够有效利用大语言模型为未标注医疗数据生成伪标签，并且能够在伪标签的基础上进行准确分类的方法显得尤为重要。这种方法应该能够处理和优化含有噪声的伪标签数据，从而提高医疗数据分类的准确性和可靠性，为医疗保健领域带来新的突破。实现这一目标的关键在于结合人工智能算法的强大能力和先进的数据处理技术，特别是在提高伪标签生成过程的准确性和后续分类模型的鲁棒性方面。

6、总的来说，结合大语言模型的先进文本处理能力和其他强大的ai技术，可以为处理复杂、未标注的医疗数据提供一种全新的方法。这不仅能够改善数据分类的准确性，还能为个性化医疗、疾病诊断和治疗、医学研究等多个领域带来革命性的改变。

技术实现思路

1、鉴于上述，本专利技术的目的是提供一种基于大语言模型的无标签医疗表格数据学习方法和装置，通过引入有噪声数据学习方式来弥补大语言模型生成的伪标签不准确导致分类任务学习时分类模型鲁棒性低的缺陷。

2、为实现上述专利技术的目的，本专利技术提供以下技术方案：

3、第一方面，本专利技术实施例提供了一种基于大语言模型的无标签医疗表格数据学习方法，其特征在于，包括以下步骤：

4、获取无标签医疗表格数据，并对无标签医疗表格数据进行预处理得到处理后的医疗表格数据；

5、为医疗表格数据中的每条记录生成标注任务提示词组成提示词数据集，其中，标注任务提示词包括通用提示词、独有提示词以及要求提示词；

6、利用大语言模型基于提示词数据集为每条记录标注伪标签，得到带有伪标签的医疗表格数据集；

7、采用dividemix算法并根据带有伪标签的医疗表格数据集对分类模型进行有噪声数据学习以优化分类模型参数。

8、优选地，所述对无标签医疗表格数据进行预处理，包括：删除语义模糊数据、过滤过长文本、特征名称规范化以及转换类别型特征的数值表示。

9、优选地，所述过滤过长文本包括：将特征超过第一阈值或者特征里面的文本超过第二阈值的表格数据删除；

10、所述特征名称规范化包括：通过正则表达式的方式检测出由多个单词组成且使用驼峰命名法或下划线命名法的特证名，并将这些特证名中的每个单词拆分开；

11、所述删除语义模糊数据包括：删除特征的缺失值超过第三阈值的表格数据；如果表格数据中由名称由罕见且无具体含义的词汇组成的特征数量多于第四阈值，则删除表格数据；

12、所述转换类别型特征的数值表示包括：将数值表示类别型特征转换为文本形式。

13、优选地，所述通用提示词是指描述通用指示的提示词，所述独有提示词是指每条记录包括的特征及其具体描述、特证名以及特征值拼接形成的提示词，所述要求提示词是指要求大语言模型做出特定输出要求的提示词；

14、所述通用提示词、独有提示词以及要求提示词拼接形成每个样本的标注任务提示词。

15、优选地，所述利用大语言模型基于提示词数据集为每条记录标注伪标签，包括：

16、使用大语言模型基于每条记录的标注任务提示词为每个样本生成答案，保留答案中的概率值，并将概率值按照是否大于0.5进行分类转换为伪标签。

17、优选地，所述分类模型采用ft-transformer网络。

18、优选地，所述方法还包括对参数优化的分类模型进行第一预测准确率测试，具体为：将测试用的医疗表格数据进行预处后作为样本输入至参数优化的分类模型中预测生成预测分类任务标签，并比较预测的分类任务标签与样本的真实分类标签来计算第一预测准确率。

19、优选地，所述方法还包括利用带有真实分类标签的医疗表格数据对分类模型进行监督训练，并对监督训练的分类模型进行第二预测准确率测试，比较第一预测准确率与第二预测准确来验证无标签医疗表格数据学习方法的效果。

20、第二方面，本专利技术实施例提供了一种基于大语言模型的无标签医疗表格数据学习装置，包括数据获取及预处理模块、提示词生成模块、伪标签标注模块、有噪声数据学习模块；

21、所述据获取及预处理模块用于获取无标签医疗表格数据，并对无标签医疗表格数据进行预处理得到处理后的医疗表格数据；

22、所述提示词生成模块用于为医疗表格数据中的每条记录生成标注任务提示词组成提示词数据集，其中，标注任务提示词包括通用提示词、独有提示词以及要求提示词；

23、所述伪标签标注模块用于利用大语言模型基于提示词数据集为每条记录标注伪标签，得到带有伪标签的医疗表格数据集；

24、所述有噪声数据学习模块用于采用dividemix算法并根据带有伪标签的医疗表格数据集对分类模型进行有噪声数据学习以优化分类模型参数。

25、第三方面，本专利技术实施例还提供了一种计算设备，包括存储器、处理器以及存储在存储器中并可在处理器上执行的计算机程序，处理器执行计算机程序时实现上述基于大语言模型的无标签医疗表格数据学习方法步骤。

26、与现有技术相比，本专利技术提供的基于大语言模型的无标签医疗表格数据学习方法和装置，结合使用大语言模型本文档来自技高网...

【技术保护点】

1.一种基于大语言模型的无标签医疗表格数据学习方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于大语言模型的无标签医疗表格数据学习方法，其特征在于，所述对无标签医疗表格数据进行预处理，包括：删除语义模糊数据、过滤过长文本、特征名称规范化以及转换类别型特征的数值表示。

3.根据权利要求2所述的基于大语言模型的无标签医疗表格数据学习方法，其特征在于，所述过滤过长文本包括：将特征超过第一阈值或者特征里面的文本超过第二阈值的表格数据删除；

4.根据权利要求1所述的基于大语言模型的无标签医疗表格数据学习方法，其特征在于，所述通用提示词是指描述通用指示的提示词，所述独有提示词是指每条记录包括的特征及其具体描述、特证名以及特征值拼接形成的提示词，所述要求提示词是指要求大语言模型做出特定输出要求的提示词；

5.根据权利要求1所述的基于大语言模型的无标签医疗表格数据学习方法，其特征在于，所述利用大语言模型基于提示词数据集为每条记录标注伪标签，包括：

6.根据权利要求1所述的基于大语言模型的无标签医疗表格数据学习方法，其特征在于

7.根据权利要求1所述的基于大语言模型的无标签医疗表格数据学习方法，其特征在于，还包括对参数优化的分类模型进行第一预测准确率测试，具体为：将测试用的医疗表格数据进行预处后作为样本输入至参数优化的分类模型中预测生成预测分类任务标签，并比较预测的分类任务标签与样本的真实分类标签来计算第一预测准确率。

8.根据权利要求7所述的基于大语言模型的无标签医疗表格数据学习方法，其特征在于，还包括利用带有真实分类标签的医疗表格数据对分类模型进行监督训练，并对监督训练的分类模型进行第二预测准确率测试，比较第一预测准确率与第二预测准确来验证无标签医疗表格数据学习方法的效果。

9.一种基于大语言模型的无标签医疗表格数据学习装置，其特征在于，包括数据获取及预处理模块、提示词生成模块、伪标签标注模块、有噪声数据学习模块；

10.一种计算设备，包括存储器、处理器以及存储在存储器中并可在处理器上执行的计算机程序，其特征在于，处理器执行计算机程序时实现权利要求1-8任一项所述的基于大语言模型的无标签医疗表格数据学习方法步骤。

...

【技术特征摘要】

1.一种基于大语言模型的无标签医疗表格数据学习方法，其特征在于，包括以下步骤：

6.根据权利要求1所述的基于大语言模型的无标签医疗表格数据学习方法，其特征在于，所述分...

【专利技术属性】
技术研发人员：吴健，胡朝文，颜家欢，郑波，徐红霞，
申请(专利权)人：浙江大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人