当前位置: 首页 > 专利查询>浙江大学专利>正文

基于大语言模型与知识蒸馏的随访数据采集方法和系统技术方案

技术编号:42090825 阅读:49 留言:0更新日期:2024-07-19 17:04
本发明专利技术公开了一种基于大语言模型与知识蒸馏的随访数据采集方法和系统,方法包括以下步骤:根据随访表单中的条目生成提示并输入大语言模型,将生成的问题发送给用户并获取用户回答;根据问答的短期对话历史和长期对话历史的相似度筛选相关对话历史;将大语言模型作为教师模型并生成标注对话数据集,结合下游任务对作为学生模型的意图提取语言模型进行知识蒸馏;基于短期对话历史、相关对话历史和条目信息,使用知识蒸馏后的意图提取语言模型提取用户意图;逐条直至最终完成整个随访表单的随访数据采集。本发明专利技术能够实现高对话效率、高数据质量和低算力开销的随访数据采集,适用于患者院外随访数据采集等多种医疗数据采集应用场景。

【技术实现步骤摘要】

本专利技术属于医疗数据采集,具体涉及一种基于大语言模型与知识蒸馏的随访数据采集方法和系统


技术介绍

1、患者的随访数据能够客观地反映患者对于治疗手段的主观感受,被广泛应用于药物评估、不良事件监测等多个临床应用场景。早期研究通过纸质表单收集随访信息,然而这种方法面临数据一致性以及交互即时性的问题。随着个人电脑、智能手机等电子交互媒介的普及,电子表单随访数据采集系统通过在移动平台与患者交互,并将数据结构化存储,有效地突破了先前的困境。然而,电子表单的滥用使得患者对该类交互产生疲劳,并且单向输入信息缺乏足够的反馈维持患者对系统的依从性,此外,一些涉及隐私的随访内容可能引起患者的抵触或者迷惑,在缺乏澄清的情况下进一步降低了患者的依从性。

2、近年来,dialogueflow等聊天机器人低代码构建平台的兴起使得构建规则问答的随访数据采集对话系统成为了可能,通过人为定义规则和知识库,对话系统可以帮助患者在问答过程中获得额外的信息,并得到鼓励和反馈。一些研究认为对话系统能够简化操作,便于与用户建立深度关系,从而提高用户依从度和数据质量,然而,规则式对话系统本文档来自技高网...

【技术保护点】

1.一种基于大语言模型与知识蒸馏的随访数据采集方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于大语言模型与知识蒸馏的随访数据采集方法,其特征在于,所述问题生成提示包括人格提示和条目提示,人格提示用于构建具有特定人格特质的提问者并遵循预设规则生成问题,预设规则包括目标、交流方式和注意事项,条目提示用于确定每个问题的标识和属性,标识包括问题内容和选项列表,属性包括设定是否为必答题。

3.根据权利要求1所述的基于大语言模型与知识蒸馏的随访数据采集方法,其特征在于,所述根据短期对话历史和长期对话历史的相似度对短期对话历史进行筛选得到相关对话历史,包括:...

【技术特征摘要】

1.一种基于大语言模型与知识蒸馏的随访数据采集方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于大语言模型与知识蒸馏的随访数据采集方法,其特征在于,所述问题生成提示包括人格提示和条目提示,人格提示用于构建具有特定人格特质的提问者并遵循预设规则生成问题,预设规则包括目标、交流方式和注意事项,条目提示用于确定每个问题的标识和属性,标识包括问题内容和选项列表,属性包括设定是否为必答题。

3.根据权利要求1所述的基于大语言模型与知识蒸馏的随访数据采集方法,其特征在于,所述根据短期对话历史和长期对话历史的相似度对短期对话历史进行筛选得到相关对话历史,包括:

4.根据权利要求1所述的基于大语言模型与知识蒸馏的随访数据采集方法,其特征在于,所述将大语言模型作为教师模型并生成标注对话数据集,结合下游任务对作为学生模型的意图提取语言模型进行知识蒸馏,包括:

5.根据权利要求1或4所述的基于大语言模型与知识蒸馏的随访数据采集方法,其特征在于,所述下游任务包括多标签分类任务、语义匹配任务和对比学习任务。

6.根据权利要求1或4所述的基于大语言模型与知识蒸馏的随访数据采集方法,其特征在于,所述...

【专利技术属性】
技术研发人员:吕旭东陈子康段会龙蔡海领
申请(专利权)人:浙江大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1