医疗模型的训练方法技术

技术编号:39837672 阅读:27 留言:0更新日期:2023-12-29 16:23
本公开提供了一种医疗模型的训练方法

【技术实现步骤摘要】
医疗模型的训练方法、医疗方法、装置、设备及存储介质


[0001]本公开涉及数据处理
,具体涉及深度学习

自然语言识别

生成式模型

大语言模型等人工智能
,尤其涉及一种医疗模型的训练方法

医疗方法

装置

设备及存储介质


技术介绍

[0002]随着生活水平的提高和人口老龄化日趋严重,疾病的种类和数量也在增加,这进一步加剧了医疗资源的需求,使得医疗资源不足的问题也变得更加严峻

而大型语言模型
(LLM

Large Language Model
,其本质是生成式模型,也简称为生成式大语言模型
)
已经展现了强大的
NLP(Natural Language Processing
,自然语言处理
)
理解和生成能力


技术实现思路

[0003]本公开提供了一种医疗模型的训练方法
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种医疗模型的训练方法,包括:获取初始数据集;对所述初始数据集进行数据清洗以及观点整理,得到目标数据集;对于预先确定的不同医疗场景中的每个医疗场景,从所述目标数据集中确定该医疗场景对应的训练数据;利用确定的训练数据对初始医疗模型进行训练,得到该医疗场景对应的目标医疗模型
。2.
根据权利要求1所述的方法,其中,所述初始数据集包括:视频

音频和
/
或书籍;所述目标数据集包括:清洗后的数据集;以及所述对所述初始数据集进行数据清洗以及观点整理,得到目标数据集,包括:对所述视频

音频和
/
或书籍进行数据清洗,得到清洗后的数据集,所述清洗后的数据集包括:文本形式的数据和
/
或树状大纲;对所述清洗后的数据集进行观点整理,得到目标数据集
。3.
根据权利要求2所述的方法,其中,所述对所述视频

音频和
/
或书籍进行数据清洗,得到清洗后的数据集,包括:利用光学字符识别技术,将所述视频转化为文本形式的数据;和
/
或利用自动语音识别技术,将所述音频转化为文本形式的数据;和
/
或将所述书籍的内容解析为树状大纲,并将所述书籍的内容与所述树状大纲中的节点相对应
。4.
根据权利要求3所述的方法,其中,所述初始数据集还包括:目标对象发布的图文内容;所述目标数据集还包括:短观点和长观点;以及所述对所述清洗后的数据集进行观点整理,得到目标数据集,包括:基于大语言模型生成所述清洗后的数据集对应的问答对,记为短观点;基于所述问答对以及所述图文内容,生成内容初稿,记为长观点
。5.
根据权利要求2所述的方法,其中,还包括:将所述清洗后的数据集和所述长观点

所述短观点进行整合以及向量化,得到知识向量库
。6.
根据权利要求5所述的方法,其中,所述将所述清洗后的数据集和所述长观点

所述短观点进行整合以及向量化,得到知识向量库,包括:基于所述短观点将所述清洗后的数据集划分为至少一个片段;将所述片段与所述长观点转化为语义向量,得到所述知识向量库
。7.
根据权利要求6所述的方法,其中,还包括:为所述知识向量库中的每个语义向量构建语义索引
。8.
根据权利要求1所述的方法,其中,还包括:获取医疗数据集,其中,所述医疗数据集中包括至少一个医疗信息;基于意图识别方法,分别确定所述至少一个医疗信息对应的意图信息,得到意图数据集;基于所述意图数据集构建不同医疗场景
。9.
根据权利要求1所述的方法,其中,所述从所述目标数据集中确定该医疗场景对应的
训练数据,包括:根据当前医疗场景的信息,从所述目标数据集中确定所述当前医疗场景对应的原始数据信息;对所述原始数据信息的意图标签进行替换,得到替换后的数据信息;基于所述原始数据信息以及所述替换后的数据信息,得到所述当前医疗场景对应的训练数据
。10.
一种医疗方法,包括:获取医疗信息;将所述医疗信息输入至预先训练的医疗模型中,输出得到医疗结果,其中,所述医疗模型采用如权利要求1‑9中任一项所述的方法训练得到
。11.
根据权利要求
10
所述的方法,其中,所述将所述医疗信息输入至预先训练的医疗模型中,输出得到医疗结果,包括:确定所述医疗信息对应的目标医疗场景,以及所述目标医疗场景对应的目标医疗模型;将所述医疗信息输入至所述目标医疗模型中,输出得到所述医疗结果
。12.
一种数字医生医疗模型的训练方法,包括:获取初始数据集,所述初始数据集包括:医生发布的音频数据

视频数据和
/
或书籍;对所述初始数据集进行数据清洗以及观点整理,得到目标数据集;对于预先确定的不同医疗场景中的每个医疗场景,从所述目标数据集中确定该医疗场景对应的训练数据;利用确定的训练数据对初始数字医生医疗模型进行训练,得到该医疗场景对应的目标数字医生医疗模型
。13.
根据权利要求
12
所述的方法,其中,所述初始数据集还包括:医生发布的图文内容;以及所述对所述初始数据集进行数据清洗以及观点整理,得到目标数据集,包括:对所述视频

音频和
/
或书籍进行数据清洗,得到清洗后的数据集,所述清洗后的数据集包括:文本形式的数据和
/
或树状大纲;对所述清洗后的数据集以及所述医生发布的图文内容进行观点整理,得到目标数据集
。14.
根据权利要求
12
所述的方法,其中,还包括:获取医疗数据集,其中,所述医疗数据集中包括至少一个医疗信息;基于意图识别方法,分别确定所述至少一个医疗信息对应的意图信息,得到意图数据集;基于所述意图数据集构建不同的医疗场景,其中,所述医疗场景包括以下至少一项:科普问答

查找案例

找文章或视频

医疗信息
。15.
根据权利要求
14
所述的方法,其中,还包括:为不同医疗场景设置对应的开始信息以及结束信息;响应于当前医疗场景为预设医疗场景,生成对应的提示信息
。16.
一种数字医生系统,包括:至少一个数字医生医疗模型,所述医疗模型采用如权利要求
12

15
所述的方法训练得

。17.
一种医疗模型的训练装置,包括:第一获取模块,被配置成获取初始数据集;第一清洗模块,被配置成对所述初始数据集进行数据清洗以及观点整理,得到目标数...

【专利技术属性】
技术研发人员:张小羽
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1