System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于微调大模型的智能导诊方法技术_技高网

一种基于微调大模型的智能导诊方法技术

技术编号:40021850 阅读:11 留言:0更新日期:2024-01-16 16:53
本发明专利技术公开了一种基于微调大模型的智能导诊方法,包括以下步骤:S1:首选采用Scrapy和OpenRefine方法对专业医疗期刊、医疗专业书籍、临床路径规范、互联网问诊数据和电子病历数据进行数据获取与数据清洗。本发明专利技术通过利用大量的医疗数据做训练,能够提升导诊覆盖的疾病种类,可以大量减少专业医生建立知识图谱的工作量,且患者可以用自然语言、人机交流的方式实现导诊,且通过对微调大模型进行改进可以提高导诊的准确性,特别是同一种症状表现多种疾病的情况下能更准确的判断患者的就诊科室。

【技术实现步骤摘要】

本专利技术涉及智能导诊,尤其涉及一种基于微调大模型的智能导诊方法


技术介绍

1、智能导诊是一种利用人工智能技术来辅助代替导诊护士或者医护人员来对患者进行就诊引导的技术,主要围绕的是患者输入或者选择症状表现后导诊介质可以最终给患者就诊建议,如建议去内科诊室就诊;

2、现有智能导诊技术主要是基于知识图谱检索或症状关键词匹配的方式来检索或匹配对应的科室,在使用过程中存在以下问题:1、基于知识图谱的检索多数情况下患者需要按照系统提示操作或者回答,若超出图谱的选项范围系统则会出现无法理解的情况,最终也无法给出对应的导诊建议;2、关键词匹配的方案存在医疗专业术语与日常用语差异较大的情况导致机器无法理解,如医疗术语腹泻日常用语可能用拉肚子来描述,当患者输入或者说拉肚子时导诊系统可能无法准确理解患者的症状有可能出现无法导诊的情况;3、基于知识图谱的智能导诊方法需要耗费大量人力物力去建立知识图谱,且知识图谱的建立非常依赖专业的医生,图谱的数量与覆盖疾病范围相对有限;综合上述情况,因此我们提出了一种基于微调大模型的智能导诊方法。


技术实现思路

1、基于
技术介绍
存在的技术问题,本专利技术提出了一种基于微调大模型的智能导诊方法。

2、本专利技术提出的一种基于微调大模型的智能导诊方法,包括以下步骤:

3、s1:首选采用scrapy和openrefine方法对专业医疗期刊、医疗专业书籍、临床路径规范、互联网问诊数据和电子病历数据进行数据获取与数据清洗;

4、s2:采用openrefine方法对s1中获取数据中病症的症状表现进行去重,先对同一症状表现不同的口语表达进行标注处理,且对标注的数据增加专业医学术语标签,通过识别不同的症状表现,但是相同标签的识别为重复项,做去重处理;

5、s3:采用transformer作为预训练模型,transformer作为自然语言处理模型,采用大量真实患者的导诊语料结合s2中所述的病症标注数据进行训练,理解口语的同时保持了模型输出的专业性;

6、s4:根据导诊场景的业务特点采用7b模型作为模型的参数量,并设计模型的具体结构,确保模型的准确率的同时降低模型训练的硬件资源要求;

7、s5:将s3中预训练后的模型数据划分为多个子集,并结合s4中所述的模型结构和参数量,进行多卡并行训练;

8、s6:使用独立的测试集评估s5中训练后的模型的性能,通过模型整体的准确率评估函数tp(x)和精确率函数ap(x)两个维度对模型进行评估,选取20%样本数据作为评估样本,通过两个函数计算模型的整体的问诊表现以及针对各个疾病问诊的精确性进行评估;

9、s7:邀请专业医生与专家对问诊模型进行回答数据标注,数据标准对模型的每个回答正确性分为3个标准,分别是正相关、不相关、负相关;针对整个问诊过程给予两个标注,完整、不完整;比分权重每个症状回答正相关为3分,不相关1分,负相关-1分;问诊过程完整性3分,不完整0分;选取完整性评分为3的问诊数据,再选取问诊准确性不包含负相关标注数据,根据s6中所述的评估结果采用批量微调batch fine-tuning微调方法对微调数据进行再次训练,改进问诊模型的性能;

10、s8:患者输入或者使用自然语言与s7中改进问诊模型后的智能导诊交流时,问诊模型对患者交流的信息进行识别,并给患者提出就诊建议。

11、优选地,所述s1中,医疗期刊、医疗专业书籍和临床路径规范清洗后的数据作为模型训练的种子任务,互联问诊数据与电子病历数据做为模型微调数据。

12、优选地,所述s6中,精确率函数ap(x)为:ap=[tc1/(tc1+fc1)]+[tc2/(tc2+fc2)]+…+[tcn/(tcn+fcn)]/n,其中tc表示每次问诊过程模型回答的正确的症状数量,fc表示每次问诊过程模型回答的疾病不相关的症状数量,n表示问诊的总次数。

13、优选地,所述s6中,准确率评估函数tp(x)为:tp=tc/(tc+fc),其中tp代表导诊的准确率,tc代表模型导诊正确次数,fc代表模型导诊错误的次数,tc的统计方式为将已知疾病的若干个症状输入到模型中,最终模型输出的导诊建议是否为疾病所属的科室,如果是则tc=tc+1,不是则tc=tc;相反fc的统计方式为将已知疾病的若干个症状输入到模型中,最终模型输出的导诊建议是否为疾病所属的科室是则fc=fc,不是则fc=fc+1。

14、优选地,所述s7中,batch fine-tuning微调方法的函数公式为:f(x;
heta)=g(h(x;\phi),w),其中,f是最终的预测函数,x是输入数据,
heta是模型的参数,g是任务特定的函数,h是预训练模型的输出函数,\phi是预训练模型的参数,w是任务特定函数的参数。

15、与现有的技术相比,本专利技术的有益效果是:

16、本专利技术通过利用大量的医疗数据做训练,能够提升导诊覆盖的疾病种类,可以大量减少专业医生建立知识图谱的工作量,且患者可以用自然语言、人机交流的方式实现导诊,且通过对微调大模型进行改进可以提高导诊的准确性,特别是同一种症状表现多种疾病的情况下能更准确的判断患者的就诊科室。

本文档来自技高网...

【技术保护点】

1.一种基于微调大模型的智能导诊方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于微调大模型的智能导诊方法,其特征在于,所述S1中,医疗期刊、医疗专业书籍和临床路径规范清洗后的数据作为模型训练的种子任务,互联问诊数据与电子病历数据做为模型微调数据。

3.根据权利要求1所述的一种基于微调大模型的智能导诊方法,其特征在于,所述S6中,精确率函数AP(X)为:AP=[TC1/(TC1+FC1)]+[TC2/(TC2+FC2)]+…+[TCn/(TCn+FCn)]/N,其中TC表示每次问诊过程模型回答的正确的症状数量,FC表示每次问诊过程模型回答的疾病不相关的症状数量,N表示问诊的总次数。

4.根据权利要求1所述的一种基于微调大模型的智能导诊方法,其特征在于,所述S6中,准确率评估函数TP(X)为:TP=TC/(TC+FC),其中TP代表导诊的准确率,TC代表模型导诊正确次数,FC代表模型导诊错误的次数,TC的统计方式为将已知疾病的若干个症状输入到模型中,最终模型输出的导诊建议是否为疾病所属的科室,如果是则TC=TC+1,不是则TC=TC;相反FC的统计方式为将已知疾病的若干个症状输入到模型中,最终模型输出的导诊建议是否为疾病所属的科室是则FC=FC,不是则FC=FC+1。

5.根据权利要求1所述的一种基于微调大模型的智能导诊方法,其特征在于,所述S7中,Batch Fine-tuning微调方法的函数公式为:f(x;\theta)=g(h(x;\phi),w),其中,f是最终的预测函数,x是输入数据,\theta是模型的参数,g是任务特定的函数,h是预训练模型的输出函数,\phi是预训练模型的参数,w是任务特定函数的参数。

...

【技术特征摘要】

1.一种基于微调大模型的智能导诊方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于微调大模型的智能导诊方法,其特征在于,所述s1中,医疗期刊、医疗专业书籍和临床路径规范清洗后的数据作为模型训练的种子任务,互联问诊数据与电子病历数据做为模型微调数据。

3.根据权利要求1所述的一种基于微调大模型的智能导诊方法,其特征在于,所述s6中,精确率函数ap(x)为:ap=[tc1/(tc1+fc1)]+[tc2/(tc2+fc2)]+…+[tcn/(tcn+fcn)]/n,其中tc表示每次问诊过程模型回答的正确的症状数量,fc表示每次问诊过程模型回答的疾病不相关的症状数量,n表示问诊的总次数。

4.根据权利要求1所述的一种基于微调大模型的智能导诊方法,其特征在于,所述s6中,准确率评估函数tp(x)为:...

【专利技术属性】
技术研发人员:张建彬缪超
申请(专利权)人:厦门狄耐克物联智慧科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1