医疗大模型构建方法、装置、计算机设备及介质制造方法及图纸

技术编号：40603041 阅读：6 留言：0更新日期：2024-03-12 22:08

本发明专利技术公开了一种医疗大模型构建方法、装置、计算机设备及介质，包括：通过方向控制模型为大模型生成内容进行方向控制，确定生成方向，其中，方向控制模型为文本分类模型；采用骨架控制模型进行医疗信息抽取识别，构建融入大模型融入知识图谱的事实知识；通过模型控制网络将生成方向和事实知识融入到大模型网络中，进行文本处理，得到文本处理结果。实现将知识图谱包含的事实知识融入大语言模型中，提升大语言模型生成的准确性，有利于提升文本识别分类的准确性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及自然语言处理，尤其涉及一种医疗大模型构建方法、装置、计算机设备及介质。

技术介绍

1、随着人工智能技术的发展，自然语言处理技术得到了广泛的应用，目前大语言模型在自然语言处理任务上表现优异，如机器翻译、文本问答等任务。

2、专利技术人在实现本专利技术的过程中，意识到现有技术至少存在如下技术问题：但是大语言模型的一个不可避免的问题是缺乏事实知识，会经常生成错误的信息，从而产生幻觉，阻碍了模型的可信度，使得文本分类识别不够准确。

技术实现思路

1、本专利技术实施例提供一种医疗大模型构建方法、装置、计算机设备和存储介质，以提高文本分类的准确性。

2、为了解决上述技术问题，本申请实施例提供一种医疗大模型构建方法，所述医疗大模型构建方法包括：

3、通过方向控制模型为大模型生成内容进行方向控制，确定生成方向，其中，所述方向控制模型为文本分类模型；

4、采用骨架控制模型进行医疗信息抽取识别，构建融入大模型融入知识图谱的事实知识；

5、通过模型控制网络将所述生成方向和所述事实知识融入到大模型网络中，进行文本处理，得到文本处理结果。

6、可选地，所述方向控制模型采用改进的bert模型作为基础模型，所述通过方向控制模型为大模型生成内容进行方向控制，确定生成方向包括：

7、将输入内容的每个句首加上预设标识，作为一个整体信息；

8、将每个所述整体信息经过改进的bert模型后，输出表征整体信息的句子向量；

9、采用线性层和归一化层对所述句子向量进行线性化和归一化，得到所述句子向量属于各个类别的概率，将概率数值最大的类别，作为生成方向。

10、可选地，所述模型控制网络包括两个多层感知机层mlp和一个transformerencoder层。

11、可选地，所述医疗大模型构建方法还包括：

12、将训练语料经过方向控制模型和骨架控制模型，得到输入语料x和三元组c；

13、将训练语料x输入基础模型，得到第一输出y1:

14、y1＝f(x；θ)

15、其中,θ表示基础模型参数，f(；θ)表示基础模型关于参数θ的函数，x表示输入；

16、将所述三元组c经过第一层所述多层感知机层mlp，并与输入语料x叠加，得到新的输入x′，将所述新的输入x′经过第二层所述多层感知机层mlp，得到第二输出y2；

17、将所述第一输出和所述第二输出进行叠加，得到目标输出；

18、基于所述训练语料对应的真实值和所述目标输出，对所述方向控制模型、骨架控制模型和模型控制网络进行训练。

19、可选地，所述基础模型在训练过程中冻结参数。

20、可选地，所述采用骨架控制模型进行医疗信息抽取识别，构建融入大模型融入知识图谱的事实知识包括：

21、采用知识图谱包含的结构化医疗知识节点或关系，对大模型生成内容进行骨架控制，确定所述事实知识。

22、为了解决上述技术问题，本申请实施例还提供一种医疗大模型构建装置，包括：

23、方向控制模块，用于通过方向控制模型为大模型生成内容进行方向控制，确定生成方向，其中，所述方向控制模型为文本分类模型；

24、骨架控制模块，用于采用骨架控制模型进行医疗信息抽取识别，构建融入大模型融入知识图谱的事实知识；

25、网络控制模块，用于通过模型控制网络将所述生成方向和所述事实知识融入到大模型网络中，进行文本处理，得到文本处理结果。

26、可选地，所述方向控制模型采用改进的bert模型作为基础模型，所述方向控制模块包括：

27、整体标识单元，用于将输入内容的每个句首加上预设标识，作为一个整体信息；

28、句子表征单元，用于将每个所述整体信息经过改进的bert模型后，输出表征整体信息的句子向量；

29、类别确定单元，用于采用线性层和归一化层对所述句子向量进行线性化和归一化，得到所述句子向量属于各个类别的概率，将概率数值最大的类别，作为生成方向。

30、可选地，所述医疗大模型构建装置还包括：

31、语料解析模块，用于将训练语料经过方向控制模型和骨架控制模型，得到输入语料x和三元组c；

32、第一识别模块，用于将训练语料x输入基础模型，得到第一输出y1:

33、y1＝f(x；θ)

34、其中,θ表示基础模型参数，f(；θ)表示基础模型关于参数θ的函数，x表示输入；

35、第二识别模块，用于将所述三元组c经过第一层所述多层感知机层mlp，并与输入语料x叠加，得到新的输入x′，将所述新的输入x′经过第二层所述多层感知机层mlp，得到第二输出y2；

36、输出确定模块，用于将所述第一输出和所述第二输出进行叠加，得到目标输出；

37、迭代训练模块，用于基于所述训练语料对应的真实值和所述目标输出，对所述方向控制模型、骨架控制模型和模型控制网络进行训练。

38、为了解决上述技术问题，本申请实施例还提供一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述医疗大模型构建方法的步骤。

39、为了解决上述技术问题，本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述医疗大模型构建方法的步骤。

40、本专利技术实施例提供的医疗大模型构建方法、装置、计算机设备及存储介质，通过方向控制模型为大模型生成内容进行方向控制，确定生成方向，其中，方向控制模型为文本分类模型；采用骨架控制模型进行医疗信息抽取识别，构建融入大模型融入知识图谱的事实知识；通过模型控制网络将生成方向和事实知识融入到大模型网络中，进行文本处理，得到文本处理结果。实现将知识图谱包含的事实知识融入大语言模型中，提升大语言模型生成的准确性，有利于提升文本识别分类的准确性。

本文档来自技高网...

【技术保护点】

1.一种医疗大模型构建方法，其特征在于，包括：

2.如权利要求1所述的医疗大模型构建方法，其特征在于，所述方向控制模型采用改进的Bert模型作为基础模型，所述通过方向控制模型为大模型生成内容进行方向控制，确定生成方向包括：

3.如权利要求2所述的医疗大模型构建方法，其特征在于，所述模型控制网络包括两个多层感知机层MLP和一个Transformer encoder层。

4.如权利要求3所述的医疗大模型构建方法，其特征在于，所述医疗大模型构建方法还包括：

5.如权利要求4所述的医疗大模型构建方法，其特征在于，所述基础模型在训练过程中冻结参数。

6.如权利要求1至5任一项所述的医疗大模型构建方法，其特征在于，所述采用骨架控制模型进行医疗信息抽取识别，构建融入大模型融入知识图谱的事实知识包括：

7.一种医疗大模型构建装置，其特征在于，所述医疗大模型构建装置包括：

8.如权利要求7所述的医疗大模型构建装置，其特征在于，所述方向控制模型采用改进的Bert模型作为基础模型，所述方向控制模块包括：

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的医疗大模型构建方法。

...

【技术特征摘要】

1.一种医疗大模型构建方法，其特征在于，包括：

2.如权利要求1所述的医疗大模型构建方法，其特征在于，所述方向控制模型采用改进的bert模型作为基础模型，所述通过方向控制模型为大模型生成内容进行方向控制，确定生成方向包括：

3.如权利要求2所述的医疗大模型构建方法，其特征在于，所述模型控制网络包括两个多层感知机层mlp和一个transformer encoder层。

4.如权利要求3所述的医疗大模型构建方法，其特征在于，所述医疗大模型构建方法还包括：

5.如权利要求4所述的医疗大模型构建方法，其特征在于，所述基础模型在训练过程中冻结参数。

6.如权利要求1至5任一项所述的医疗大模型构建方法，其特征在于，所述采用骨...

【专利技术属性】
技术研发人员：刘磊，邱建华，刘伟华，马金民，李林，
申请(专利权)人：北京智慧眼信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人