一种心理健康筛查辅助诊断及对话数据集生成方法技术

技术编号：41067536 阅读：3 留言：0更新日期：2024-04-24 11:22

本发明专利技术公开了一种心理健康筛查辅助诊断及对话数据集生成方法，包括：S1、基于已有开源大语言模型来构建医生专业大语言模型；S2、使用所述医生专业大语言模型来模拟医生角色向模拟真实人群画像的患者发起对话，记录对话内容，得到心理异常疾病量表辅助诊断对话数据集。通过使用医生专业大语言模型来模拟医生角色向模拟真实人群画像的患者发起对话，记录对话内容，从而能够大量生成不同抑郁症人群，不同背景画像下的医生患者对话数据实例，有助于相关心理异常类疾病的标准化量表辅助诊断方法的研究和实施。因而可对抑郁症等心理疾病在人群的大规模筛查、门诊诊断效率提升产生十分重要的意义。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及智慧医疗技术，具体涉及一种心理健康筛查辅助诊断及对话数据集生成方法。

技术介绍

1、准确地进行抑郁症的诊断对于治疗和康复至关重要。然而，传统的抑郁症诊断方法主要依赖于临床医生的判断，部分生化检查和辅助量表的筛查结果。在医疗资源缺乏的地区不利于人民群众对于心理类疾病的快速筛查和干预，易于更为严重的后果。

2、为了解决这一问题，可以利用大语言模型和数字人技术对抑郁症等心理疾病进行自动化量表辅助诊断具有重要的意义。通过分析患者在临床就诊过程中的量表诊断对话数据，可以提取出关键的语义特征和情感指标，从而为抑郁症的辅助快速诊断筛查提供客观、准确、高效的方法。然而，现有的抑郁症诊断对话数据集较为有限，数据样本较少且缺乏人群的多样性。这限制了对抑郁症诊断算法的训练和优化。

3、目前现有抑郁症诊断对话已公开的数据集还较少，通过现今已有的方式进行对话数据收集及抑郁症辅助诊断主要存在以下问题：

4、1、通过门诊或网上留言的方式进行收集速度较慢，很难收集到大量、不同患者画像群体的对话数据。

5、2、基于机器学习等计算机大数据技术的抑郁症诊断方法，由于相关算法技术具有一定的不可解释性，该黑箱特性不利于其在医疗领域这种需要向病人解释并负责的领域推广使用。

6、3、基于状态机、知识图谱的传统计算机技术的方式主要依赖于预先定义的规则和结构化知识，生成数据需要提前针对性地大量输入人群画像知识图谱的语义信息进行患者人群画像的扩充，效率仍然较低。

7、4、传统咨询聊天机器人的回答

技术实现思路

1、本专利技术的目的在于克服上述现有技术的不足，提供一种心理健康筛查辅助诊断及对话数据集生成方法，以丰富抑郁症诊断对话数据集，为相关研究和临床实践提供宝贵资源

2、为实现上述目的，本专利技术的技术方案是：

3、一种心理健康筛查辅助诊断及对话数据集生成方法，包括：

4、s1、基于已有开源大语言模型来构建医生专业大语言模型；

5、s2、使用所述医生专业大语言模型来模拟医生角色向模拟真实人群画像的患者发起对话，记录对话内容，得到心理异常疾病量表辅助诊断对话数据集。

6、进一步地，所述步骤s1包括：

7、所述开源大语言模型的基础架构为transformer，包括多头自注意力机制、相对位置编码，前馈神经网络；所述多头自注意力机制用于关注输入文本的的部分，同时生成输出中的每个单词；所述多头自注意力机制通过计算输入序列中不同位置的之间的交互和关联性，捕捉上下文信息；所述相对位置编码用于捕捉输入序列中不同位置之间的相对距离；所述前馈神经网络用于对每个位置的隐藏状态进行非线性变换和特征映射；

8、使用已公开的抑郁症门诊对话数据集调整所述开源大语言模型，通过数据集中的患者与医生的对话-回答数据对，进行模型自监督训练；

9、在调整的过程中，设定损失函数，并通过反向传播算法计算损失函数对模型参数的梯度，并使用优化器来更新模型的参数，以使模型逐渐优化；

10、采用lora对优化后的开源大语言模型进行调整，得到最终的模拟医生专业大语言模型。

11、进一步地，所述多头自注意力机制通过计算输入序列中不同位置的之间的交互和关联性的计算过程表示如下：

12、attention(q,k,v)＝softmax((qk^t+dk^t)/sqrt(d_k))v

13、其中，q、k和v分别表示输入序列的查询、键和值，d_k表示每个注意力头部的维度。

14、进一步地，所述相对位置编码用于捕捉输入序列中不同位置之间的相对距离的相对位置编码的计算通过如下的公式表示：

15、pe_{(pos,2i)}＝sin(pos/10000^(2i/d_model))

16、pe_{(pos,2i+1)}＝cos(pos/10000^(2i/d_model))

17、其中，pe_{(pos,2i)}和pe_{(pos,2i+1)}分别表示位置pos和维度2i、2i+1的相对位置编码；d_model表示模型的维度。

18、进一步地，所述前馈神经网络用于对每个位置的隐藏状态进行非线性变换和特征映射的计算过程表示如下：

19、fn(x)＝max(0,xw_1+b_1)w_2+b_2

20、其中，x表示输入的隐藏状态，w_1、w_2、b_1和b_2是模型的参数。

21、进一步地，所述lora的基本原理是冻结预训练好的模型权重参数，在冻结原模型参数的情况下，通过往模型中加入额外的网络层，并只训练这些新增的网络层参数；此时的损失函数表示为：

22、loss＝loss_task_specific_head+λ*loss_pretrained_model

23、其中，loss_task_specific_head是任务特定头部网络的损失函数，loss_pretrained_model是预训练模型的损失函数，采用预先定义好的损失函数：

24、l(θ)＝-∑[y*log(p)+(1-y)*log(1-p)]

25、其中，θ是模型的参数，y是标签，p是模型预测的概率；λ是两个损失函数的权重系数，用于平衡两者的重要性；通过反向传播和参数更新，模型会不断优化自己的权重和偏置，使其更好地适应特定的任务。

26、进一步地，所述步骤s2包括：

27、s2.1、通过所述医生专业大语言模型的prompt提示词设置患者的人群画像，以效模拟不同背景画像的抑郁症人群生成多样化的对话；

28、s2.2、在抑郁门诊模拟对话开始时，向用户提出采集基本信息的固定问题；

29、s2.3、按既定策略从预设量表问题库中抽取若干问题，构建抑郁门诊对话的主问题流；在若干轮医生与患者的模拟对话中自动插入临床诊断用量表问题，按顺序将主问题流中的问题结合所述医生专业大语言模型的生成内容输出给用户，当主问题流中问题没有剩余并且相应后续步骤执行完毕时，该次门诊对话结束；

30、s2.4、接受到用户的回答之后，记录对话数据。

31、进一步地，所述方法还包括：

32、s3、对所述心理异常疾病量表辅助诊断对话数据集进行量化评估，包括：

33、s3.1、调用所述医生专业大语言模型进行打分，通过抽取患者回答关键信息的语义作为量表打分的依据，记录对应的打分结果作为后续量表辅助诊断的依据；

34、s3.2、若患者回答的信息模糊、无法准确评估其回答的有效性，再次使用医生专业大语言模型重新发起对话进行提问，并提示患者上一轮回答中没有让其理解；

35、s3.3、当步骤s2.3中主问题流还有剩余本文档来自技高网...

【技术保护点】

1.一种心理健康筛查辅助诊断及对话数据集生成方法，其特征在于，包括：

2.如权利要求1所述的心理健康筛查辅助诊断及对话数据集生成方法，其特征在于，所述步骤S1包括：

3.如权利要求2所述的心理健康筛查辅助诊断及对话数据集生成方法，其特征在于，所述多头自注意力机制通过计算输入序列中不同位置的之间的交互和关联性的计算过程表示如下：

4.如权利要求2所述的心理健康筛查辅助诊断及对话数据集生成方法，其特征在于，所述相对位置编码用于捕捉输入序列中不同位置之间的相对距离的相对位置编码的计算通过如下的公式表示：

5.如权利要求2所述的心理健康筛查辅助诊断及对话数据集生成方法，其特征在于，所述前馈神经网络用于对每个位置的隐藏状态进行非线性变换和特征映射的计算过程表示如下：

6.如权利要求2所述的心理健康筛查辅助诊断及对话数据集生成方法，其特征在于，所述LoRA的基本原理是冻结预训练好的模型权重参数，在冻结原模型参数的情况下，通过往模型中加入额外的网络层，并只训练这些新增的网络层参数；此时的损失函数表示为：

7.如权利要求1所

8.如权利要求7所述的心理健康筛查辅助诊断及对话数据集生成方法，其特征在于，所述方法还包括：

9.如权利要求8所述的心理健康筛查辅助诊断及对话数据集生成方法，其特征在于，所述方法还包括：

10.如权利要求9所述的心理健康筛查辅助诊断及对话数据集生成方法，其特征在于，所述方法还包括：

...

【技术特征摘要】

1.一种心理健康筛查辅助诊断及对话数据集生成方法，其特征在于，包括：

2.如权利要求1所述的心理健康筛查辅助诊断及对话数据集生成方法，其特征在于，所述步骤s1包括：

5.如权利要求2所述的心理健康筛查辅助诊断及对话数据集生成方法，其特征在于，所述前馈神经网络用于对每个位置的隐藏状态进行非线性变换和特征映射的计...

【专利技术属性】
技术研发人员：肖钧，刘天鑫，张通，陈俊龙，
申请(专利权)人：人工智能与数字经济广东省实验室广州，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人