作为医生代理的大语言模型的评测方法和装置制造方法及图纸

技术编号：41145544 阅读：3 留言：0更新日期：2024-04-30 18:13

本说明书实施例提供一种作为医生代理的大语言模型的评测方法和装置，方法包括：从预先构建的标准化患者信息中，获取患者代理的初始化患者问询语句；将所述初始化患者问询语句输入所述大语言模型，得到医生代理的反问问题；从所述反问问题抽取表征临床医学中的项目名称的键信息；根据所述键信息，从所述标准化患者信息中检索对应的值信息；当检索到值信息时，将所述值信息作为患者代理对所述反问问题的回答，再次输入所述大语言模型，以实现多轮对话；确定所述多轮对话对应于各评测指标的指标分数，所述指标分数用于衡量所述大语言模型在临床诊疗方面的能力。能够实现准确的自动化评测。

全部详细技术资料下载

【技术实现步骤摘要】

本说明书一个或多个实施例涉及计算机领域，尤其涉及作为医生代理的大语言模型的评测方法和装置。

技术介绍

1、gpt模型等一系列大语言模型（large language model，llm）的迅猛发展，为众多垂直领域带来了新的发展机遇和挑战。在医学领域，利用大语言模型具有的强大的文本理解生成能力，可以将大语言模型作为医生代理，通过医疗多轮问诊任务实现其与患者之间的多轮对话，通过多轮对话收集患者信息，并为患者提供精准、便捷的诊断和治疗建议。其中，患者信息属于隐私数据，需要保护隐私数据不会泄露。

2、大语言模型在提高医疗诊断的临床效率方面正受到越来越多的关注，为确保作为医生代理的大语言模型在临床应用中安全可靠，需要全面评测大语言模型在医疗多轮问诊任务上的性能表现。然而，目前的评测方法严重依赖人工参与，难以实现准确的自动化评测。

技术实现思路

1、本说明书一个或多个实施例描述了一种作为医生代理的大语言模型的评测方法和装置，能够实现准确的自动化评测。

2、第一方面，提供了一种作为医生代理的大语言模型的评测方法，方法包括：

3、从预先构建的标准化患者信息中，获取患者代理的初始化患者问询语句；

4、将所述初始化患者问询语句输入所述大语言模型，得到医生代理的反问问题；

5、从所述反问问题抽取表征临床医学中的项目名称的键信息；

6、根据所述键信息，从所述标准化患者信息中检索对应的值信息；

7、当检索到值信息时，将所述值

8、确定所述多轮对话对应于各评测指标的指标分数，所述指标分数用于衡量所述大语言模型在临床诊疗方面的能力。

9、在一种可能的实施方式中，所述从所述反问问题抽取表征临床医学中的项目名称的键信息，包括：

10、将所述反问问题输入作为患者代理的抽取模型，得到所述键信息；其中，所述抽取模型基于反问问题和键信息构成的训练样本进行微调。

11、进一步地，所述训练样本通过将所述标准化患者信息包含的键信息输入生成模型而得到。

12、在一种可能的实施方式中，所述方法还包括：

13、当未检索到值信息时，结束所述多轮对话。

14、在一种可能的实施方式中，所述键信息和对应的值信息包括如下至少一种：

15、症状名称和对应的症状描述；

16、检验项目和对应的报告；

17、检查项目和对应的报告。

18、在一种可能的实施方式中，所述评测指标包括：

19、用于考察医生代理从患者代理获取客观证据的能力的第一类指标；

20、所述第一类指标包括反问信息量和反问逻辑性中的至少一种；

21、所述反问信息量通过是否检索到所述值信息确定相应的指标分数；

22、所述反问逻辑性通过比对所述反问问题与所述标准化患者信息中包括的医学规则和逻辑顺序确定相应的指标分数。

23、在一种可能的实施方式中，所述多轮对话中包括医生代理的诊断结果；所述评测指标包括：

24、用于考察医生代理推理出诊断结果的能力的第二类指标；

25、所述第二类指标包括诊断准确度、诊断信息量中的至少一种；

26、所述诊断准确度通过所述诊断结果是否与所述标准化患者信息中包括的标准诊断结果相一致而确定；

27、所述诊断信息量通过所述诊断结果与所述标准诊断结果的关键词匹配数目而确定。

28、在一种可能的实施方式中，所述多轮对话中包括医生代理的治疗方案；所述评测指标包括：

29、用于考察医生代理给出治疗方案的能力的第三类指标；

30、所述第三类指标包括治疗方案准确度、治疗信息量中的至少一种；

31、所述治疗方案准确度通过所述治疗方案是否与所述标准化患者信息中包括的标准治疗方案相一致而确定；

32、所述治疗信息量通过所述治疗方案与所述标准治疗方案的关键词匹配数目而确定。

33、进一步地，所述评测指标还包括询证能力，其通过所述反问问题是否涵盖所述标准化患者信息中包括的各个键信息而确定。

34、在一种可能的实施方式中，所述评测指标包括：

35、用于考察医生代理全面的对患者情况进行了解的能力的第四类指标，其通过检索到的值信息的数量而确定。

36、在一种可能的实施方式中，所述评测指标包括：

37、用于考察医生代理通过合适的对话轮数在多轮对话中做出诊断结果的能力的第五类指标，其通过所述多轮对话的对话轮数是否超过所述标准化患者信息包括的标准轮数而确定。

38、在一种可能的实施方式中，所述方法还包括：

39、至少根据是否检索到值信息，确定所述大语言模型是否存在幻觉问题。

40、进一步地，所述确定所述大语言模型是否存在幻觉问题，包括：

41、当未检索到值信息时，确定所述大语言模型存在幻觉问题；或者，

42、当所述多轮对话中医生代理给出的诊断结果，与所述标准化患者信息中包括的标准诊断结果，二者不一致时，确定所述大语言模型存在幻觉问题。

43、第二方面，提供了一种作为医生代理的大语言模型的评测装置，所述装置包括

44、获取单元，用于从预先构建的标准化患者信息中，获取患者代理的初始化患者问询语句；

45、输入单元，用于将所述获取单元获取的初始化患者问询语句输入所述大语言模型，得到医生代理的反问问题；

46、抽取单元，用于从所述输入单元得到的反问问题抽取表征临床医学中的项目名称的键信息；

47、检索单元，用于根据所述抽取单元得到的键信息，从所述标准化患者信息中检索对应的值信息；

48、所述输入单元，还用于当所述检索单元检索到值信息时，将所述值信息作为患者代理对所述反问问题的回答，再次输入所述大语言模型，以实现多轮对话；

49、评分单元，用于确定所述多轮对话对应于各评测指标的指标分数，所述指标分数用于衡量所述大语言模型在临床诊疗方面的能力。

50、第三方面，提供了一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行第一方面的方法。

51、第四方面，提供了一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现第一方面的方法。

52、通过本说明书实施例提供的方法和装置，首先从预先构建的标准化患者信息中，获取患者代理的初始化患者问询语句；然后将所述初始化患者问询语句输入所述大语言模型，得到医生代理的反问问题；接着从所述反问问题抽取表征临床医学中的项目名称的键信息；再根据所述键信息，从所述标准化患者信息中检索对应的值信息；当检索到值信息时，将所述值信息作为患者代理对所述反问问本文档来自技高网...

【技术保护点】

1.一种作为医生代理的大语言模型的评测方法，所述方法包括：

2.如权利要求1所述的方法，其中，所述从所述反问问题抽取表征临床医学中的项目名称的键信息，包括：

3.如权利要求2所述的方法，其中，所述训练样本通过将所述标准化患者信息包含的键信息输入生成模型而得到。

4.如权利要求1所述的方法，其中，所述方法还包括：

5.如权利要求1所述的方法，其中，所述键信息和对应的值信息包括如下至少一种：

6.如权利要求1所述的方法，其中，所述评测指标包括：

7.如权利要求1所述的方法，其中，所述多轮对话中包括医生代理的诊断结果；所述评测指标包括：

8.如权利要求1所述的方法，其中，所述多轮对话中包括医生代理的治疗方案；所述评测指标包括：

9.如权利要求7或8所述的方法，其中，所述评测指标还包括询证能力，其通过所述反问问题是否涵盖所述标准化患者信息中包括的各个键信息而确定。

10.如权利要求1所述的方法，其中，所述评测指标包括：

11.如权利要求1所述的方法，其中，所述评测指标包括：

12.如权利要求1所述的方法，其中，所述方法还包括：

13.如权利要求12所述的方法，其中，所述确定所述大语言模型是否存在幻觉问题，包括：

14.一种作为医生代理的大语言模型的评测装置，所述装置包括

15.一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行权利要求1-13中任一项的所述的方法。

16.一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现权利要求1-13中任一项的所述的方法。

...

【技术特征摘要】