知识库查询方法、装置、电子设备及存储介质制造方法及图纸

技术编号:38828792 阅读:16 留言:0更新日期:2023-09-15 20:08
本发明专利技术涉及医疗数据处理领域,揭露一种知识库查询方法,包括:将类型数据转换为文本序列并构建出目标知识库;将初始输入序列通过预设提示层进行特征处理,生成候选输入序列;利用候选输入序列的第二单词替换初始输入序列的第一单词生成目标输入序列,计算目标输入序列与目标知识库中各个文本序列的相似度生成相似度集合;从相似度集合选取预设数量文本序列作为上下文信息,将目标输入序列和上下文信息组合,以对大语言模型微调并输出查询结果。本发明专利技术应用在医疗数据处理领域中,将目标知识库中的所有类型数据转换为统一的文本序列,利用提示层实现了大语言模型充分利用对目标知识库的已有条件,提高了大语言模型的查询结果的准确率。的准确率。的准确率。

【技术实现步骤摘要】
知识库查询方法、装置、电子设备及存储介质


[0001]本专利技术涉及医疗数据处理领域,尤其涉及一种知识库查询方法、装置、电子设备及存储介质。

技术介绍

[0002]在数字医疗领域中,将大语言模型(LLM)应用到医疗机构的知识库(KB)进行结合,以实现线上医疗智能客服、线上问诊等应用场景。
[0003]例如,患者在家中通过智能终端向医疗机构A发起病情咨询请求,医疗机构A通过专门的线上病情问询系统(LLM+KB)进行回复和解答,包括文字、语音、图片等多种形式,实现患者病情信息的收集和记录,以便医疗机构A进行后续的诊断和治疗。
[0004]大语言模型是一种利用深度神经网络学习自然语言的概率分布的模型,可以用于各种自然语言处理任务,能够根据给定的上下文或条件生成连贯和有意义的文本的LLM。知识库是一种存储结构化或半结构化知识的数据库,可以用于提供事实性、专业或领域相关的知识。
[0005]在实现本专利技术的过程中,专利技术人发现现有技术至少存在以下问题:
[0006]大语言模型在预训练阶段,主要使用无标注的自然语言文本数据和基于概率分布的采样或贪婪策略来选择下一个词,容易忽略了知识库的已有条件(结构化或半结构化的知识数据和检索能力),导致大语言模型对知识库内的专业领域知识的理解和利用不充分,出现大语言模型生成的查询结果的准确率较低的问题。
[0007]因此,如何快速地提高大语言模型充分利用目标知识库的已有条件,以提高查询结果的准确率是一个亟待解决的问题。

技术实现思路

[0008]鉴于以上内容,有必要提供一种知识库查询方法,其目的在于提高大语言模型充分利用目标知识库的已有条件,以提高大语言模型的查询结果的准确率。
[0009]本专利技术提供的知识库查询方法,包括:
[0010]获取初始知识库的数据集中至少一个类型数据,将所述类型数据转换为对应的文本序列,基于所有的文本序列构建出目标知识库;
[0011]当监测到预设大语言模型接收到查询所述目标知识库的初始输入序列时,将所述初始输入序列的第一单词通过预设提示层进行特征处理,生成候选输入序列;
[0012]利用所述候选输入序列的第二单词替换所述初始输入序列的第一单词,以将所述初始输入序列更新为目标输入序列,计算所述目标输入序列的第一向量与所述目标知识库中各个文本序列的第二向量之间的相似度,生成相似度集合;
[0013]基于预设的相似度选取策略,从所述目标知识库中选取预设的数量文本序列作为根据所述目标输入序列查询得到的上下文信息,将所述目标输入序列和所述上下文信息进行组合,以对所述大语言模型进行微调并输出查询结果。
[0014]可选的,所述基于所有的文本序列构建出目标知识库,包括:
[0015]将各个文本序列写入所述初始知识库的文件中;
[0016]调用预设函数,在所述文件中对各个所述文本序列添加换行符,生成所述目标知识库。
[0017]可选的,在所述将所述初始输入序列的第一单词通过预设提示层进行特征处理,生成候选输入序列之前,所述方法还包括:
[0018]在所述大语言模型的第一连接层前面添加所述提示层,并定义所述提示层的学习参数,以使所述提示层获取所述大语言模型的初始输入序列。
[0019]可选的,所述将所述初始输入序列的第一单词通过预设提示层进行特征处理,生成候选输入序列,包括:
[0020]将所述初始输入序列中排序第一位的单词,作为所述第一单词;
[0021]将所述第一单词的向量输入所述提示层进行特征处理,生成第一特征向量;
[0022]融合所述第一特征向量与所述第一单词的向量,生成所述候选输入序列。
[0023]可选的,所述利用所述候选输入序列的第二单词替换所述初始输入序列的第一单词,以将所述初始输入序列更新为目标输入序列,包括:
[0024]将所述候选输入序列中排序第一位的单词,作为所述第二单词;
[0025]利用所述第二单词替换所述第一单词得到所述目标输入序列。
[0026]可选的,所述基于预设的相似度选取策略,从所述目标知识库中选取预设的数量文本序列作为根据所述目标输入序列查询得到的上下文信息,包括:
[0027]对所述相似度集合中各个相似度的数值按照从大到小进行排序,选取排序中前K个数值对应的文本序列选取排序中前K个数值对应的文本序列,作为根据所述目标输入序列查询得到的上下文信息。
[0028]可选的,所述将所述目标输入序列和所述上下文信息进行组合,以对所述大语言模型进行微调并输出查询结果,包括:
[0029]将所述目标输入序列和所述上下文信息填充至预置的模板中;
[0030]分别对所述目标输入序列和所述上下文信息在所述模板的位置进行插入标记,基于插入标记后的模板对所述大语言模型进行微调,生成所述查询结果。
[0031]为了解决上述问题,本专利技术还提供一种知识库查询装置,所述装置包括:
[0032]转换和构建模块,用于获取初始知识库的数据集中至少一个类型数据,将所述类型数据转换为对应的文本序列,基于所有的文本序列构建出目标知识库;
[0033]监测和处理模块,用于当监测到预设大语言模型接收到查询所述目标知识库的初始输入序列时,将所述初始输入序列的第一单词通过预设提示层进行特征处理,生成候选输入序列;
[0034]替换和计算模块,用于利用所述候选输入序列的第二单词替换所述初始输入序列的第一单词,以将所述初始输入序列更新为目标输入序列,计算所述目标输入序列的第一向量与所述目标知识库中各个文本序列的第二向量之间的相似度,生成相似度集合;
[0035]选取和组合模块,用于基于预设的相似度选取策略,从所述目标知识库中选取预设的数量文本序列作为根据所述目标输入序列查询得到的上下文信息,将所述目标输入序列和所述上下文信息进行组合,以对所述大语言模型进行微调并输出查询结果。
[0036]为了解决上述问题,本专利技术还提供一种电子设备,所述电子设备包括:
[0037]至少一个处理器;以及,
[0038]与所述至少一个处理器通信连接的存储器;其中,
[0039]所述存储器存储有可被所述至少一个处理器执行的知识库查询程序,所述知识库查询程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述知识库查询方法。
[0040]为了解决上述问题,本专利技术还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有知识库查询程序,所述知识库查询程序可被一个或者多个处理器执行,以实现上述知识库查询方法。
[0041]相较现有技术,本专利技术获取初始知识库的数据集中至少一个类型数据,将类型数据转换为对应的文本序列,基于所有的文本序列构建出目标知识库;当监测到预设大语言模型接收到查询目标知识库的初始输入序列时,将初始输入序列的第一单词通过预设提示层进行特征处理,生成候选输入序列;利用候选输入序列的第二单词替换初始输入序列的第一单词,以将初始本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种知识库查询方法,其特征在于,所述方法包括:获取初始知识库的数据集中至少一个类型数据,将所述类型数据转换为对应的文本序列,基于所有的文本序列构建出目标知识库;当监测到预设大语言模型接收到查询所述目标知识库的初始输入序列时,将所述初始输入序列的第一单词通过预设提示层进行特征处理,生成候选输入序列;利用所述候选输入序列的第二单词替换所述初始输入序列的第一单词,以将所述初始输入序列更新为目标输入序列,计算所述目标输入序列的第一向量与所述目标知识库中各个文本序列的第二向量之间的相似度,生成相似度集合;基于预设的相似度选取策略,从所述目标知识库中选取预设的数量文本序列作为根据所述目标输入序列查询得到的上下文信息,将所述目标输入序列和所述上下文信息进行组合,以对所述大语言模型进行微调并输出查询结果。2.如权利要求1所述的知识库查询方法,其特征在于,所述基于所有的文本序列构建出目标知识库,包括:将各个文本序列写入所述初始知识库的文件中;调用预设函数,在所述文件中对各个所述文本序列添加换行符,生成所述目标知识库。3.如权利要求1所述的知识库查询方法,其特征在于,在所述将所述初始输入序列的第一单词通过预设提示层进行特征处理,生成候选输入序列之前,所述方法还包括:在所述大语言模型的第一连接层前面添加所述提示层,并定义所述提示层的学习参数,以使所述提示层获取所述大语言模型的初始输入序列。4.如权利要求1所述的知识库查询方法,其特征在于,所述将所述初始输入序列的第一单词通过预设提示层进行特征处理,生成候选输入序列,包括:将所述初始输入序列中排序第一位的单词,作为所述第一单词;将所述第一单词的向量输入所述提示层进行特征处理,生成第一特征向量;融合所述第一特征向量与所述第一单词的向量,生成所述候选输入序列。5.如权利要求1或4所述的知识库查询方法,其特征在于,所述利用所述候选输入序列的第二单词替换所述初始输入序列的第一单词,以将所述初始输入序列更新为目标输入序列,包括:将所述候选输入序列中排序第一位的单词,作为所述第二单词;利用所述第二单词替换所述第一单词得到所述目标输入序列。6.如权利要求1所述的知识库查询方法,其特征在于,所述基于预设的相似度选取策略,从所述目...

【专利技术属性】
技术研发人员:王俊
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1