System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种用于行业的智能问答方法及系统技术方案_技高网

一种用于行业的智能问答方法及系统技术方案

技术编号:40350231 阅读:7 留言:0更新日期:2024-02-09 14:34
本发明专利技术涉及一种用于行业的智能问答方法及系统,通过获取用户输入的问题文本;基于预先构建的编码器将用户输入的问题文本转换为查询向量;将查询向量与预先构建的行业知识库进行匹配;在行业知识库中存在匹配度超过阈值的目标资源时,将目标资源返回至用户;在行业知识库中不存在匹配度超过阈值的目标资源时,基于查询向量与预先调整的行业大模型执行问答,得到意图信息;将与意图信息对应的资源返回至用户。本申请建立行业知识库,并在执行问答过程中,现将用户的问题文本转换为查询向量,先直接在行业知识库中进行查询,在行业知识库中无匹配资源时,再通过调整的行业大模型执行问答动作,得到符合用户意图的目标资源。本申请具有回答更加准确,且更加灵活的优点。

【技术实现步骤摘要】

本专利技术涉及信息,具体是一种用于行业的智能问答方法及系统


技术介绍

1、随着深度学习技术的不断发展,基于深度神经网络的自然语言处理技术得到了广泛应用。这些技术的发展为大模型在智能问答领域的运用提供了可能性。

2、目前行业问答普遍存在不智能,不准确的现象,要么回答不够灵活,采用qa匹配的方式,要么回答的不够准确,例如直接采用大模型的方式。


技术实现思路

1、有鉴于此,本专利技术的目的是提供一种用于行业的智能问答方法及系统,以解决现有技术中的受限于小程序的体积限制以及小程序复用率较低现状,难以进行信息精准推荐的问题。

2、为了实现上述目的,本专利技术采用了如下技术方案:

3、本专利技术的一种用于行业的智能问答方法,包括步骤:

4、获取用户输入的问题文本;

5、基于预先构建的编码器将所述用户输入的问题文本转换为查询向量;

6、将所述查询向量与预先构建的行业知识库进行匹配;在所述行业知识库中存在匹配度超过阈值的目标资源时,将所述目标资源返回至用户;在所述行业知识库中不存在匹配度超过阈值的目标资源时,基于所述查询向量与预先调整的行业大模型执行问答,得到意图信息,其中,所述目标资源为文字、图片和视频其中之一或者多种组合;

7、将与所述意图信息对应的资源返回至用户。

8、在本申请一实施例中,基于预先构建的编码器将所述用户输入的问题文本转换为查询向量,包括:

9、对所述问题文本进行分词,得到多个单词;

10、基于查表将所述多个单词转换为词向量,并基于指数函数提取所述多个单词的位置编码;

11、将所述词向量与预先构建的第一参数矩阵进行相乘,得到词向量矩阵;并将所述位置编码与预先构建的第二参数矩阵进行相乘,得到位置矩阵;

12、将所述词向量矩阵与所述位置矩阵进行融合,得到融合矩阵;将所述融合矩阵与预先构建的第三参数矩阵进行相乘,得到编码结果;

13、基于查表将所述编码结果转换为查询向量。

14、在本申请一实施例中,所述第一参数矩阵、所述第二参数矩阵和所述第三参数矩阵通过如下方法构建:

15、获取问题训练文本,其中,所述问题训练文本预先标注查询向量真实结果;

16、将所述问题训练文本切分为训练集、验证集和测试集;

17、对所述第一参数矩阵、所述第二参数矩阵和所述第三参数矩阵进行初始化,并从所述训练集中提取一个当前问题训练文本,基于预先构建的编码器将所述当前问题训练文本转换为当前查询向量;

18、计算所述当前查询向量与所述查询向量真实结果的损失值,并基于所述损失值生成反向传播信号,以对第一参数矩阵、第二参数矩阵和第三参数矩阵进行更新;

19、从所述训练集中提取下一个问题训练文本作为当前问题训练文本,并回到基于预先构建的编码器将所述当前问题训练文本转换为当前查询向量;直至达到终止训练条件,其中,所述终止训练条件包括损失值不再减小和/或达到指定的训练次数;

20、基于所述验证集对训练完成的第一参数矩阵、第二参数矩阵和第三参数矩阵进行验证,并基于所述测试集对训练完成的第一参数矩阵、第二参数矩阵和第三参数矩阵进行验证测试,在通过验证和测试后,得到第一参数矩阵、第二参数矩阵和第三参数矩阵。

21、在本申请一实施例中,所述行业知识库包括文本库,还包括如下过程构建所述文本库:

22、获取行业文字材料,其中,所述行业文字材料的来源为电子文档或者行业音频文件;

23、按照所述行业文字材料的目录对所述行业知识材料进行分割,得到多个片段;

24、将长度大于n的片段作为目标片段,并基于句号将所述目标片段分为m个句子;

25、将所述m个句子划归至多个段落;

26、基于所述多个段落,调用语言大模型生成多个问题文本;并基于所述多个问题文本,调用语言大模型进行问题扩展,得到问题集合;

27、抽取所述问题集合中的问题文本,并以所述问题文本对应的答案、答案的来源段落、段落的所属行业文字材料、以及行业文字材料的对应的行业实体为节点,构建图结构的文本库,其中,所述文本库包括节点以及节点之间的关系。

28、在本申请一实施例中,将所述m个句子划归至多个段落,包括:

29、判断前i个未被划归至任何段落的句子的总长度;

30、在所述前i个句子的总长度小于或者等于n时,将前i个句子划归至当前段落中;

31、在所述前i个句子的总长度大于n时,且前i-1个句子的总长度小于n时,基于预先构建的编码器将第i-1个句子、第i个句子以及第i+1个句子向量化,得到第一句子向量、第二句子向量和第三句子向量;计算所述第一句子向量和所述第二句子向量的第一相似度,并计算所述第二句子向量和所述第三句子向量的第二相似度;在所述第一相似度大于所述第二相似度时,将所述第i个句子划归至当前段落中,在所述第一相似度小于或者等于所述第二相似度时,将所述第i个句子作为第1个句子,并回到判断前i个未被划归至任何段落的句子的总长度,直至完成对所有句子的划归,得到多个段落。

32、在本申请一实施例中,所述行业知识库包括影像库,还包括如下过程构建所述影像库:

33、获取行业影像材料,其中,所述行业影像材料包括图片材料和视频材料;

34、对所述视频材料进行采样,得到采样图片材料;

35、将所述图片材料和所述采样图片材料作为原始图像,并通过图像描述模型对所述原始图像进行描述,得到总结文本;

36、将所述总结文本输入至图像生成模型中,得到生成图像;

37、基于cnn网络提取所述原始图像和所述生成图像的图像特征,基于双向lstm网络提取所述总结文本的文本特征;并基于预先构建的编码器将所述文本特征进行向量化,得到文本特征向量;

38、将所述原始图像的图像特征与所述文本特征向量进行融合,得到第一融合向量;并将所述生成图像的图像特征与所述文本特征向量进行融合,得到第二融合向量;

39、将原始图像、原始图像的图像特征、原始图像的总结文本、原始图像的第一融合相邻进行格式化存储;并将总结文本、总结文本的文本特征、总结文本的生成图像、总结文本的第二融合相邻进行格式化存储;得到影像库。

40、在本申请一实施例中,行业大模型的调整方法包括:

41、获取训练数据,其中,所述训练数据包括多种参数,所述参数至少包括文本、文本标题、文本源文件、源文件位置和源文件类型,源文件类型包括文本、音频、视频和图像;在源文件为图像或者视频时,所述文本基于图像或者视频生成;

42、将所述训练数据与行业知识库中的参考资源进行匹配,得到每种参数与所述参考资源匹配的概率,其中,所述参考资源为其中一种问询意图的问题文本;

43、将概率高于预设的概率阈值的参数进行遮挡,并将概率高于预设的概本文档来自技高网...

【技术保护点】

1.一种用于行业的智能问答方法,其特征在于,包括步骤:

2.根据权利要求 1 所述的一种用于行业的智能问答方法,其特征在于,基于预先构建的编码器将所述用户输入的问题文本转换为查询向量,包括:

3.根据权利要求 2 所述的一种用于行业的智能问答方法,其特征在于,所述第一参数矩阵、所述第二参数矩阵和所述第三参数矩阵通过如下方法构建:

4.根据权利要求 1 所述的一种用于行业的智能问答方法,其特征在于,所述行业知识库包括文本库,还包括如下过程构建所述文本库:

5.根据权利要求 4 所述的一种用于行业的智能问答方法,其特征在于,将所述m个句子划归至多个段落,包括:

6.根据权利要求 1 所述的一种用于行业的智能问答方法,其特征在于,所述行业知识库包括影像库,还包括如下过程构建所述影像库:

7.根据权利要求 1 所述的一种用于行业的智能问答方法,其特征在于,行业大模型的调整方法包括:

8.根据权利要求 7 所述的一种用于行业的智能问答方法,其特征在于,基于遮挡后的训练数据以及训练数据的标签构建训练数据集,包括:

9.根据权利要求 1 所述的一种用于行业的智能问答方法,其特征在于,基于所述查询向量与预先调整的行业大模型执行问答,得到意图信息,包括:

10.一种用于行业的智能问答系统,其特征在于,包括:

...

【技术特征摘要】

1.一种用于行业的智能问答方法,其特征在于,包括步骤:

2.根据权利要求 1 所述的一种用于行业的智能问答方法,其特征在于,基于预先构建的编码器将所述用户输入的问题文本转换为查询向量,包括:

3.根据权利要求 2 所述的一种用于行业的智能问答方法,其特征在于,所述第一参数矩阵、所述第二参数矩阵和所述第三参数矩阵通过如下方法构建:

4.根据权利要求 1 所述的一种用于行业的智能问答方法,其特征在于,所述行业知识库包括文本库,还包括如下过程构建所述文本库:

5.根据权利要求 4 所述的一种用于行业的智能问答方法,其特征在于,将所述m个句子划归至多个段落,包括...

【专利技术属性】
技术研发人员:钟晓斌
申请(专利权)人:北京环球医疗救援有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1