一种基于关键词语义分解的智能问答方法及装置制造方法及图纸

技术编号：40520870 阅读：7 留言：0更新日期：2024-03-01 13:39

本发明专利技术涉及人工智能技术领域，具体提供了一种基于关键词语义分解的智能问答方法及装置，包括：将用户问句输入至预先训练的关键词抽取模型，得到预先训练的关键词抽取模型输出的关键词；在文本信息索引库中获取关键词对应的召回答案；将关键词及其对应的各召回答案分别组成问答对并作为预先训练的相似度识别模型的输入，得到预先训练的相似度识别模型输出的关键词与其对应的各召回答案之间的相似度，选取相似度大于预设值的召回答案作为关键词的答案；将用户问句和关键词的答案作为自动总结分析模型的输入，得到自动总结分析模型输出的用户问句回答结果。本发明专利技术提供的技术方案，能够使用户的问句可以实现问句关键词语义切分，同时保证召回效果。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及人工智能，具体涉及一种基于关键词语义分解的智能问答方法及装置。

技术介绍

1、随着信息化时代的推进，企业内部积累了大量的数字文档，这些文档中蕴含着丰富的信息。为了更好地管理和利用这些文档，通常会采用标签化的方式进行归类，同时使用搜索引擎进行内容检索。然而，传统的文档搜索方式往往仅限于关键字或短语查询，难以实现更高级别的语义检索，无法满足用户对深度理解文档内容的需求。

2、随着chatgpt的出现，在自然语言处理领域中取得的显著进展，特别是具备了语义理解、文档摘要、信息提取和逻辑推理等多项能力。在智能对话上，大模型虽然能够准确的理解用户的需求点，从而给出开放型最佳答案。但是仅仅使用大模型的技术在专业领域的问答中，主要存在以下问题：1当专业领域信息在某些文档中，其大模型的回答效果欠佳；2、在基于文档问答中，当用户问句中含有多个关键词时，其答案可能断链式的分布在文档的各个部分中，如果使用原问句进行召回文本时在专业领域中会少召回；3、问句和文档召回结果的文本结构和文本信息不同，导致其相似度低，使得信息丢失。

技术实现思路

1、为了克服上述缺陷，本专利技术提出了一种基于关键词语义分解的智能问答方法及装置。

2、第一方面，提供一种基于关键词语义分解的智能问答方法，所述基于关键词语义分解的智能问答方法包括：

3、将用户问句输入至预先训练的关键词抽取模型，得到预先训练的关键词抽取模型输出的关键词；

4、在文本信息索引库中获取关键词对应的召回答案；

5、将所述关键词及其对应的各召回答案分别组成问答对并作为预先训练的相似度识别模型的输入，得到预先训练的相似度识别模型输出的所述关键词与其对应的各召回答案之间的相似度，选取相似度大于预设值的召回答案作为所述关键词的答案；

6、将所述用户问句和所述关键词的答案作为自动总结分析模型的输入，得到自动总结分析模型输出的用户问句回答结果。

7、优选的，所述预先训练的关键词抽取模型的训练过程包括：

8、获取预设关键词，并将预设关键词与预设用户问句模板进行组合，得到训练数据；

9、利用所述训练数据对bert-bilstm-crf模型进行训练，得到所述预先训练的关键词抽取模型。

10、进一步的，所述预设关键词包括：术语定义和专业名词。

11、优选的，所述在文本信息索引库中获取关键词对应的召回答案，之前包括：

12、利用文字文档构建文本信息索引库。

13、进一步的，所述利用文字文档构建文本信息索引库之前，包括：

14、对文字文档进行解析；

15、将文字文档中的列举式中的表头与列举式项整合为一段整体内容；

16、将文字文档中的附表信息与文档文件中引用该附表信息的文字信息合并。

17、进一步的，所述对文字文档进行解析，包括：

18、将文字文档中的表格解析为markdown格式，公式解析为latex格式；

19、去除文字文档中的封面、页眉页和水印。

20、优选的，所述预先训练的相似度识别模型的训练过程包括：

21、将文字文档的标题作为模拟问句，将标题下的文字内容作为召回答案集合，构建训练数据；

22、利用所述训练数据对cosent模型进行训练，得到所述预先训练的相似度识别模型。

23、优选的，所述自动总结分析模型为chatglm2-6b模型。

24、第二方面，提供一种基于关键词语义分解的智能问答装置，所述基于关键词语义分解的智能问答装置包括：

25、第一分析模块，用于将用户问句输入至预先训练的关键词抽取模型，得到预先训练的关键词抽取模型输出的关键词；

26、获取模块，用于在文本信息索引库中获取关键词对应的召回答案；

27、第二分析模块，用于将所述关键词及其对应的各召回答案分别组成问答对并作为预先训练的相似度识别模型的输入，得到预先训练的相似度识别模型输出的所述关键词与其对应的各召回答案之间的相似度，选取相似度大于预设值的召回答案作为所述关键词的答案；

28、第三分析模块，用于将所述用户问句和所述关键词的答案作为自动总结分析模型的输入，得到自动总结分析模型输出的用户问句回答结果。

29、第三方面，提供一种计算机设备，包括：一个或多个处理器；

30、所述处理器，用于存储一个或多个程序；

31、当所述一个或多个程序被所述一个或多个处理器执行时，实现所述的基于关键词语义分解的智能问答方法。

32、第四方面，提供一种计算机可读存储介质，其上存有计算机程序，所述计算机程序被执行时，实现所述的基于关键词语义分解的智能问答方法。

33、本专利技术上述一个或多个技术方案，至少具有如下一种或多种有益效果：

34、本专利技术涉及人工智能
，具体提供了一种基于关键词语义分解的智能问答方法及装置，包括：将用户问句输入至预先训练的关键词抽取模型，得到预先训练的关键词抽取模型输出的关键词；在文本信息索引库中获取关键词对应的召回答案；将所述关键词及其对应的各召回答案分别组成问答对并作为预先训练的相似度识别模型的输入，得到预先训练的相似度识别模型输出的所述关键词与其对应的各召回答案之间的相似度，选取相似度大于预设值的召回答案作为所述关键词的答案；将所述用户问句和所述关键词的答案作为自动总结分析模型的输入，得到自动总结分析模型输出的用户问句回答结果。本专利技术提供的技术方案中的关键词抽取模型能够识别多个关键词，解决了在大模型文档问答中对于问句中有多个关键词的问句，在文档召回中无法定位多个问句答案，同时保证召回效果。

本文档来自技高网...

【技术保护点】

1.一种基于关键词语义分解的智能问答方法，其特征在于，所述方法包括：

2.如权利要求1所述的方法，其特征在于，所述预先训练的关键词抽取模型的训练过程包括：

3.如权利要求1所述的方法，其特征在于，所述在文本信息索引库中获取关键词对应的召回答案，之前包括：

4.如权利要求3所述的方法，其特征在于，所述利用文字文档构建文本信息索引库之前，包括：

5.如权利要求4所述的方法，其特征在于，所述对文字文档进行解析，包括：

6.如权利要求1所述的方法，其特征在于，所述预先训练的相似度识别模型的训练过程包括：

7.如权利要求1所述的方法，其特征在于，所述自动总结分析模型为chatglm2-6b模型。

8.一种基于关键词语义分解的智能问答装置，其特征在于，所述装置包括：

9.一种计算机设备，其特征在于，包括：一个或多个处理器；

10.一种计算机可读存储介质，其特征在于，其上存有计算机程序，所述计算机程序被执行时，实现如权利要求1至7中任意一项所述的基于关键词语义分解的智能问答方法。

【技术特征摘要】

1.一种基于关键词语义分解的智能问答方法，其特征在于，所述方法包括：

2.如权利要求1所述的方法，其特征在于，所述预先训练的关键词抽取模型的训练过程包括：

3.如权利要求1所述的方法，其特征在于，所述在文本信息索引库中获取关键词对应的召回答案，之前包括：

4.如权利要求3所述的方法，其特征在于，所述利用文字文档构建文本信息索引库之前，包括：

5.如权利要求4所述的方法，其特征在于，所述对文字文档进行解析，包括：

6.如权利要求1所...

【专利技术属性】
技术研发人员：边靖宸，李博，廖小琦，沈潋，刘普凡，冉仲阳，韩天槊，杜建光，吕宏伟，李继伟，
申请(专利权)人：国家电网有限公司大数据中心，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人