一种混合增强型知识获取及回答的装置、方法及介质制造方法及图纸

技术编号：41074261 阅读：2 留言：0更新日期：2024-04-24 11:31

本发明专利技术涉及一种混合增强型知识获取及回答的装置、方法及介质，包括：数据存储和索引模块，用于使用ES技术作为数据存储和索引工具；自定义分词模块，用于利用先进的自然语言处理技术进行文本分词，优化查询词的处理，增强搜索阶段的数据召回质量，确保召回结果与用户查询的高度相关；相似度分析模块，基于深度学习的embedding技术，筛选出最相关的top‑k结果；大型语言模型LLM问答模块，使用预先训练好的大型语言模型LLM分析用户查询，根据召回的信息生成相关且准确的答案；本发明专利技术优化了搜索阶段的数据召回质量，提升了结果的相关性和准确性，可生成更准确和相关的回答，显著改善了知识获取及回答系统的整体性能和用户体验。

全部详细技术资料下载

【技术实现步骤摘要】

[]本专利技术涉及大数据处理，具体地说是一种混合增强型知识获取及回答的装置、方法及介质。

技术介绍

0、[
技术介绍
]

1、目前，在现有的信息检索系统中，elasticsearch(es)常用于处理大量数据集，并通过k最近邻(knn)算法实现相似度检索，基于分层最小世界导航算法(hnsw)。尽管es高效处理检索任务，但其检索结果的准确性受限于算法的随机性，尤其是在top2-5的结果中，这种随机性导致相关度不一，影响了最终的信息检索和回答质量。

2、此外，在问答系统中，现有技术采用大型语言模型llm和问答机实现，但由于模型通用能力和问答机的限制，仍存在无法理解和回答复杂查询的挑战。

技术实现思路

0、[
技术实现思路
]

1、本专利技术的目的就是要解决上述的不足而提供一种混合增强型知识获取及回答的装置、方法及介质，不仅优化了搜索阶段的数据召回质量，提升了结果的相关性和准确性，而且能够生成更准确和相关的回答，显著改善了知识获取及回答系统的整体性能和用户体验。

2、本专利技术一方面，提供了一种混合增强型知识获取及回答的装置，包括：

3、数据存储和索引模块，用于使用elasticsearch技术作为数据存储和索引工具；

4、自定义分词模块，用于利用先进的自然语言处理技术进行文本分词，优化查询词的处理，增强搜索阶段的数据召回质量，确保召回结果与用户查询的高度相关；

5、相似度分析模块，基于深度学习的embeddin

6、大型语言模型llm问答模块，使用预先训练好的大型语言模型llm分析用户查询，根据召回的信息生成相关且准确的答案。

7、作为一种实施例，所述数据存储和索引模块负责处理大量的数据集，并为后续的搜索提供高效的数据索引和检索能力。

8、作为一种实施例，所述相似度分析模块负责对召回的数据进行相似度分析，计算候选答案与用户查询的相关度，从而筛选出最相关的top-k结果。

9、作为一种实施例，所述大型语言模型llm问答模块利用大型语言模型llm能力，对召回的信息进行深度分析和处理，根据复杂查询生成更加准确和详细的答案。

10、本专利技术另一方面，提供了一种混合增强型知识获取及回答的方法，包括以下步骤：

11、1)输入查询，使用elasticsearch技术结合分词搜索技术，进行初步检索；

12、2)在数据召回阶段，利用先进的自然语言处理技术进行文本分词，优化查询词的处理；

13、3)随后，利用embedding技术对elasticsearch召回的结果进行深入分析，确保召回的top-k结果与用户查询的高度相关性；

14、4)在问答阶段，通过大型语言模型llm分析用户查询，根据召回的信息生成相关且准确的答案。

15、作为一种实施例，步骤3)中，采用基于embedding的相似度分析方法，通过深度学习模型生成的高质量embeddings计算候选答案的相似度分数，进而确保召回的top-k结果与用户查询的高度相关性。

16、作为进一步的实施例，步骤3)中的相似度检索算法是基于优化的hnsw算法与embedding相结合。

17、作为一种实施例，步骤4)中，利用大型语言模型llm能力，对召回的信息进行深度分析和处理，根据复杂查询生成更加准确和详细的答案。

18、本专利技术第三方面，提出了一种计算机可读存储介质，所述计算机可读存储介质包括存储的程序，所述程序执行上述方法。

19、本专利技术第四方面，提出了一种计算机设备，包括：处理器、存储器和总线；所述处理器与所述存储器通过所述总线连接；所述存储器用于存储程序，所述处理器用于运行程序，所述程序运行时执行上述方法。

20、本专利技术同现有技术相比，具有如下优点：

21、(1)提高了检索准确性：本专利技术通过集成自定义分词模块和相似度分析模块，显著提升了检索结果的准确性，确保了召回的数据与用户的查询高度相关，尤其在处理复杂和专业性查询时表现出更高的精确度；

22、(2)优化搜索效率：本专利技术改进的数据存储和索引策略结合高效的分词算法，减少了搜索响应时间，同时保持了高质量的数据召回，实现了快速且精准的搜索体验；

23、(3)增强问答质量：本专利技术利用大型语言模型(llm)对召回的信息进行深度分析和处理，能够根据复杂查询生成更加准确和详细的答案，提高了问答系统的整体质量；

24、(4)扩展应用范围：本专利技术由于其高准确度和灵活的处理能力，适用于各种高级和专业领域的知识获取和问答任务，扩大了应用的范围和深度；

25、(5)用户体验改善：本专利技术通过提供更相关和准确的搜索及回答结果，显著提升了用户的整体满意度和体验，特别是在处理复杂和具体查询时；

26、(6)系统可靠性增强：本专利技术结合先进的数据处理技术和强大的llm，提供了高度可靠和稳定的信息处理能力，适应了各种复杂的使用场景；

27、(7)数据处理的灵活性：本专利技术采用的技术允许灵活处理各种类型的数据，包括文本、语音或图像数据，增加了处理多模态数据的能力；

28、综上，本专利技术实现了在提高检索准确性、优化搜索效率、增强问答质量和扩展应用范围等多个方面，不仅优化了搜索阶段的数据召回质量，提升了结果的相关性和准确性，而且能够生成更准确和相关的回答，显著改善了知识获取及回答系统的整体性能和用户体验，值得推广应用。

本文档来自技高网...

【技术保护点】

1.一种混合增强型知识获取及回答的装置，其特征在于，包括：

2.如权利要求1所述的装置，其特征在于：所述数据存储和索引模块负责处理大量的数据集，并为后续的搜索提供高效的数据索引和检索能力。

3.如权利要求1所述的装置，其特征在于：所述相似度分析模块负责对召回的数据进行相似度分析，计算候选答案与用户查询的相关度，从而筛选出最相关的top-k结果。

4.如权利要求1所述的装置，其特征在于：所述大型语言模型LLM问答模块利用大型语言模型LLM能力，对召回的信息进行深度分析和处理，根据复杂查询生成更加准确和详细的答案。

5.一种混合增强型知识获取及回答的方法，其特征在于，包括以下步骤：

6.如权利要求5所述的方法，其特征在于：步骤3)中，采用基于embedding的相似度分析方法，通过深度学习模型生成的高质量embeddings计算候选答案的相似度分数，进而确保召回的top-k结果与用户查询的高度相关性。

7.如权利要求6所述的方法，其特征在于：步骤3)中的相似度检索算法是基于优化的HNSW算法与embedding相结合。

8.如权利要求5所述的方法，其特征在于：步骤4)中，利用大型语言模型LLM能力，对召回的信息进行深度分析和处理，根据复杂查询生成更加准确和详细的答案。

9.一种计算机可读存储介质，其特征在于：所述计算机可读存储介质包括存储的程序，所述程序执行权利要求5至8中任一项所述的方法。

10.一种计算机设备，其特征在于：包括处理器、存储器和总线；所述处理器与所述存储器通过所述总线连接；所述存储器用于存储程序，所述处理器用于运行程序，所述程序运行时执行权利要求5至8中任一项所述的方法。

...

【技术特征摘要】

1.一种混合增强型知识获取及回答的装置，其特征在于，包括：

2.如权利要求1所述的装置，其特征在于：所述数据存储和索引模块负责处理大量的数据集，并为后续的搜索提供高效的数据索引和检索能力。

4.如权利要求1所述的装置，其特征在于：所述大型语言模型llm问答模块利用大型语言模型llm能力，对召回的信息进行深度分析和处理，根据复杂查询生成更加准确和详细的答案。

5.一种混合增强型知识获取及回答的方法，其特征在于，包括以下步骤：

6.如权利要求5所述的方法，其特征在于：步骤3)中，采用基于embedding的相似度分析方法，通过深度学习模型...

【专利技术属性】
技术研发人员：王林杰，
申请(专利权)人：上海数珩信息科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人