一种基于文档集生成层次聚类树的方法及装置制造方法及图纸

技术编号：43814389 阅读：19 留言：0更新日期：2024-12-27 13:28

本发明专利技术涉及一种基于文档集生成层次聚类树的方法及装置，方法包括：对文档集中的文档进行聚类操作，得到多个文档聚类簇；对目标聚类簇进行关键词提取，得到由若干关键词组成的目标关键词节点，作为目标聚类簇中各个文档对应的叶节点的父节点；对各个关键词节点进行多轮目标操作，直至无法进行目标操作中的聚类操作；任意一轮目标操作包括：对各个关键词节点进行聚类操作，得到多个第一聚类簇；对任意的第一目标聚类簇进行关键词提取，得到由若干关键词组成的第一节点，作为第一目标聚类簇中各个关键词节点的父节点；将多个第一节点作为下一轮目标操作输入的关键词节点；将层次聚类树的根节点作为最后一轮目标操作得到的若干第一节点的父节点。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及信息检索领域，尤其涉及一种基于文档集生成层次聚类树的方法及装置。

技术介绍

1、大语言模型(large language model,llm)在许多领域和任务上展现出了强大的能力。随着大语言模型规模的不断增大，它可以作为独立有效的知识存储库，将事实编码到其参数中。然而，即使是大语言模型，也无法包含足够的特定领域的知识来应对特定的任务。与此同时，世界是在不断变化的，每天产生的新知识可能会使大语言模型学到的原有的事实失效，并且由于成本和效率的问题，开发者无法做到对大语言模型进行实时更新。

2、目前，业界解决上述问题的一个主流的方法是检索增强生成(retrieval-augmented generation,rag)。rag结合了信息检索和自然语言生成，为大语言模型提供外部知识库作为其生成答案时的依据。在rag中，会先根据要输入大语言模型的提示词(prompt)从知识库中检索，然后将检索结果和提示词一并输入到大语言模型中，令其生成答案。

3、然而，当外部知识库中的文档数量不断增加，并且文档涉及到的领域越来...

【技术保护点】

1.一种基于文档集生成层次聚类树的方法，包括：

2.根据权利要求1所述的方法，还包括：

3.根据权利要求2所述的方法，其特征在于，所述查询文本为有待输入大语言模型的提示词；所述方法还包括：

4.根据权利要求1所述的方法，还包括：

5.根据权利要求4所述的方法，还包括：

6.根据权利要求1所述的方法，还包括：

7.根据权利要求6所述的方法，还包括：

8.根据权利要求2所述的方法，将用户输入的查询文本在所述层次聚类树中进行查询，得到多个查询结果节点，包括：

9.根据权利要求2所述的方法，将用户输入...

【技术特征摘要】

1.一种基于文档集生成层次聚类树的方法，包括：

2.根据权利要求1所述的方法，还包括：

3.根据权利要求2所述的方法，其特征在于，所述查询文本为有待输入大语言模型的提示词；所述方法还包括：

4.根据权利要求1所述的方法，还包括：

5.根据权利要求4所述的方法，还包括：

6.根据权利要求1所述的方法，还...

【专利技术属性】
技术研发人员：蔡雨桐，白肖艳，夏敏，易丛文，管健，
申请(专利权)人：深圳智现未来工业软件有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人