一种基于大模型的问答式PPT文档检索系统及方法技术方案

技术编号：41264599 阅读：3 留言：0更新日期：2024-05-11 09:21

本发明专利技术公开一种基于大模型的问答式PPT文档检索系统及方法，涉及数据检索技术领域；包括：步骤1：解析ppt文件的文本内容，识别ppt文件中的图片，将ppt文件的每张ppt转换为图片上传至minio进行保存，步骤2：根据ppt文件将每张ppt的文本内容进行向量编码，将编码后的文本向量及相关信息存储到milvus，步骤3：对用户问题进行向量编码,根据编码后的用户问题从milvus中检索匹配内容，获得匹配内容中相关ppt文件的文本向量及文本向量的相关信息，步骤4：利用大模型对所述编码后的用户问题及milvus中匹配内容进行二次筛选，生成问题答案，并获得问题答案对应的ppt文本向量及文本向量的相关信息。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术公开一种系统及方法，涉及数据检索，具体地说是一种基于大模型的问答式ppt文档检索系统及方法。

技术介绍

1、基于文档的知识问答是一种专注于解答用户提出问题的自然语言处理技术。其核心理念在于深度分析文档内容，提炼与用户问题相关的信息，并将其转换为可直接用于回答问题的形式。

2、通常基于文档的问答系统在展示检索到的相关文档段落时，主要处理的文档格式为txt、word和pdf。这类文档一般只需要提取文本内容，使得文本检索相对简单。相比之下，目前还没有针对ppt的文档问答系统，因为ppt的结构较为复杂，包含图形文字多种数据形式，因而十分难以在大量的ppt内查找相关数据。

技术实现思路

1、本专利技术针对现有技术的问题，提供一种基于大模型的问答式ppt文档检索系统及方法，实现了根据用户问题或关键字进行ppt页面资料检索的高效方法。不仅提高了信息检索的准确性和效率，同时也为问答系统和多媒体内容分析领域的发展提供了有力支持。

2、本专利技术提出的具体方案是：

3、本专利技术提供一种基于大模型的问答式ppt文档检索方法，包括：

4、步骤1：解析ppt文件的文本内容，识别ppt文件中的图片，将ppt文件的每张ppt转换为图片上传至minio进行保存，通过minio生成每张ppt图片的访问地址，并记录每张ppt图片的访问地址，

5、步骤2：根据ppt文件将每张ppt的文本内容进行向量编码，将编码后的文本向量及相关信息存储到milvu

6、步骤3：对用户问题进行向量编码,根据编码后的用户问题从milvus中检索匹配内容，获得匹配内容中相关ppt文件的文本向量及文本向量的相关信息，

7、步骤4：利用大模型对所述编码后的用户问题及milvus中匹配内容进行二次筛选，生成问题答案，并获得问题答案对应的ppt文本向量及文本向量的相关信息。

8、进一步，所述的一种基于大模型的问答式ppt文档检索方法中步骤1中，包括：

9、采用langchain的相关unstructured工具提取ppt文件的文本内容，利用ocr模型识别ppt文件中图片，利用python的pptx、pillow库将ppt文件的每张ppt转换为图片上传至minio进行保存。

10、进一步，所述的一种基于大模型的问答式ppt文档检索方法中步骤2中采用m3e模型对每张ppt的文本内容进行向量编码，将编码后的文本向量存储到milvus中。

11、进一步，所述的一种基于大模型的问答式ppt文档检索方法中步骤3中，具体步骤为：

12、步骤31：获取用户问题，对用户问题进行向量编码,

13、步骤32：根据编码后的用户问题从milvus中检索匹配内容，

14、步骤33：获得匹配内容中用户问题相关的前n个ppt文件的文本向量及文本向量的相关信息。

15、进一步，所述的一种基于大模型的问答式ppt文档检索方法中步骤4中，具体步骤为：

16、步骤41：将所述编码后的用户问题及匹配内容中用户问题相关的前n个ppt文件的文本向量输入大模型，

17、步骤42：利用大模型进行二次筛选，筛选出与用户问题相关的文本向量并且基于相关文本向量进行问题回答，

18、步骤43：生成问题答案，并获得问题答案对应的ppt文本向量及文本向量的相关信息。

19、本专利技术还提供一种基于大模型的问答式ppt文档检索系统，包括解析模块、编码模块、匹配模块和筛选模块，

20、解析模块解析ppt文件的文本内容，识别ppt文件中的图片，将ppt文件的每张ppt转换为图片上传至minio进行保存，通过minio生成每张ppt图片的访问地址，并记录每张ppt图片的访问地址，

21、编码模块根据ppt文件将每张ppt的文本内容进行向量编码，将编码后的文本向量及相关信息存储到milvus，所述相关信息包括当前ppt文件名称、ppt页码和ppt图片的访问地址，

22、匹配模块对用户问题进行向量编码,根据编码后的用户问题从milvus中检索匹配内容，获得匹配内容中相关ppt文件的文本向量及文本向量的相关信息，

23、筛选模块利用大模型对所述编码后的用户问题及milvus中匹配内容进行二次筛选，生成问题答案，并获得问题答案对应的ppt文本向量及文本向量的相关信息。

24、进一步，所述的一种基于大模型的问答式ppt文档检索系统中解析模块采用langchain的相关unstructured工具提取ppt文件的文本内容，利用ocr模型识别ppt文件中图片，利用python的pptx、pillow库将ppt文件的每张ppt转换为图片上传至minio进行保存。

25、进一步，所述的一种基于大模型的问答式ppt文档检索系统中编码模块采用m3e模型对每张ppt的文本内容进行向量编码，将编码后的文本向量存储到milvus中。

26、进一步，所述的一种基于大模型的问答式ppt文档检索系统中匹配模块执行步骤包括：

27、步骤31：获取用户问题，对用户问题进行向量编码,

28、步骤32：根据编码后的用户问题从milvus中检索匹配内容，

29、步骤33：获得匹配内容中用户问题相关的前n个ppt文件的文本向量及文本向量的相关信息。

30、进一步，所述的一种基于大模型的问答式ppt文档检索系统中筛选模块执行步骤包括：

31、步骤41：将所述编码后的用户问题及匹配内容中用户问题相关的前n个ppt文件的文本向量输入大模型，

32、步骤42：利用大模型进行二次筛选，筛选出与用户问题相关的文本向量并且基于相关文本向量进行问题回答，

33、步骤43：生成问题答案，并获得问题答案对应的ppt文本向量及文本向量的相关信息。

34、本专利技术的有益之处是：

35、本专利技术提供一种基于大模型的问答式ppt文档检索方法，利用文本识别、ppt转图片、ocr处理等相关技术，根据提问或输入关键字，就能够迅速定位到相关的ppt页面，并根据ppt内容回答用户的问题，同时展示相关ppt供用户参考，极大地提高了用户检索与获取信息的效率。

本文档来自技高网...

【技术保护点】

1.一种基于大模型的问答式PPT文档检索方法，其特征是包括：

2.根据权利要求1所述的一种基于大模型的问答式PPT文档检索方法，其特征是步骤1中，包括：

3.根据权利要求1所述的一种基于大模型的问答式PPT文档检索方法，其特征是步骤2中采用m3e模型对每张ppt的文本内容进行向量编码，将编码后的文本向量存储到milvus中。

4.根据权利要求1所述的一种基于大模型的问答式PPT文档检索方法，其特征是步骤3中，具体步骤为：

5.根据权利要求4所述的一种基于大模型的问答式PPT文档检索方法，其特征是步骤4中，具体步骤为：

6.一种基于大模型的问答式PPT文档检索系统，其特征是包括解析模块、编码模块、匹配模块和筛选模块，

7.根据权利要求6所述的一种基于大模型的问答式PPT文档检索系统，其特征是解析模块采用LangChain的相关Unstructured工具提取ppt文件的文本内容，利用ocr模型识别ppt文件中图片，利用Python的pptx、pillow库将ppt文件的每张ppt转换为图片上传至minio进行保存。

8.根据权利要求6所述的一种基于大模型的问答式PPT文档检系统，其特征是编码模块采用m3e模型对每张ppt的文本内容进行向量编码，将编码后的文本向量存储到milvus中。

9.根据权利要求6所述的一种基于大模型的问答式PPT文档检索系统，其特征是匹配模块执行步骤包括：

10.根据权利要求9所述的一种基于大模型的问答式PPT文档检索方法，其特征是筛选模块执行步骤包括：

...

【技术特征摘要】

1.一种基于大模型的问答式ppt文档检索方法，其特征是包括：

2.根据权利要求1所述的一种基于大模型的问答式ppt文档检索方法，其特征是步骤1中，包括：

3.根据权利要求1所述的一种基于大模型的问答式ppt文档检索方法，其特征是步骤2中采用m3e模型对每张ppt的文本内容进行向量编码，将编码后的文本向量存储到milvus中。

4.根据权利要求1所述的一种基于大模型的问答式ppt文档检索方法，其特征是步骤3中，具体步骤为：

5.根据权利要求4所述的一种基于大模型的问答式ppt文档检索方法，其特征是步骤4中，具体步骤为：

6.一种基于大模型的问答式ppt文档检索系统，其特征是包括解析模块、编码模块、匹配模块和筛选模块，

7.根...

【专利技术属性】
技术研发人员：李志芸，冯落落，张峻铭，尹青山，房兰涛，
申请(专利权)人：浪潮智能终端有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人