一种匹配用户问题语料的方法技术

技术编号：40161147 阅读：7 留言：0更新日期：2024-01-26 23:35

本发明专利技术公开了一种匹配用户问题语料的方法，包括以下步骤：获取用户提问的问题文本，对所述问题文本进行问题向量化，生成问题向量；根据问题向量，在标题向量库进行近似度搜索，获取最近似的N条语料标题和对应的内容标识；根据内容标识从语料库提取语料信息构成模型语料信息，语料信息包括：文件内容；将模型语料信息发送给语言模型，输出问题文本对应的回复答案。根据上述技术方案，可以适应用户提问的多种场景变化，准确地把用户提问和知识库里的知识内容匹配起来，提高用户提问与知识库的关联准确性和全面性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及人工智能，具体而言，涉及一种匹配用户问题语料的方法。

技术介绍

1、当前的语言大模型在自然语言处理领域取得了很大的进展，但是它们也存在一些限制和缺陷。一般来说，这类模型是通过大量的数据进行训练得到的，因此它们的回答往往是基于已有的知识和样本，而对于未知或者专业领域的知识盲区，这些模型可能会出现回答错误或者无法回答的情况。单纯依靠语言大模型输出回答可能会出现幻觉，导致用户得到的答案不准确或者不完整。随着语言大模型参数量的不断增加，其阅读理解能力也在逐渐提高，已经能够在提示工程的帮助下，回答知识盲区的问题。知识库可以将垂直领域的知识进行整合，形成一个结构化的知识库，并通过提示工程使得语言大模型能理解并运用这些知识来回答用户的提问。

2、一般情况下，知识库的结构为常见问题标题向量与答案一一对应，实际应用中，由于用户的语言习惯不同，不同的人对同一件事情的提问的表达用词也会不同,因此，用户实际提出的问题与知识库的问题标题存在差异，在提示工程中将用户问题和知识库进行关联时，如果直接将用户提问生成向量，去知识库进行检索关联，可能会因问题标题与实际提问的向量存在偏差太大而匹配不到答案；而如果从问题答案中提取关键词后生成向量，又不能适应用户提问的多种场景变化。

3、在此情况下，需要一种匹配用户问题语料的方案，准确地把用户提问和知识库里的知识内容匹配起来，提高用户提问与知识库的关联准确性和全面性。

技术实现思路

1、为实现上述目的，本申请提供了一种匹配用户问题语料的方法，包括以下步骤：

2、获取用户提问的问题文本，对问题文本进行问题向量化，生成问题向量；

3、根据问题向量，在标题向量库进行近似度搜索，获取最近似的n条语料标题和对应的内容标识；

4、根据内容标识从语料库提取语料信息构成模型语料信息，语料信息包括：文件内容；

5、将模型语料信息发送给语言模型，输出问题文本对应的回复答案。

6、进一步的，语料信息还包括内关联属性id和外关联属性；

7、其中，内关联属性id为语料库的文件标识，根据内关联属性id获取内关联属性id对应的文件内容；

8、进一步的，模型语料信息还包括内关联属性id对应的文件内容和外关联属性。

9、其中，语料库包括文件标识、文件内容、内关联属性id、外关联属性；

10、语料库的数据来源包括pdf文件；

11、将pdf文件的内容导入语料库的方法包括：获取pdf文档内容作为原始内容；对所述原始内容按章节进行切分，生成多份独立的章节内容，每一份所述章节内容对应的标题为章节标题，为每一份章节内容生成唯一标识为内容标识；

12、将章节内容、内容标识导入语料库，对应语料库的文件内容、文件标识。

13、其中，将章节内容、内容标识导入语料库时，判断章节内容中是否存在引用章节标题，如果存在，获取引用章节标题对应的内容标识作为内关联属性标识，将内关联属性标识导入语料库，对应语料库中的内关联属性id；其中，内关联属性id可以为空，也可以为多个内容标识。

14、进一步的，将章节内容、内容标识导入语料库时，判断章节内容中是否有业务关联关键词，如果存在，将关键词导入语料库，对应语料库中的外关联属性；其中，所述外关联属性可以为空，也可以为多个词语。

15、其中，标题向量库包括语料标题向量、文件标识；

16、标题向量库的数据来源为章节内容、章节标题和内容标识；

17、从数据来源中生成标题向量，将标题向量与章节内容对应的内容标识存储入标题向量库，对应语料标题和文件标识；

18、其中，标题向量包括章节标题进行标题向量化操作生成的数据。

19、进一步的，标题向量还包括：从章节内容中提炼内容标题，对内容标题进行标题向量化操作生成的数据。

20、其中，问题向量化与标题向量化操作采用统一的处理模型，包括：text2vec-large-chinese模型。

21、其中，对原始内容按章节进行切分指根据文档目录来切分，包括：

22、采用正则表达式获取文档目录的标题列表以及层次关系；

23、获取文档删除文档目录后剩余的部分，从开头按文档目录的顺序开始定位大标题和小标题的位置，再按照标题位置对文档进行切分，由此获得切分的结果。

24、根据本专利技术，可以适应用户提问的多种场景变化，准确地把用户提问和知识库里的知识内容匹配起来，提高用户提问与知识库的关联准确性和全面性。

本文档来自技高网...

【技术保护点】

1.一种匹配用户问题语料的方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的匹配用户问题语料的方法，其特征在于，所述语料信息还包括内关联属性ID和外关联属性；

3.根据权利要求1所述的匹配用户问题语料的方法，其特征在于，所述语料库包括文件标识、文件内容、内关联属性ID、外关联属性；

4.根据权利要求3所述的匹配用户问题语料的方法，其特征在于，所述将所述章节内容、内容标识导入语料库时，判断所述章节内容中是否存在引用章节标题，如果存在，获取所述引用章节标题对应的内容标识作为内关联属性标识，将所述内关联属性标识导入所述语料库，对应语料库中的内关联属性ID；其中，所述内关联属性ID可以为空，也可以为多个内容标识。

5.根据权利要求3所述的匹配用户问题语料的方法，其特征在于，所述将所述章节内容、内容标识导入语料库时，判断所述章节内容中是否有业务关联关键词，如果存在，将所述关键词导入所述语料库，对应语料库中的外关联属性；其中，所述外关联属性可以为空，也可以为多个词语。

6.根据权利要求3所述的匹配用户问题语料的方法，其特征在

7.根据权利要求6所述的匹配用户问题语料的方法，其特征在于，所述标题向量还包括：从章节内容中提炼内容标题，对所述内容标题执行标题向量化操作生成的数据。

8.根据权利要求8所述的匹配用户问题语料的方法，其特征在于，所述问题向量化与所述标题向量化采用统一的处理模型，包括：text2vec-large-chinese模型。

9.根据权利要求3所述的匹配用户问题语料的方法，其特征在于，所述对所述原始内容按章节进行切分指根据文档目录来切分，包括：

...

【技术特征摘要】

1.一种匹配用户问题语料的方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的匹配用户问题语料的方法，其特征在于，所述语料信息还包括内关联属性id和外关联属性；

3.根据权利要求1所述的匹配用户问题语料的方法，其特征在于，所述语料库包括文件标识、文件内容、内关联属性id、外关联属性；

4.根据权利要求3所述的匹配用户问题语料的方法，其特征在于，所述将所述章节内容、内容标识导入语料库时，判断所述章节内容中是否存在引用章节标题，如果存在，获取所述引用章节标题对应的内容标识作为内关联属性标识，将所述内关联属性标识导入所述语料库，对应语料库中的内关联属性id；其中，所述内关联属性id可以为空，也可以为多个内容标识。

5.根据权利要求3所述的匹配用户问题语料的方法，其特征在于，所述将所述章节内容、内容标识导...

【专利技术属性】
技术研发人员：欧锦华，黄凯成，李晓鹏，
申请(专利权)人：广州启生信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人