一种基于向量匹配的语言模型回答溯源方法及系统技术方案

技术编号：41464903 阅读：16 留言：0更新日期：2024-05-30 14:20

本发明专利技术提供一种基于向量匹配的语言模型回答溯源方法及系统，涉及自然语言处理技术领域，包括：基于用户资料向大型语言模型进行提问，获取回答内容；将大型语言模型的回答内容进行文本切分，对切分后的各回答文本片段分别进行向量化，获得向量化的各回答文本片段；将用户资料进行向量化，获取向量化的用户资料；将向量化的各回答文本片段分别与向量化的用户资料进行相似度计算，获取相似度评分；预设相似度阈值，若向量化的回答文本片段与向量化的用户资料的相似度评分大于相似度阈值，则判定该回答文本片段与用户资料相关；提取该回答文本片段在用户资料中对应的内容，作为来源信息。本发明专利技术提高了判断回答准确性的便利性和可靠性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及自然语言处理，尤其是涉及一种基于向量匹配的语言模型回答溯源方法及系统。

技术介绍

1、大型语言模型(如通义千问、文心一言、gpt-4等)在自然语言处理领域取得了显著进展，它们能够提供复杂的问答服务、内容生成和其他语言相关任务。然而，随着这些模型的普及和应用范围的扩大，它们在回答生成的准确性和可靠性方面面临挑战，尤其是在处理复杂或嵌入式提问(prompt)时。这些大型模型有时会产生所谓的“幻觉”问题，即生成的回答可能看似合理，但实际上并不准确或与提问内容不符。此问题的根源在于，这些模型往往基于大量数据进行训练，但它们并不总是能够有效地将用户提问中的关键信息与其庞大的知识库进行准确匹配。

2、当使用大型语言模型时，即使通过prompt嵌入方式提供回答资料，仍然存在无法完全保证回答准确性的情况。这主要是因为即便用户在prompt中提供了详细的背景信息或具体数据，语言模型在处理和解释这些信息时可能仍存在局限性。首先，大型模型虽然能理解和处理复杂的语言结构，但它们在理解上下文的具体细节时可能不如人类直观。这意味着即使提供...

【技术保护点】

1.一种基于向量匹配的语言模型回答溯源方法，其特征在于，包括：

2.根据权利要求1所述的基于向量匹配的语言模型回答溯源方法，其特征在于：将所述大型语言模型的回答内容进行文本切分，包括：

3.根据权利要求1所述的基于向量匹配的语言模型回答溯源方法，其特征在于：对切分后的各回答文本片段分别进行向量化，包括：

4.根据权利要求1所述的基于向量匹配的语言模型回答溯源方法，其特征在于：将用户资料进行向量化，获取向量化的用户资料，包括：

5.根据权利要求1所述的基于向量匹配的语言模型回答溯源方法，其特征在于：采用向量余弦相似度计算公式计算向量化的各回答...

【技术特征摘要】

1.一种基于向量匹配的语言模型回答溯源方法，其特征在于，包括：

2.根据权利要求1所述的基于向量匹配的语言模型回答溯源方法，其特征在于：将所述大型语言模型的回答内容进行文本切分，包括：

3.根据权利要求1所述的基于向量匹配的语言模型回答溯源方法，其特征在于：对切分后的各回答文本片段分别进行向量化，包括：

4.根据权利要求1所述的基于向量匹配的语言模型回答溯源方法，其特征在于：将用户资料进行向量化，获取向量化的用户资料，包括：

5.根据权利要求1所述的基于向量匹配的语言模型回答溯源方法，其特征在于：采用向量余弦相似度计算公式计算向量化的各回答...

【专利技术属性】
技术研发人员：陈杰，陶冶，黄培军，
申请(专利权)人：行至智能北京技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人