【技术实现步骤摘要】
本专利技术属于大模型,具体涉及基于多维度评估和动态权重调整的大语言模型选择方法。
技术介绍
1、当前,大语言模型在各类自然语言处理任务中表现优异,如生成文本、问答系统和对话模拟,然而,随着大语言模型的复杂性和应用场景的多样化,选择最适合某一特定任务的大语言模型变得越来越困难。现有技术主要依赖于单一评估指标或人工经验,无法全面、客观地评估模型性能。例如,rouge指标虽然能够评估生成文本与参考文本之间的相似度,但无法评估文本质量、语义相似度、生成内容的安全性和合规性等多方面的性能,逻辑性虽然能检查模型的回答是否与用户的问题相关,是否能按照对话上下文进行合理的回答,但不能全面评估大语言模型在实际对话场景中的表现,无法确保其在不同应用场景中的有效性和可靠性,此外还需要全面评估大语言模型在在线助手应用中的表现,确保其在实际应用中的有效性和用户满意度;
2、并且,现有技术缺乏动态调整评估权重的机制,无法根据实际应用中的反馈不断优化评估标准。因此,如何建立一个多维度评估和动态权重调整的自动化大语言模型选择方法,成为当前
的一个重要
【技术保护点】
1.基于多维度评估和动态权重调整的大语言模型选择方法,其特征在于:包括以下步骤:
2.根据权利要求1所述的方法,其特征在于:所述对所述待评估大语言模型进行文本生成功能评估、对话问答功能评估和Web应用功能评估,所述文本生成功能评估包括:
3.根据权利要求2所述的方法,其特征在于:所述对所述待评估大语言模型进行文本生成功能评估、对话问答功能评估和Web应用功能评估,所述对话问答功能评估包括问答评估和对话评估:
4.根据权利要求3所述的方法,其特征在于:所述对所述待评估大语言模型进行文本生成功能评估、对话问答功能评估和Web应用功能评估
...【技术特征摘要】
1.基于多维度评估和动态权重调整的大语言模型选择方法,其特征在于:包括以下步骤:
2.根据权利要求1所述的方法,其特征在于:所述对所述待评估大语言模型进行文本生成功能评估、对话问答功能评估和web应用功能评估,所述文本生成功能评估包括:
3.根据权利要求2所述的方法,其特征在于:所述对所述待评估大语言模型进行文本生成功能评估、对话问答功能评估和web应用功能评估,所述对话问答功能评估包括问答评估和对话评估:
4.根据权利要求3所述的方法,其特征在于:所述对所述待评估大语言模型进行文本生成功能评估、对话问答功能评估和web应用功能评估,所述web应用功能评估包括在线客服评估和在线助手评估:
5.根据权利要求4所述的方法,其特征在于:所述并从各个评估过程中提取各个评估维度中的运行过程数据作为待评估大语言模型的实际表现数据,从各个评估结果中提取用户评分数据作为待评估大语言模型的用户反馈数据,包括:
6.根据权利要求...
【专利技术属性】
技术研发人员:吕亮,李玮,王洪江,
申请(专利权)人:北京珊瑚礁科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。