搜索任务处理方法及目标评分模型的训练方法技术

技术编号：45638423 阅读：25 留言：0更新日期：2025-06-27 18:45

本说明书实施例提供搜索任务处理方法及目标评分模型的训练方法，其中，搜索任务处理方法包括：确定目标搜索任务的目标节点，其中，目标节点为需要进行迭代优化的答案；通过目标评分模型确定目标节点的评分结果，其中，目标评分模型基于至少一个样本节点以及对应的标签评分训练获得，标签评分基于样本节点的正确性奖励或执行效率奖励确定；基于目标节点的评分结果进行节点扩展，以确定目标搜索任务的搜索结果。引入样本节点的正确性奖励或执行效率奖励确定标签评分，通过特定的标签评分训练获得目标评分模型，引入专有的目标评分模型对目标节点进行评分，能够快速、稳定、准确地评估目标节点的质量，提高评分的效率且确保评分的准确性。

全部详细技术资料下载

【技术实现步骤摘要】

本说明书实施例涉及人工智能，特别涉及一种搜索任务处理方法及目标评分模型的训练方法。

技术介绍

1、随着计算机技术和人工智能技术的快速发展，基于大模型（llm）的生成工具越来越重要，大模型在推理复杂问题时，往往很难直接生成较优的答案，因而可以借助蒙特卡洛树搜索（monte carlo tree search，mcts）对大模型生成的答案进行优化。然而，蒙特卡洛树搜索的耗时长、评分不准确等问题限制了其实际应用。因而，亟需一种更高效、更准确的搜索任务处理方案。

技术实现思路

1、有鉴于此，本说明书实施例提供了一种搜索任务处理方法。本说明书一个或者多个实施例同时涉及一种目标评分模型的训练方法，一种搜索任务处理装置，一种目标评分模型的训练装置，一种计算设备，一种电子设备，一种计算机可读存储介质以及一种计算机程序产品，以解决现有技术中存在的技术缺陷。

2、根据本说明书实施例的第一方面，提供了一种搜索任务处理方法，包括：

3、确定目标搜索任务的目标节点，其中，所述目标节点为需要进...

【技术保护点】

1.一种搜索任务处理方法，包括：

2.根据权利要求1所述的方法，所述基于所述目标节点的评分结果进行节点扩展，以确定所述目标搜索任务的搜索结果，包括：

3.根据权利要求2所述的方法，所述目标节点为目标生成内容；所述对所述目标节点进行扩展获得扩展节点，包括：

4.根据权利要求2所述的方法，所述基于所述目标搜索任务当前的各个节点，确定所述目标搜索任务的搜索结果，包括：

5.根据权利要求2所述的方法，所述确定所述目标节点的评分结果是否满足停止搜索约束，包括：

6.根据权利要求1所述的方法，所述确定目标搜索任务的目标节

【技术特征摘要】

1.一种搜索任务处理方法，包括：

2.根据权利要求1所述的方法，所述基于所述目标节点的评分结果进行节点扩展，以确定所述目标搜索任务的搜索结果，包括：

3.根据权利要求2所述的方法，所述目标节点为目标生成内容；所述对所述目标节点进行扩展获得扩展节点，包括：

4.根据权利要求2所述的方法，所述基于所述目标搜索任务当前的各个节点，确定所述目标搜索任务的搜索结果，包括：

5.根据权利要求2所述的方法，所述确定所述目标节点的评分结果是否满足停止搜索约束，包括：

6.根据权利要求1所述的方法，所述确定目标搜索任务的目标节点之前，还包括：

7.一种目标评分模型的训练方法，包括：

8.根据权利要求7所述的方法，所述基于所述样本节点的标签评分和所述预测评分，确定所述初始评分模型的目标损失，包括：

9.根据权利要求7所述的方法，所述样本节点为样本答案；所述获取目标搜索任务下的训练样本集，包括：

10.根据权利要求9所述的方法，所述获取所...

【专利技术属性】
技术研发人员：程旭池，李屾，
申请(专利权)人：阿里云飞天杭州云计算技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人