The present disclosure embodiments disclose a training method, device, electronic equipment and storage medium of a reasoning model, which includes: obtaining the current topic status of the current topic by targeting the current topic in the training sample; selecting the current action to be executed according to the current topic status; executing the current action to be executed to obtain a new topic. The state of the new topic is regarded as the current topic state of the current topic, and the corresponding current action to be executed is continued to be selected and executed until the stopping condition is satisfied. Such a technical scheme can enable the reasoning model to accumulate the experience of solving the problem, optimize the accuracy of reasoning, and train the reasoning model to realize the self-determination of complex elementary mathematics problems in practical use. Dynamic reasoning.
【技术实现步骤摘要】
一种推理模型的训练方法、装置、电子设备及存储介质
本公开涉及互联网
,尤其涉及一种推理模型的训练方法、装置、电子设备及存储介质。
技术介绍
自动推理是机器解题的核心技术之一,是根据题目给定的条件、问题以及系统内部定义的一系列动作(推理规则),通过执行动作对条件和问题不断进行变化,直到新的条件满足新的问题,即找出可行的解题路径。目前的推理技术主要是基于前推、后推和双向搜索推理方法。这三种推理方法主要存在的问题是搜索空间随着条件、问题和推理规则的数量增加而几何级增长,因此只能用解决一些简单的推理问题。虽然在一些特定领域可以通过针对性设计独特的推理策略和优化方法,如几何推理的消点法,解决特定领域的复杂问题。但是这些方法局限于自身的领域无法推广,同时,这些方法依靠特定机械的方法和策略,无法达到类似人一样的推理的灵活性。
技术实现思路
本公开提供一种推理模型的训练方法、装置、电子设备及存储介质,可以实现对题目的自动推理。第一方面,本公开实施例提供了一种推理模型的训练方法,包括:针对训练样本中的当前题目,获取所述当前题目的当前题目状态;根据所述当前题目状态选取当前待执行动作 ...
【技术保护点】
1.一种推理模型的训练方法,其特征在于,包括:针对训练样本中的当前题目,获取所述当前题目的当前题目状态;根据所述当前题目状态选取当前待执行动作;执行所述当前待执行动作,得到新的题目状态;将所述新的题目状态作为当前题目的当前题目状态,继续选取并执行相应的当前待执行动作,直到满足停止条件;其中,所述题目状态包括题目中的条件和问题。
【技术特征摘要】
1.一种推理模型的训练方法,其特征在于,包括:针对训练样本中的当前题目,获取所述当前题目的当前题目状态;根据所述当前题目状态选取当前待执行动作;执行所述当前待执行动作,得到新的题目状态;将所述新的题目状态作为当前题目的当前题目状态,继续选取并执行相应的当前待执行动作,直到满足停止条件;其中,所述题目状态包括题目中的条件和问题。2.根据权利要求1所述的方法,其特征在于,根据所述当前题目状态选取当前待执行动作,包括:根据所述当前题目状态在动作数据库中获取相关解题动作;根据预设的规则在所述相关解题动作中选取当前待执行动作。3.根据权利要求2所述的方法,其特征在于,根据预设的规则在所述相关解题动作中选取当前待执行动作,包括:根据预先设定的与所述解题动作相关的抽取概率选出当前待执行动作。4.根据权利要求2所述的方法,其特征在于,根据预设的规则在所述相关解题动作中选取当前待执行动作,包括:通过在神经网络模型中输入当前题目状态和各解题动作,预测所述各解题动作对应的收益;选取收益值最大的解题动作为当前待执行动作。5.根据权利要求2所述的方法,其特征在于,根据预设的规则在所述相关解题动作中选取当前待执行动作,包括:获取一随机数,当随机数小于预设阈值时,从所述相关解题动作中随机选择一个动作作为当前待执行动作;当所述随机数大于所述预设阈值时,通过在神经网络模型中输入当前题目状态和各解题动作,预测所述各解题动作对应的收益;选取收益值最大的解题动作为当前待执行动作。6.根据权利要求1所述的方法,其特征在于,将所述新的题目状态作为当前题目的当前题目状态,继续选取并执行相应的当前待执行动...
【专利技术属性】
技术研发人员:金霄然,
申请(专利权)人:上海仁静信息技术有限公司,
类型:发明
国别省市:上海,31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。