模型训练和信息处理方法、装置、电子设备及存储介质制造方法及图纸

技术编号：39723463 阅读：6 留言：0更新日期：2023-12-17 23:28

本申请实施例提供了一种模型训练和信息处理方法、装置、电子设备及存储介质，涉及人工智能、机器学习、云技术、赛事应用等领域。本申请实施例在训练第一网络模型时，先训练第二网络模型，由于第二网络模型基于赛事信息样本和标注数据训练得到的，能够提取各候选事件样本的重要性，再使用第二网络模型给出第一网络模型选择事件后的奖励，使得第一网络模型能够自主地进行学习，学习得到的第一网络模型能够让解说事件的选择变得更加智能化，从而使得基于人工智能的赛事解说能够用于各种比赛场景，提高比赛的趣味性，降低解说成本。降低解说成本。降低解说成本。

全部详细技术资料下载

【技术实现步骤摘要】
模型训练和信息处理方法、装置、电子设备及存储介质

[0001]本申请涉及人工智能(Artificial Intelligence，AI)
，具体而言，本申请涉及一种模型训练和信息处理方法、装置、电子设备及存储介质。

技术介绍

[0002]随着竞技项目的多样化发展，赛事的解说需求急剧上升。与此同时，赛事解说人员的缺口也越来越大，这就使得赛事解说只适用于大型的比赛场景，如全国联赛等，而中小型比赛则缺乏真人解说，使得赛事的观赏缺乏趣味性，观看人数较少，活跃程度较低。
[0003]基于人工智能的赛事解说可以使得赛事的解说成本大幅降低。但目前基于人工智能的赛事解说，大部分都是在一些基于规则的事件触发后进行解说。
[0004]这些基于规则的事件触发在一些赛事不够复杂的情况下有一定的效果，例如战术竞争类游戏赛事。但是，在一些如第一人称射击类游戏等赛事复杂的游戏赛事上，基于规则的事件触发过于依赖某些规则，不够智能化，而导致在赛事环境特别复杂的情况下总是可能选择到次优解。

技术实现思路

[0005]本申请实施例的目的旨在能解决解说事件的选择不够智能化的问题。
[0006]根据本申请实施例的一个方面，提供了一种模型训练方法，该方法包括：
[0007]获取至少一场赛事的多个时刻的训练数据，训练数据包括候选事件样本对应的赛事信息样本以及对候选事件样本的标注数据，标注数据包括候选事件样本的优先级排序信息；
[0008]基于赛事信息样本和标注数据，对预设第二网络模型进行训练，得到训练

【技术保护点】

【技术特征摘要】
1.一种模型训练方法，其特征在于，包括：获取至少一场赛事的多个时刻的训练数据，所述训练数据包括候选事件样本对应的赛事信息样本以及对所述候选事件样本的标注数据，所述标注数据包括所述候选事件样本的优先级排序信息；基于所述赛事信息样本和所述标注数据，对预设第二网络模型进行训练，得到训练好的第二网络模型；重复执行多个时刻的训练数据对应的以下第一训练步骤，直至满足第一训练结束条件，得到训练好的第一网络模型：基于目标时刻的所述赛事信息样本，通过预设第一网络模型，得到事件选择结果；基于所述事件选择结果，通过训练好的所述第二网络模型，得到目标时刻的事件选择奖励；基于目标时刻的所述事件选择奖励，更新所述预设第一网络模型，并将后一时刻作为目标时刻，重复所述第一训练步骤，直至满足所述第一训练结束条件，将满足所述第一训练结束条件的预设第一网络模型作为训练好的第一网络模型。2.根据权利要求1所述的模型训练方法，其特征在于，所述赛事信息包括以下至少一种：所述候选事件的事件集合；历史已选择事件的事件集合；当前全局状态属性；当前目标范围状态属性。3.根据权利要求1所述的模型训练方法，其特征在于，所述基于所述赛事信息样本和所述标注数据，对预设第二网络模型进行训练，包括：重复执行以下第二训练步骤，直至满足第二训练结束条件：将所述标注数据进行两两配对，得到配对列表；基于所述赛事信息样本，通过预设第二网络模型，得到各个所述候选事件样本对应的所述事件选择奖励；针对所述配对列表中的每一对标注数据，获取对应的两个所述候选事件样本的所述事件选择奖励；基于所述每一对标注数据对应的两个所述事件选择奖励和预设损失函数，若确定满足所述第二训练结束条件，则得到训练好的第二网络模型，若不满足所述第二训练结束条件，则更新所述预设第二网络模型，并重复所述第二训练步骤。4.根据权利要求3所述的模型训练方法，其特征在于，所述基于所述赛事信息样本，通过预设第二网络模型，得到各个所述候选事件样本对应的所述事件选择奖励，包括：针对每个所述候选事件样本，将所述候选事件样本和所述赛事信息样本进行融合，得到各个所述候选事件样本对应的融合信息；基于各个所述候选事件样本对应的融合信息，分别通过预设第二网络模型，得到各个所述候选事件样本对应的所述事件选择奖励。5.根据权利要求3所述的模型训练方法，其特征在于，所述预设损失函数的值表征每一对标注数据对应的两个所述事件选择奖励是否与所述优先级排序信息相对应。
6.根据权利要求1
‑
5任一项所述的模型训练方法，其特征在于，所述基于目标时刻的所述事件选择奖励，更新所述预设第一网络模型，包括：确定后一时刻的所述赛事信息样本；将目标时刻的所述赛事信息样本、目标时刻的所述事件选择结果，目标时刻的所述事件选择奖励和后一时刻的所述赛事信息样本确定为样本元组；基于所述样本元组，更新所述预设第一网络模型。7.根据权利要求6所述的模型训练方法，其特征在于，所述确定后一时刻的所述赛事信息样本，包括：获取各个时刻的状态字典，所述状态字典包括每个时刻的所述赛事信息样本与时刻的映射关系；在得到目标时刻的所述事件选择结果之后，在所述状态字典中查询后一时刻的所述赛事信息样本。8.根...

【专利技术属性】
技术研发人员：李鸣霄，陈梓阳，杨奕凡，周聪，张玉律，郑哲，杜楠，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人