模型训练和信息处理方法、装置、电子设备及存储介质制造方法及图纸

技术编号:39723463 阅读:6 留言:0更新日期:2023-12-17 23:28
本申请实施例提供了一种模型训练和信息处理方法、装置、电子设备及存储介质,涉及人工智能、机器学习、云技术、赛事应用等领域。本申请实施例在训练第一网络模型时,先训练第二网络模型,由于第二网络模型基于赛事信息样本和标注数据训练得到的,能够提取各候选事件样本的重要性,再使用第二网络模型给出第一网络模型选择事件后的奖励,使得第一网络模型能够自主地进行学习,学习得到的第一网络模型能够让解说事件的选择变得更加智能化,从而使得基于人工智能的赛事解说能够用于各种比赛场景,提高比赛的趣味性,降低解说成本。降低解说成本。降低解说成本。

【技术实现步骤摘要】
模型训练和信息处理方法、装置、电子设备及存储介质


[0001]本申请涉及人工智能(Artificial Intelligence,AI)
,具体而言,本申请涉及一种模型训练和信息处理方法、装置、电子设备及存储介质。

技术介绍

[0002]随着竞技项目的多样化发展,赛事的解说需求急剧上升。与此同时,赛事解说人员的缺口也越来越大,这就使得赛事解说只适用于大型的比赛场景,如全国联赛等,而中小型比赛则缺乏真人解说,使得赛事的观赏缺乏趣味性,观看人数较少,活跃程度较低。
[0003]基于人工智能的赛事解说可以使得赛事的解说成本大幅降低。但目前基于人工智能的赛事解说,大部分都是在一些基于规则的事件触发后进行解说。
[0004]这些基于规则的事件触发在一些赛事不够复杂的情况下有一定的效果,例如战术竞争类游戏赛事。但是,在一些如第一人称射击类游戏等赛事复杂的游戏赛事上,基于规则的事件触发过于依赖某些规则,不够智能化,而导致在赛事环境特别复杂的情况下总是可能选择到次优解。

技术实现思路

[0005]本申请实施例的目的旨在能解决解说事件的选择不够智能化的问题。
[0006]根据本申请实施例的一个方面,提供了一种模型训练方法,该方法包括:
[0007]获取至少一场赛事的多个时刻的训练数据,训练数据包括候选事件样本对应的赛事信息样本以及对候选事件样本的标注数据,标注数据包括候选事件样本的优先级排序信息;
[0008]基于赛事信息样本和标注数据,对预设第二网络模型进行训练,得到训练好的第二网络模型;
[0009]重复执行多个时刻的训练数据对应的以下第一训练步骤,直至满足第一训练结束条件,得到训练好的第一网络模型:
[0010]基于目标时刻的赛事信息样本,通过预设第一网络模型,得到事件选择结果;
[0011]基于事件选择结果,通过训练好的第二网络模型,得到目标时刻的事件选择奖励;
[0012]基于目标时刻的事件选择奖励,更新预设第一网络模型,并将后一时刻作为目标时刻,重复第一训练步骤,直至满足第一训练结束条件,将满足第一训练结束条件的预设第一网络模型作为训练好的第一网络模型。
[0013]根据本申请实施例的另一个方面,提供了一种信息处理方法,该方法包括:
[0014]获取当前待解说的候选事件,并确定所述候选事件对应的赛事信息;
[0015]基于所述赛事信息,通过采用本申请实施例提供的模型训练方法训练好的第一网络模型,在所述候选事件中选择解说事件。
[0016]根据本申请实施例的又一个方面,提供了一种模型训练装置,该装置包括:
[0017]第一获取模块,用于获取至少一场赛事的多个时刻的训练数据,所述训练数据包
括候选事件样本对应的赛事信息样本以及对所述候选事件样本的标注数据,所述标注数据包括所述候选事件样本的优先级排序信息;
[0018]第一训练模块,用于基于所述赛事信息样本和所述标注数据,对预设第二网络模型进行训练,得到训练好的第二网络模型;
[0019]第二训练模块,用于重复执行多个时刻的训练数据对应的以下第一训练步骤,直至满足第一训练结束条件,得到训练好的第一网络模型:
[0020]基于目标时刻的所述赛事信息样本,通过预设第一网络模型,得到事件选择结果;
[0021]基于所述事件选择结果,通过训练好的所述第二网络模型,得到目标时刻的事件选择奖励;
[0022]基于目标时刻的所述事件选择奖励,更新所述预设第一网络模型,并将后一时刻作为目标时刻,重复所述第一训练步骤,直至满足所述第一训练结束条件,将满足所述第一训练结束条件的预设第一网络模型作为训练好的第一网络模型。
[0023]根据本申请实施例的再一个方面,提供了一种信息处理装置,该装置包括:
[0024]第二获取模块,用于获取当前待解说的候选事件,并确定候选事件对应的赛事信息;
[0025]信息处理模块,用于基于赛事信息,通过采用本申请实施例提供的模型训练方法训练好的第一网络模型,在候选事件中选择解说事件。
[0026]根据本申请实施例的还一个方面,提供了一种电子设备,该电子设备包括存储器、处理器及存储在存储器上的计算机程序,处理器执行计算机程序以实现本申请实施例提供的模型训练方法。
[0027]根据本申请实施例的还一个方面,提供了一种电子设备,该电子设备包括存储器、处理器及存储在存储器上的计算机程序,处理器执行计算机程序以实现本申请实施例提供的信息处理方法。
[0028]根据本申请实施例的还一个方面,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现本申请实施例提供的模型训练方法。
[0029]根据本申请实施例的还一个方面,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现本申请实施例提供的信息处理方法。
[0030]根据本申请实施例的还一个方面,提供了一种计算机程序产品,包括计算机程序,计算机程序被处理器执行时实现本申请实施例提供的模型训练方法。
[0031]根据本申请实施例的还一个方面,提供了一种计算机程序产品,包括计算机程序,计算机程序被处理器执行时实现本申请实施例提供的信息处理方法。
[0032]本申请实施例提供的模型训练和信息处理方法、装置、电子设备及存储介质,在训练第一网络模型时,先训练第二网络模型,由于第二网络模型基于赛事信息样本和标注数据训练得到的,能够提取各候选事件样本的重要性,再使用第二网络模型给出第一网络模型选择事件后的奖励,使得第一网络模型能够自主地进行学习,学习得到的第一网络模型能够让解说事件的选择变得更加智能化,从而使得基于人工智能的赛事解说能够用于各种比赛场景,提高比赛的趣味性,降低赛事解说成本。
附图说明
[0033]为了更清楚地说明本申请实施例中的技术方案,下面将对本申请实施例描述中所需要使用的附图作简单地介绍。
[0034]图1a为本申请实施例提供的一种信息处理方法的流程示意图;
[0035]图1b为本申请实施例提供的一种模型训练方法的流程示意图;
[0036]图2为本申请实施例提供的一种获取候选事件方法的示意图;
[0037]图3为本申请实施例提供的一种赛事解说的事件选择的示意图;
[0038]图4为本申请实施例提供的一种智能化解说事件选择的示意图;
[0039]图5为本申请实施例提供的另一种智能化解说事件选择的示意图;
[0040]图6为本申请实施例提供的一种RM模型训练过程的示意图;
[0041]图7为本申请实施例提供的一种学习RL事件选择模型的示意图;
[0042]图8为本申请实施例提供的一种第一网络模型训练的示意图;
[0043]图9为本申请实施例提供的一种获取标注数据方法的示意图;
[0044]图10为本申请实施例提供的另一种获取标注数据方法的示意图;...

【技术保护点】

【技术特征摘要】
1.一种模型训练方法,其特征在于,包括:获取至少一场赛事的多个时刻的训练数据,所述训练数据包括候选事件样本对应的赛事信息样本以及对所述候选事件样本的标注数据,所述标注数据包括所述候选事件样本的优先级排序信息;基于所述赛事信息样本和所述标注数据,对预设第二网络模型进行训练,得到训练好的第二网络模型;重复执行多个时刻的训练数据对应的以下第一训练步骤,直至满足第一训练结束条件,得到训练好的第一网络模型:基于目标时刻的所述赛事信息样本,通过预设第一网络模型,得到事件选择结果;基于所述事件选择结果,通过训练好的所述第二网络模型,得到目标时刻的事件选择奖励;基于目标时刻的所述事件选择奖励,更新所述预设第一网络模型,并将后一时刻作为目标时刻,重复所述第一训练步骤,直至满足所述第一训练结束条件,将满足所述第一训练结束条件的预设第一网络模型作为训练好的第一网络模型。2.根据权利要求1所述的模型训练方法,其特征在于,所述赛事信息包括以下至少一种:所述候选事件的事件集合;历史已选择事件的事件集合;当前全局状态属性;当前目标范围状态属性。3.根据权利要求1所述的模型训练方法,其特征在于,所述基于所述赛事信息样本和所述标注数据,对预设第二网络模型进行训练,包括:重复执行以下第二训练步骤,直至满足第二训练结束条件:将所述标注数据进行两两配对,得到配对列表;基于所述赛事信息样本,通过预设第二网络模型,得到各个所述候选事件样本对应的所述事件选择奖励;针对所述配对列表中的每一对标注数据,获取对应的两个所述候选事件样本的所述事件选择奖励;基于所述每一对标注数据对应的两个所述事件选择奖励和预设损失函数,若确定满足所述第二训练结束条件,则得到训练好的第二网络模型,若不满足所述第二训练结束条件,则更新所述预设第二网络模型,并重复所述第二训练步骤。4.根据权利要求3所述的模型训练方法,其特征在于,所述基于所述赛事信息样本,通过预设第二网络模型,得到各个所述候选事件样本对应的所述事件选择奖励,包括:针对每个所述候选事件样本,将所述候选事件样本和所述赛事信息样本进行融合,得到各个所述候选事件样本对应的融合信息;基于各个所述候选事件样本对应的融合信息,分别通过预设第二网络模型,得到各个所述候选事件样本对应的所述事件选择奖励。5.根据权利要求3所述的模型训练方法,其特征在于,所述预设损失函数的值表征每一对标注数据对应的两个所述事件选择奖励是否与所述优先级排序信息相对应。
6.根据权利要求1

5任一项所述的模型训练方法,其特征在于,所述基于目标时刻的所述事件选择奖励,更新所述预设第一网络模型,包括:确定后一时刻的所述赛事信息样本;将目标时刻的所述赛事信息样本、目标时刻的所述事件选择结果,目标时刻的所述事件选择奖励和后一时刻的所述赛事信息样本确定为样本元组;基于所述样本元组,更新所述预设第一网络模型。7.根据权利要求6所述的模型训练方法,其特征在于,所述确定后一时刻的所述赛事信息样本,包括:获取各个时刻的状态字典,所述状态字典包括每个时刻的所述赛事信息样本与时刻的映射关系;在得到目标时刻的所述事件选择结果之后,在所述状态字典中查询后一时刻的所述赛事信息样本。8.根...

【专利技术属性】
技术研发人员:李鸣霄陈梓阳杨奕凡周聪张玉律郑哲杜楠
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1