System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种用于节目推荐的模型训练方法、系统、设备及介质技术方案_技高网

一种用于节目推荐的模型训练方法、系统、设备及介质技术方案

技术编号:41715542 阅读:16 留言:0更新日期:2024-06-19 12:43
本申请公开了一种用于节目推荐的模型训练方法、系统、设备及介质,涉及深度学习技术领域。方法包括以下步骤:步骤S1:构建节目推荐模型;步骤S2:使用基于节目数据生成的训练数据训练所述节目推荐模型;步骤S3:基于用户偏好数据训练奖励模型,使用所述奖励模型进一步优化所述节目推荐模型;步骤S4:获取用户输入的查询文本数据,调用优化后的所述节目推荐模型,进行预测并返回推荐的节目。通过大模型的语义理解能力理解用户的意图,在用户与节目间建立一个桥梁,帮助用户快速准确定位目标节目,提高推荐节目准确度。

【技术实现步骤摘要】

本申请涉及深度学习,尤其涉及一种用于节目推荐的模型训练方法、系统、设备及介质


技术介绍

1、随着媒体视听行业的快速发展,大量电视、网络节目开始涌现,用户面临越来越多的选择,但是寻找自己感兴趣的内容却变得更加困难。传统的检索手段已经无法满足用户的需求,因为用户需要花费大量时间来浏览和筛选,这增加了用户的观看成本。

2、当前节目推荐方法大多需要根据用户的历史行为数据使用统计的方法离线构建用户画像,对用户画像使用机器学习算法进行分析计算,根据得分对内容进行召回排序后进行推荐。这种方式存在着流程繁琐、数据量大、效率较低等问题。

3、近年来,大型语言模型的出现带来了突破式的语义理解能力,再利用上知识图谱的知识理论,能够基于用户的喜好以及诉求生成智能化、专业化的推荐。但目前还没有基于大模型的智能推荐方法被引入到节目推荐中,利用大模型的语义理解能力帮助用户快速定位想要观看的内容,同时也缺乏智能推荐大模型的训练方法。


技术实现思路

1、本申请提供了一种用于节目推荐的模型训练方法、系统、设备及介质,用以解决上述问题。

2、一方面,本申请提供了一种用于节目推荐的模型训练方法,所述方法包括以下步骤:步骤s1:构建节目推荐模型;步骤s2:使用基于节目数据生成的训练数据训练所述节目推荐模型;步骤s3:基于用户偏好数据训练奖励模型,使用所述奖励模型进一步优化所述节目推荐模型;步骤s4:获取用户输入的查询文本数据,调用优化后的所述节目推荐模型, 进行预测并返回推荐的节目。</p>

3、在本申请的一种实现方式中,所述步骤s2,具体包括:步骤s21:从节目数据库中获取所有节目的结构化数据,将所述结构化数据进行预处理为节目实体关系三元组;其中,所述实体关系三元组包括:节目名称、演员关系以及主演人员;步骤s22:基于所述节目实体关系三元组生成节目知识图谱;步骤s23:基于广度优先搜索算法遍历知识图谱中的关系链接,计算实体之间的最小步数,保留2*n以内的实体关系路径;步骤s24:将所述实体关系路径输入所述节目推荐模型进行句子生成,得到符合规范的训练数据;步骤s25:基于所述训练数据对所述节目推荐模型进行微调。

4、在本申请的一种实现方式中,所述步骤s23,具体包括:创建一个先进先出的队列和一个用于记录已访问节点的集合;将起始节点放入所述队列中,并将其标记为已访问;当所述队列不为空时,从所述队列中取出一个节点作为当前节点,检查当前节点是否是目标节点,如果是目标节点,则搜索结束;如果当前节点不是目标节点,则将其所有未访问的邻居节点加入所述队列,并将它们标记为已访问;如果所述队列为空,表示无法从起点到达目标节点,搜索结束。

5、在本申请的一种实现方式中,所述步骤s25中,对所述节目推荐模型进行微调,具体包括:基于参数冻结方法对原始基础大模型部分参数进行冻结操作,仅训练部分参数,以达到在单卡操作;基于冻结预训练模型权重,将可训练的秩分解矩阵注入到transformer层的每个权重中,以减少下游任务的可训练参数数量;在transformer每层加入prompt参数进行微调。

6、在本申请的一种实现方式中,所述步骤s4,具体包括:步骤s41:将所述查询文本数据输入所述节目推荐模型中;步骤s42:解析所述查询文本数据;步骤s43:输出预测的节目对应的节目介绍及索引;步骤s44:响应于用户的播放指令,播放相关节目。

7、在本申请的一种实现方式中,所述步骤s3,具体包括:步骤s31:收集用户偏好数据;步骤s32:基于rlhf强化学习算法训练奖励模型,并通过所述奖励模型对所述节目推荐模型进行优化;步骤s33:基于用户反馈信号进一步优化所述节目推荐模型。

8、在本申请的一种实现方式中,所述步骤s32中,训练奖励模型的过程,具体为:步骤s3201:构建一个奖励模型;步骤s3202:使用所述用户偏好数据作为奖励信号,训练所述奖励模型,其中loss计算公式为:

9、

10、其中,表示输入的查询文本;y0表示模型输出偏好为正样本;y1表示模型输出偏好为负样本;d表示节目偏好数据集;i表示奖励值,一般取0/1;表示参数为的奖励模型的值;表示sigmoid函数;奖励模型接收一系列用户查询文本并返回一个标量奖励,数值上对应人的偏好,得分越高越符合用户的期望;步骤s3203:基于近段策略优化算法对经由所述奖励模型优化后生成的推荐节目进行评分,并通过评分进一步微调所述节目推荐模型;步骤s3204:重复步骤s3201-s3203,不断进行微调和迭代。

11、本申请还提供了一种用于节目推荐的模型训练系统,所述系统包括:模型构建模块,用于构建节目推荐模型;模型训练模块,用于使用基于节目数据生成的训练数据训练所述节目推荐模型;模型优化模块,用于基于用户偏好数据训练奖励模型,使用所述奖励模型进一步优化所述节目推荐模型;测试模块,用于获取用户输入的查询文本数据,调用优化后的所述节目推荐模型, 进行预测并返回推荐的节目。

12、本申请还提供了一种用于节目推荐的模型训练设备,所述设备包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够完成前述的一种用于节目推荐的模型训练方法。

13、本申请还提供了一种用于节目推荐的模型训练的非易失性计算机存储介质,存储有计算机可执行指令,所述计算机可执行指令用于执行前述的一种用于节目推荐的模型训练方法。

14、本申请提供的一种用于节目推荐的模型训练方法、系统、设备及介质,具有以下有益效果:

15、(1)、从存储节目数据的数据库中获取节目的结构化数据。这些数据包括节目名称和演员关系等信息。这些数据通过预处理和文本序列转换,被整理成适合进行模型训练的格式。

16、(2)、生成实体关系三元组,再由实体关系三元组构建一个节目的知识图谱。知识图谱由实体节点和它们之间的关系边组成,形成一个丰富的关联网络,十分有利于模型的学习。

17、(3)、利用广度优先搜索算法遍历知识图谱中的关系链接,计算实体之间的最短路径或最小步数。为了提高推荐的准确性和多样性,本专利技术限定了步数在2*n以内的路径,保留了相对较短的路径。

18、(4)、利用得到的训练数据对大语言模型进行微调。通过使用生成的训练数据进行微调训练,提高模型在节目推荐方面的性能和适应性。

19、(5)、存在用户节目偏好数据集,用来训练奖励模型,奖励模型被用于引导微调后模型的训练,使其逐步改进,并生成更符合期望行为的输出。这样,模型可以更好地理解用户的偏好和需求,生成更准确、多样化的推荐结果。

本文档来自技高网...

【技术保护点】

1.一种用于节目推荐的模型训练方法,其特征在于,所述方法包括以下步骤:

2.根据权利要求1所述的一种用于节目推荐的模型训练方法,其特征在于,所述步骤S23,具体包括:

3.根据权利要求1所述的一种用于节目推荐的模型训练方法,其特征在于,所述步骤S25中,对所述节目推荐模型进行微调,具体包括:

4.根据权利要求1所述的一种用于节目推荐的模型训练方法,其特征在于,所述步骤S4,具体包括:

5.根据权利要求1所述的一种用于节目推荐的模型训练方法,其特征在于,所述步骤S3,具体包括:

6.根据权利要求5所述的一种用于节目推荐的模型训练方法,其特征在于,所述步骤S32中,训练奖励模型的过程,具体为:

7.一种用于节目推荐的模型训练系统,其特征在于,所述系统包括:

8.一种用于节目推荐的模型训练设备,其特征在于,所述设备包括:

9.一种用于节目推荐的模型训练的非易失性计算机存储介质,存储有计算机可执行指令,其特征在于,所述计算机可执行指令用于执行完成权利要求1- 6任意一项所述的一种用于节目推荐的模型训练方法。

...

【技术特征摘要】

1.一种用于节目推荐的模型训练方法,其特征在于,所述方法包括以下步骤:

2.根据权利要求1所述的一种用于节目推荐的模型训练方法,其特征在于,所述步骤s23,具体包括:

3.根据权利要求1所述的一种用于节目推荐的模型训练方法,其特征在于,所述步骤s25中,对所述节目推荐模型进行微调,具体包括:

4.根据权利要求1所述的一种用于节目推荐的模型训练方法,其特征在于,所述步骤s4,具体包括:

5.根据权利要求1所述的一种用于节目推荐的模型训练方法,其特征在于,...

【专利技术属性】
技术研发人员:程亚辉王光耀娄庆李东王宗杨
申请(专利权)人:海看网络科技山东股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1