一种多模态个性化内容生成方法技术

技术编号:41874465 阅读:26 留言:0更新日期:2024-07-02 00:26
一种多模态个性化内容生成方法,包括如下步骤:S1、使用大语言模型将多种形式的用户行为数据转化为自然语言描述;S2、使用大语言模型从自然语言描述的多种用户行为中提取用户偏好与目标场景特征,其中,通过生成显式关键词与隐式向量以混合表征用户偏好;S3、将由显式关键词与隐式向量混合表征的用户偏好以及场景信息输入到多模态内容生成器模块中,通过加权整合用户偏好和场景信息来生成多模态内容,实现对生成内容的个性化程度和与目标场景的匹配度联合调节的多模态个性化生成。该方法提高了多模态个性化内容生成质量并实现了多模态内容个性化程度的可控性。

【技术实现步骤摘要】

本专利技术涉及人工智能的技术和应用,特别是涉及一种多模态个性化内容生成方法


技术介绍

1、多模态个性化生成任务指的是根据用户的个人偏好,为其定制化地生成符合个人兴趣的图片、音频等多模态内容,如表情包、新闻封面、商品封面等。此任务有很大的商业价值,对于改善用户体验,提高商品点击率有重要作用。该任务面临多个技术难题,用户偏好提取难度大,多模态内容生成不可控等。近年新兴的大语言模型、扩散模型等技术为该技术难题的解决提供了可能性。而现有技术往往只关注个性化和多模态两者的其中一个方面,个性化方面,相关工作利用大语言模型显式地进行偏好提取,进而指导新闻标题等文本内容的个性化生成。多模态方面,相关工作将扩散模型作为大语言模型的编码、解码器,使用大量多模态数据微调赋予大语言模型多模态理解与生成能力。而将两者结合,同时实现个性化与多模态生成的技术产品还相对空白。

2、现有的个性化多模态生成技术是基于特定对象的,如nvidia公司的文本翻转(textual-inversion)技术等,利用预训练的扩散模型作为基线,收集特定人物或风格的数张图片训练新的文本表征,以本文档来自技高网...

【技术保护点】

1.一种多模态个性化内容生成方法,其特征在于,包括如下步骤:

2.如权利要求1所述的多模态个性化内容生成方法,其特征在于,步骤S1中,所述多种形式的用户行为数据包括历史交互序列H={h1,h2,…}和历史对话内容C={c1,c2,…},转化为自然语言描述的处理过程定义如下:

3.如权利要求2所述的多模态个性化内容生成方法,其特征在于,步骤S2中,提取用户偏好包括:针对每个场景定义与用户偏好相关的属性列表a=[a1,a2,…];为每个属性构建一个提示,所述提示包括任务指令p、当前的属性ai和任务示例e,所述任务指令p描述需要大语言模型执行的提取用户偏好的任务,所述任...

【技术特征摘要】

1.一种多模态个性化内容生成方法,其特征在于,包括如下步骤:

2.如权利要求1所述的多模态个性化内容生成方法,其特征在于,步骤s1中,所述多种形式的用户行为数据包括历史交互序列h={h1,h2,…}和历史对话内容c={c1,c2,…},转化为自然语言描述的处理过程定义如下:

3.如权利要求2所述的多模态个性化内容生成方法,其特征在于,步骤s2中,提取用户偏好包括:针对每个场景定义与用户偏好相关的属性列表a=[a1,a2,…];为每个属性构建一个提示,所述提示包括任务指令p、当前的属性ai和任务示例e,所述任务指令p描述需要大语言模型执行的提取用户偏好的任务,所述任务示例e描述期望的输出格式和示例关键词;将为每个属性构建的提示以及用户的行为信息x和y输入大语言模型,为每个属性ai生成用户偏好关键词表示为:

4.如权利要求3所述的多模态个性化内容生成方法,其特征在于,步骤s2中,提取目标场景特征的方法采用与提取用户偏好的方法类似的过程生成场景关键词kt,其中,为每个场景的属性生成用户偏好关键词表示为:

5.如权利要求1至4任一项所述的多模态个性化内容生成方法,其特征在于,步骤s2中,使用额外的长度为l的多模态表征m=[m1,m2,…,ml]输入大语言模型来学习多模态生成能力,训练多模态表征在向量层...

【专利技术属性】
技术研发人员:肖喜沈晓腾朱杰明张瑞郑海涛
申请(专利权)人:清华大学深圳国际研究生院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1