System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种多模态个性化内容生成方法技术_技高网

一种多模态个性化内容生成方法技术

技术编号:41874465 阅读:16 留言:0更新日期:2024-07-02 00:26
一种多模态个性化内容生成方法,包括如下步骤:S1、使用大语言模型将多种形式的用户行为数据转化为自然语言描述;S2、使用大语言模型从自然语言描述的多种用户行为中提取用户偏好与目标场景特征,其中,通过生成显式关键词与隐式向量以混合表征用户偏好;S3、将由显式关键词与隐式向量混合表征的用户偏好以及场景信息输入到多模态内容生成器模块中,通过加权整合用户偏好和场景信息来生成多模态内容,实现对生成内容的个性化程度和与目标场景的匹配度联合调节的多模态个性化生成。该方法提高了多模态个性化内容生成质量并实现了多模态内容个性化程度的可控性。

【技术实现步骤摘要】

本专利技术涉及人工智能的技术和应用,特别是涉及一种多模态个性化内容生成方法


技术介绍

1、多模态个性化生成任务指的是根据用户的个人偏好,为其定制化地生成符合个人兴趣的图片、音频等多模态内容,如表情包、新闻封面、商品封面等。此任务有很大的商业价值,对于改善用户体验,提高商品点击率有重要作用。该任务面临多个技术难题,用户偏好提取难度大,多模态内容生成不可控等。近年新兴的大语言模型、扩散模型等技术为该技术难题的解决提供了可能性。而现有技术往往只关注个性化和多模态两者的其中一个方面,个性化方面,相关工作利用大语言模型显式地进行偏好提取,进而指导新闻标题等文本内容的个性化生成。多模态方面,相关工作将扩散模型作为大语言模型的编码、解码器,使用大量多模态数据微调赋予大语言模型多模态理解与生成能力。而将两者结合,同时实现个性化与多模态生成的技术产品还相对空白。

2、现有的个性化多模态生成技术是基于特定对象的,如nvidia公司的文本翻转(textual-inversion)技术等,利用预训练的扩散模型作为基线,收集特定人物或风格的数张图片训练新的文本表征,以此实现针对该人物或风格的定制化新图片生成。其仅仅针对特定的对象或风格进行训练,而难以根据用户的个人偏好进行灵活调整,因此个性化程度相对较低;依赖于预训练的扩散模型作为基线,其生成效果受到预训练模型性能的限制。同样基于偏好个性化的有谷歌公司的个性化标题生成框架lamp,它也是利用大语言模型提取用户偏好进而实现个性化标题的生成,但只实现了针对文字单个模态的生成方法,而缺乏多模态内容生成。同时,该技术仅针对新闻内容的创作者实现个性化,无法解决用户个性化任务中有监督数据缺乏的问题,局限性较大。

3、需要说明的是,在上述
技术介绍
部分公开的信息仅用于对本申请的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。


技术实现思路

1、本专利技术的主要目的在于克服上述
技术介绍
的缺陷,提供一种多模态个性化内容生成方法。

2、为实现上述目的,本专利技术采用以下技术方案:

3、一种多模态个性化内容生成方法,包括如下步骤:

4、s1、使用大语言模型将多种形式的用户行为数据转化为自然语言描述;

5、s2、使用大语言模型从自然语言描述的多种用户行为中提取用户偏好与目标场景特征,其中,通过生成显式关键词与隐式向量以混合表征用户偏好;

6、s3、将由显式关键词与隐式向量混合表征的用户偏好以及场景信息输入到多模态内容生成器模块中,通过加权整合用户偏好和场景信息来生成多模态内容,实现对生成内容的个性化程度和与目标场景的匹配度联合调节的多模态个性化生成。

7、进一步地:

8、步骤s1中,所述多种形式的用户行为数据包括历史交互序列h={h1,h2,…}和历史对话内容c={c1,c2,…},转化为自然语言描述的处理过程定义如下:

9、

10、

11、其中分别表示历史交互序列的不同模态特征,分别表示历史对话内容的不同模态特征,llmg表示将相应的特征通过大语言模型的生成推理过程转换成大语言模型的内部表示形式,xi,yi分别表示历史交互和历史对话的总结内容;

12、行为信息x=[x1,x2,…],y=[y1,y2,…]分别代表一系列的历史交互和历史对话的内容。

13、步骤s2中,提取用户偏好包括:针对每个场景定义与用户偏好相关的属性列表a=[a1,a2,…];为每个属性构建一个提示,所述提示包括任务指令p、当前的属性ai和任务示例e,所述任务指令p描述需要大语言模型执行的提取用户偏好的任务,所述任务示例e描述期望的输出格式和示例关键词;将为每个属性构建的提示以及用户的行为信息x和y输入大语言模型,为每个属性ai生成用户偏好关键词表示为:

14、

15、将每个属性的输出组合起来,并消除重复项,得到用户偏好关键词kp:

16、

17、步骤s2中,提取目标场景特征的方法采用与提取用户偏好的方法类似的过程生成场景关键词kt,其中,为每个场景的属性生成用户偏好关键词表示为:

18、

19、其中,xt为场景中的交互物品ht对应的总结内容;

20、将每个属性的输出组合起来,并消除重复项,得到场景关键词kt:

21、

22、步骤s2中,使用额外的长度为l的多模态表征m=[m1,m2,…,ml]输入大语言模型来学习多模态生成能力,训练多模态表征在向量层中的对应参数,并通过微调以基于用户的行为信息生成所述表征用户偏好的隐式向量。

23、所述微调采用p-tuning v2方法,其中,在所述大语言模型的每个transformer层的自注意力机制中,将多个可训练的前缀向量t=[t1,t2,…,tl]前置到向量序列中,与输入数据一起参与自注意力机制的计算;所述大语言模型通过正向传播操作得到多模态表征的输出,作为对应个性化偏好的隐式向量em。

24、步骤s3中,对于用户偏好信息,通过文本编码器将偏好关键词进行分词处理,并转换为向量ek,与偏好的隐式向量em连接起来,作为所述多模态内容生成器模块的条件输入:

25、ep=concatenate(em,ek)

26、并通过分词将目标场景信息转为向量et;

27、所述多模态内容生成器模块使用多模态联合预训练模型,对条件输入ep和向量et进行加权求和;所述多模态联合预训练模型通过学习不同模态之间的相关性而提供加权策略,通过权重的设置以平衡场景的准确度得分和偏好得分。

28、步骤s3中,所述多模态内容生成器模块的多模态生成结果为:

29、m=generator(wp*ep,wt*et)

30、其中wp和wt表示个性化偏好和目标场景的生成权重,通过预训练网络的编码器,将多模态生成结果m、用户偏好关键词kp和场景关键词kt转换为向量em,ep,et,计算向量em,ep,et之间的余弦相似度,作为偏好得分dp和准确度得分dt

31、

32、

33、优化目标为最大化dp和dt的加权和:

34、z=α·log dp+(1-α)log dt

35、其中α为超参数。

36、步骤s3中,使用多个预定义的权重集合wp,wt生成多个多模态生成结果,并选择得分z最高的一个结果。

37、一种计算机可读存储介质,存储有计算机程序,所述计算机程序由处理器执行时,所述的多模态个性化内容生成方法。

38、本专利技术具有如下有益效果:

39、本专利技术提出了一种基于大语言模型的多模态个性化内容生成方法,将多种形式的用户行为转化为自然语言描述,使用大语言模型整合推理从用户行为中提取用户偏好与目标场景特征,其中得到的用户偏好特征用显式关键词与隐式向量混合表征,通过显式关键词本文档来自技高网...

【技术保护点】

1.一种多模态个性化内容生成方法,其特征在于,包括如下步骤:

2.如权利要求1所述的多模态个性化内容生成方法,其特征在于,步骤S1中,所述多种形式的用户行为数据包括历史交互序列H={h1,h2,…}和历史对话内容C={c1,c2,…},转化为自然语言描述的处理过程定义如下:

3.如权利要求2所述的多模态个性化内容生成方法,其特征在于,步骤S2中,提取用户偏好包括:针对每个场景定义与用户偏好相关的属性列表a=[a1,a2,…];为每个属性构建一个提示,所述提示包括任务指令p、当前的属性ai和任务示例e,所述任务指令p描述需要大语言模型执行的提取用户偏好的任务,所述任务示例e描述期望的输出格式和示例关键词;将为每个属性构建的提示以及用户的行为信息x和y输入大语言模型,为每个属性ai生成用户偏好关键词表示为:

4.如权利要求3所述的多模态个性化内容生成方法,其特征在于,步骤S2中,提取目标场景特征的方法采用与提取用户偏好的方法类似的过程生成场景关键词kt,其中,为每个场景的属性生成用户偏好关键词表示为:

5.如权利要求1至4任一项所述的多模态个性化内容生成方法,其特征在于,步骤S2中,使用额外的长度为L的多模态表征M=[m1,m2,…,mL]输入大语言模型来学习多模态生成能力,训练多模态表征在向量层中的对应参数,并通过微调以基于用户的行为信息生成所述表征用户偏好的隐式向量。

6.如权利要求5所述的多模态个性化内容生成方法,其特征在于,所述微调采用P-tuning V2方法,其中,在所述大语言模型的每个Transformer层的自注意力机制中,将多个可训练的前缀向量t=[t1,t2,…,tL]前置到向量序列中,与输入数据一起参与自注意力机制的计算;所述大语言模型通过正向传播操作得到多模态表征的输出,作为对应个性化偏好的隐式向量Em。

7.如权利要求1至6任一项所述的多模态个性化内容生成方法,其特征在于,步骤S3中,对于用户偏好信息,通过文本编码器将偏好关键词进行分词处理,并转换为向量Ek,与偏好的隐式向量Em连接起来,作为所述多模态内容生成器模块的条件输入:

8.如权利要求7所述的多模态个性化内容生成方法,其特征在于,步骤S3中,所述多模态内容生成器模块的多模态生成结果为:

9.如权利要求8所述的多模态个性化内容生成方法,其特征在于,步骤S3中,使用多个预定义的权重集合wp,wt生成多个多模态生成结果,并选择得分z最高的一个结果。

10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序由处理器执行时,实现如权利要求1至9任一项所述的多模态个性化内容生成方法。

...

【技术特征摘要】

1.一种多模态个性化内容生成方法,其特征在于,包括如下步骤:

2.如权利要求1所述的多模态个性化内容生成方法,其特征在于,步骤s1中,所述多种形式的用户行为数据包括历史交互序列h={h1,h2,…}和历史对话内容c={c1,c2,…},转化为自然语言描述的处理过程定义如下:

3.如权利要求2所述的多模态个性化内容生成方法,其特征在于,步骤s2中,提取用户偏好包括:针对每个场景定义与用户偏好相关的属性列表a=[a1,a2,…];为每个属性构建一个提示,所述提示包括任务指令p、当前的属性ai和任务示例e,所述任务指令p描述需要大语言模型执行的提取用户偏好的任务,所述任务示例e描述期望的输出格式和示例关键词;将为每个属性构建的提示以及用户的行为信息x和y输入大语言模型,为每个属性ai生成用户偏好关键词表示为:

4.如权利要求3所述的多模态个性化内容生成方法,其特征在于,步骤s2中,提取目标场景特征的方法采用与提取用户偏好的方法类似的过程生成场景关键词kt,其中,为每个场景的属性生成用户偏好关键词表示为:

5.如权利要求1至4任一项所述的多模态个性化内容生成方法,其特征在于,步骤s2中,使用额外的长度为l的多模态表征m=[m1,m2,…,ml]输入大语言模型来学习多模态生成能力,训练多模态表征在向量层...

【专利技术属性】
技术研发人员:肖喜沈晓腾朱杰明张瑞郑海涛
申请(专利权)人:清华大学深圳国际研究生院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1