System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于大模型对比排序的文本立场控制方法技术_技高网

一种基于大模型对比排序的文本立场控制方法技术

技术编号:41403571 阅读:4 留言:0更新日期:2024-05-20 19:29
本发明专利技术公开了一种基于大模型对比排序的文本立场控制方法,包括获取历史新闻及评论的文本信息;根据得到的文本信息进行标注判分,构造不同立场特征的文本序列,形成立场特征不同的文本序列的训练集;根据形成的训练集,引入排序损失函数进行模型训练学习,学习文本序列的立场差异,得到最优的语言模型;根据得到的语言模型,在推理过程中,输入新闻并获得相应立场的文本评论。本发明专利技术通过基于对比排序的文本立场控制算法,利用序列中文本立场特征的差异优化模型进行感知与学习,从而更好地引导模型实现对文本立场的控制。从而更精确地实现立场可控的文本生成任务。

【技术实现步骤摘要】

本专利技术涉及人工智能自然语言处理,特别涉及一种基于大模型对比排序的文本立场控制方法


技术介绍

1、随着大语言模型的快速发展,自然语言处理的主流范式也发生了变革。借助大语言模型,可以更好地实现文本的生成。然而大模型本身通常不具备对属性如立场的控制,需要额外的prompt或者其他方式引导大模型生成具有特定立场的文本,最简单的方式如通过简单的微调监督训练,可以让模型对特定的立场有一个基本的认识并能生成对应的文本,但这种方式仅仅只利用了具备特定立场的文本,无法利用文本之间的立场特征差异。通过强化学习实现对立场的控制是当前一个有效的方式,其中最著名的如rlhf,已经通过实验验证了其有效性,然而其使用的ppo算法十分复杂,涉及到多个模型的交互,加大了编码和训练难度。


技术实现思路

1、本专利技术的目的克服现有技术存在的不足,为实现以上目的,采用一种基于大模型对比排序的文本立场控制方法,以解决上述
技术介绍
中提出的问题。

2、一种基于大模型对比排序的文本立场控制方法,包括以下步骤:

3、步骤s1、获取历史新闻及评论的文本信息;

4、步骤s2、根据得到的文本信息进行标注判分,构造不同立场特征的文本序列,形成立场特征不同的文本序列的训练集;

5、步骤s3、根据形成的训练集,引入排序损失函数进行模型训练学习,学习文本序列的立场差异,得到最优的语言模型;

6、步骤s4、根据得到的语言模型,在推理过程中,输入新闻并获得相应立场的文本评论。>

7、作为本专利技术的进一步的方案:所述步骤s1中的具体步骤包括:

8、从社交媒体平台上爬取大量的新闻及评论;

9、并对获取的新闻及评论进行预处理和标注。

10、作为本专利技术的进一步的方案:所述步骤s2中的具体步骤包括:

11、根据获取的任一新闻,并选取若干条该新闻下的评论,对其每一条评论进行判分,其中对某一立场评论表现出的特征包括非常支持、比较支持、中立、比较反对,以及非常反对;

12、根据评论的立场特征及不同评论的立场差异为每一个评论计算一个得分,最终获得该新闻下得分不同即立场特征不同的评论文本序列;以及

13、对每一个新闻构造出一个立场特征不同的评论文本序列,最后将所有的新闻及评论序列组成训练集。

14、作为本专利技术的进一步的方案:所述步骤s3中的具体步骤包括:

15、通过基于instruction tunning的方式引导模型完成生成指定立场文本的任务;

16、同时控制生成文本的立场,引入排序损失函数;

17、对模型生成评论的概率进行取对数,并对评论的长度进行归一化处理用以表示在评论在训练过程的得分s′:

18、

19、其中,t表示评论y中的第t个token,π表示训练的模型参数;

20、引入排序损失使模型学习到不同评论之间的立场特征差异,公式为:

21、

22、再引入sft,获取该序列中最符合立场的评论yi′,并计算其nll损失,公式为:

23、i′=argmax(si);

24、lsft=-∑tlogpπ(yi′,t|x,a,yi′,<t);

25、最终模型的损失函数为:

26、loss=lr+αlsft;

27、其中α为平衡两个损失函数的超参数。

28、作为本专利技术的进一步的方案:所述步骤s4中的具体步骤包括:

29、根据得到的语言模型,在推理过程中,输入新闻并获得相应立场的文本评论;

30、同时通过设置参数调节模型输出多样性的文本评论。

31、与现有技术相比,本专利技术存在以下技术效果:

32、采用上述的技术方案,基于对比排序的文本立场控制算法是一种先进的算法,它通过跳过训练奖励模型的阶段,直接利用序列中文本立场特征的差异来优化模型对于立场特征的感知与学习。这种方法不仅简化了训练过程,还显著提高了模型对文本立场特征的准确理解和控制能力。通过这种方式,模型能够更好地理解文本立场,并在必要时对其进行适当的调整或控制。

33、此外,该算法的另一个重要特点是其灵活性。进行训练的基础模型可以轻松更换,这意味着该方法不仅适用于特定的模型或数据集,而且具有广泛的适用性。这种灵活性使得该算法在各种应用场景中都具有显著的优势,无论是需要快速适应新数据集的情况,还是需要不断改进和优化模型性能的情况。

34、总之,基于对比排序的文本立场控制算法通过直接利用文本立场特征的差异来优化模型感知与学习,实现对文本立场的精确控制。同时,其灵活的特性使得该算法能够适应各种不同的应用场景和需求。这些优点使得该算法成为文本立场控制领域的先进技术之一,具有广泛的应用前景和价值。

本文档来自技高网...

【技术保护点】

1.一种基于大模型对比排序的文本立场控制方法,其特征在于,包括以下步骤:

2.根据权利要求1所述一种基于大模型对比排序的文本立场控制方法,其特征在于,所述步骤S1中的具体步骤包括:

3.根据权利要求1所述一种基于大模型对比排序的文本立场控制方法,其特征在于,所述步骤S2中的具体步骤包括:

4.根据权利要求1所述一种基于大模型对比排序的文本立场控制方法,其特征在于,所述步骤S3中的具体步骤包括:

5.根据权利要求1所述一种基于大模型对比排序的文本立场控制方法,其特征在于,所述步骤S4中的具体步骤包括:

【技术特征摘要】

1.一种基于大模型对比排序的文本立场控制方法,其特征在于,包括以下步骤:

2.根据权利要求1所述一种基于大模型对比排序的文本立场控制方法,其特征在于,所述步骤s1中的具体步骤包括:

3.根据权利要求1所述一种基于大模型对比排序的文本立场控制方法,其特征...

【专利技术属性】
技术研发人员:张勇东毛震东胡博夏优宏
申请(专利权)人:合肥综合性国家科学中心人工智能研究院安徽省人工智能实验室
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1