基于反馈强化学习的信息发布方法、装置及存储介质制造方法及图纸

技术编号：40765269 阅读：7 留言：0更新日期：2024-03-25 20:15

本发明专利技术公开了一种基于反馈强化学习的信息发布方法、装置及存储介质，本发明专利技术可大幅减少高准确度的标注数据的数据量以及对领域标注专家的需求，且通过基于奖励模型的强化学习，可在不设计具体判定规则的情况下，使模型最大程度地学习到人类对内容的质量分类，从而大幅提高模型对内容质量分类的准确性；因此，本发明专利技术非常适用于在信息发布领域的大规模应用与推广。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于信息数据处理，具体涉及一种基于反馈强化学习的信息发布方法、装置及存储介质。

技术介绍

1、互联网已经成为许多人的文化生活的核心，通过bbs、博客、播客等互联网平台，人们不但成为了互联网内容的分享者，更成为了互联网内容的创造者，互联网以信息资源传播为特色，通过互联网媒介，实现关于新闻，影视剧、教育、餐饮、休闲、娱乐等内容的信息播放及互动。

2、同时，为了避免低质量内容在互联网的传播，业内做法通常是在内容审核和内容推荐平台中加入智能审核机制，即通过分析内容（文本、图片、音频、视频）的质量（是否含有不允许传播的违规内容），对内容进行过滤，从而在实现过滤低质量内容的同时，提升高质量内容的传播。

3、目前，量化内容质量的现有方法通常是通过分类或者回归任务来实现，对于分类任务，首先需要通过人工标注数据来获得训练集（即人工根据数据内容主观标注，或根据是否含有低质量关键词，来进行标注），最后采用有监督的方式来训练模型；类似地，在回归任务中也需要人工对内容进行标注来获得训练集合，最后同样采用有监督的方式来训练模型；如此，前述现有方法则存在以下不足：（1）对标注数据质量和质量标注员的要求很高，需要大量的高质量人工标注数据才能在真实世界分布中获得比较好的准确率，且人工标注通常带有主观性，容易影响模型结果；（2）现有模型对内容质量分类不够准确，判定效果不佳；基于此，如何提供一种无需大量人工标注数据，且准确率高的信息质量分类方法，已成为一个亟待解决的问题。

技术实现思路

>1、本专利技术的目的是提供一种基于反馈强化学习的信息发布方法、装置及存储介质，用以解决现有技术中需要大量人工标注数据，以及质量分类准确率低的问题。

2、为了实现上述目的，本专利技术采用以下技术方案：

3、第一方面，提供了一种基于反馈强化学习的信息发布方法，包括：

4、获取信息分类模型，其中，所述信息分类模型是利用第一训练集内的若干训练数据中各个训练数据的反馈标注数据，来训练奖励模型，并基于训练后的奖励模型以及第二训练集对调整后的语言模型进行强化训练而得到的，其中，任一训练数据的反馈标注数据是将该任一训练数据输入多个目标分类模型后，根据各个目标分类模型的输出来对比得到的，多个目标分类模型中包括所述调整后的语言模型，所述第一训练集中包含有高质量语料数据集和低质量语料数据集，所述调整后的语言模型是利用第三训练集对预训练语言模型进行模型调整后所得到的，所述第三训练集包含有从第一训练集中采样的若干语料数据，所述第二训练集中包括有高质量语料数据集中的若干高质量语料数据以及第三训练集，且任一低质量语料数据中含有指定关键词集中的至少一个指定关键词，任一高质量语料数据中不含有指定关键词集中任一指定关键词；

5、获取目标信息，并将所述目标信息输入至所述信息分类模型，以得到目标信息的分类结果；

6、基于所述分类结果，得到所述目标信息的发布处理结果，以便基于所述发布处理结果，对所述目标信息进行发布，其中，所述发布处理结果包括过滤目标信息或推荐目标信息。

7、基于上述公开的内容，本专利技术预先训练有信息分类模型，其中，该信息分类模型主要是利用第一训练集中各个训练数据的反馈标注数据，来训练奖励模型，并基于奖励模型以及第二训练集来对调整后的语言模型进行强化训练而得到的；其中，任一训练数据的反馈标注数据是利用从第一训练集中采样的若干数据，对预训练语言模型进行模型调整后所得到的；基于此，在训练初期，本专利技术则不使用未训练的语言模型，而是使用预训练语言模型，如此，可减少训练数据的标注阶段，且模型调整实质是监督微调，也就是用第一训练集中的测试数据（第三训练集相当于测试数据）来完成，因此，整个训练过程只需对测试数据进行标注即可，从而可大幅降低人工标注数据的数据量，进而避免传统技术中需要大量的高质量人工标注数据以及因大量人工标注数据所带来人为主观经验对模型训练存在不利影响的问题；同时，在调整预训练语言模型后，利用反馈标注数据来训练奖励模型，并基于奖励模型来训练调整后的语言模型；基于此，利用奖励模型来强化训练该调整后的语言模型，可使模型尽可能像领域专家一样准确地对内容做出质量分类，从而可提高模型输出的准确性。

8、通过上述设计，在实际应用时，将目标信息直接输入至训练得到的信息分类模型，即可得到该目标信息对应的质量分类结果，从而完成对目标信息的过滤和/或推荐；由此，本专利技术可大幅减少高准确度标注数据的数据量以及对领域标注专家的需求，且通过基于奖励模型的强化学习，可在不设计具体判定规则的情况下，使模型最大程度地学习到人类对内容的质量分类，从而大幅提高模型对内容质量分类的准确性；因此，本专利技术非常适用于在信息发布领域的大规模应用与推广。

9、在一个可能的设计中，在获取信息分类模型前，所述方法还包括：

10、获取第一训练集，其中，所述第一训练集中包括有高质量语料数据集和低质量语料数据集；

11、从高质量语料数据集和低质量语料数据集中抽取若干第一语料数据，组成第三训练集；

12、利用所述第三训练集，调整预训练语言模型，以得到调整后的语言模型；

13、获取多个目标分类模型，其中，多个目标分类模型中包括所述调整后的语言模型；

14、从所述第一训练集中选取若干第二语料数据，作为训练数据，并将各个训练数据输入至每个目标分类模型，以得到每个训练数据对应的对比数据，其中，任一训练数据对应的对比数据为该任一训练数据输入至每个目标分类模型后，各个目标分类模型的输出；

15、基于每个训练数据对应的对比数据，确定出每个训练数据对应的反馈标注数据；

16、利用每个训练数据对应的反馈标注数据，训练奖励模型，以得到训练后的奖励模型；

17、从所述高质量语料数据集中随机选取若干高质量语料数据，并利用选取的若干高质量语料数据以及所述第三训练集，组成第二训练集；

18、基于所述第二训练集和所述训练后的奖励模型，来强化训练调整后的语言模型，以在训练完成后，得到所述信息分类模型，其中，在任一次训练所述调整后的语言模型时，模型的输入包括第二训练集中的一高质量语料数据以及所述第三训练集中的一个第一语料数据。

19、在一个可能的设计中，基于每个训练数据对应的对比数据，确定出每个训练数据对应的反馈标注数据，包括：

20、对于任一训练数据，将该任一训练数据对应的对比数据按照分类准确度从高到低的顺序进行排序，得到排序数据序列；

21、将所述排序数据序列，作为所述任一训练数据对应的反馈标注数据。

22、在一个可能的设计中，任一训练数据对应的反馈标注数据包括该任一训练数据对应的对比数据，且所述任一训练数据对应的反馈标注数据中的对比数据按照分类准确度从高到低的顺序进行排序；

23、其中，所述奖励模型的损失函数为：

24、（1）；

25、公式（1）中，表示所述奖励模型的损失函数本文档来自技高网...

【技术保护点】

1.一种基于反馈强化学习的信息发布方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，在获取信息分类模型前，所述方法还包括：

3.根据权利要求2所述的方法，其特征在于，基于每个训练数据对应的对比数据，确定出每个训练数据对应的反馈标注数据，包括：

4.根据权利要求2所述的方法，其特征在于，任一训练数据对应的反馈标注数据包括该任一训练数据对应的对比数据，且所述任一训练数据对应的反馈标注数据中的对比数据按照分类准确度从高到低的顺序进行排序；

5.根据权利要求2所述的方法，其特征在于，所述信息分类模型的损失函数为：

6.根据权利要求5所述的方法，其特征在于，所述第一损失函数为：

7.根据权利要求5所述的方法，其特征在于，所述第二损失函数为：

8.一种基于反馈强化学习的信息发布装置，用于执行如权利要求1～7任意一项所述的基于反馈强化学习的信息发布方法，其特征在于，包括：

9.一种基于反馈强化学习的信息发布装置，其特征在于，包括：依次通信相连的存储器、处理器和收发器，其中，所述存储

10.一种存储介质，其特征在于，所述存储介质上存储有指令，当所述指令在计算机上运行时，执行如权利要求1～7任意一项所述的基于反馈强化学习的信息发布方法。

...

【技术特征摘要】

1.一种基于反馈强化学习的信息发布方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，在获取信息分类模型前，所述方法还包括：

3.根据权利要求2所述的方法，其特征在于，基于每个训练数据对应的对比数据，确定出每个训练数据对应的反馈标注数据，包括：

5.根据权利要求2所述的方法，其特征在于，所述信息分类模型的损失函数为：

6.根据权利要求5所述的方法，其特征在于，所述第一损失函数为：<...

【专利技术属性】
技术研发人员：廖可欣，钟岚，黄云，邓剑峰，赵文，罗博文，陈大胜，董晓尚，张豪，欧阳，杨子豪，
申请(专利权)人：四川日报网络传媒发展有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人