一种样本数据的生成方法、装置及计算机可读存储介质制造方法及图纸

技术编号：27744266 阅读：33 留言：0更新日期：2021-03-19 13:38

本发明专利技术提供了一种样本数据的生成方法、装置及计算机可读存储介质。其中，本发明专利技术实施例提供的样本数据的生成方法，包括：生成推荐系统的至少两个弱监督推荐模型；通过训练神经网络模型，学习所述至少两个弱监督推荐模型间的依赖关系；利用训练得到的所述神经网络模型，对样本数据进行重新标注，得到更新后的样本数据。本发明专利技术实施例能够利用多个弱监督推荐模型间的依赖关系，提升样本数据的标签质量，进而可以改善基于该样本数据训练得到的推荐模型的性能。

全部详细技术资料下载

【技术实现步骤摘要】
一种样本数据的生成方法、装置及计算机可读存储介质
本专利技术涉及机器学习
，具体涉及一种样本数据的生成方法、装置及计算机可读存储介质。
技术介绍
近年来，推荐系统在搜索引擎、电商网站等多个领域获得了成功的应用。推荐系统通过基于对用户数据的挖掘，构建推荐模型，向用户推荐符合他们需求的产品、信息和服务等内容，帮助用户解决信息过载的问题。现有的推荐系统将推荐模型的训练过程视为监督问题，其标签(如评级)或来自用户的特定行为。这种显式方法提供了明确的标签，但这些标签的真实性可能存在问题，其原因包括用户出于各种原因的虚假标注等。监督学习技术通过学习大量训练样本来构建推荐模型，其中每个训练样本都有一个标签标明其真值输出。尽管当前的技术已经取得了巨大的成功，但是值得注意的是，由于数据标注过程的高成本，很多任务难以获得全部真值标签这样的强监督信息。因此，能够使用弱监督的机器学习技术是可取的。弱监督学习是指训练样本的标签是不可靠的，如(x,y)，y对于x的标记是不可靠的。这里的不可靠包括标记不正确、多种标记、标记不充分、局部标记等。针对监督信息不完整或不明确对象的学习问题统称为弱监督学习。由于训练样本的标签可靠性较差，这会对基于弱监督学习所构建的推荐模型的性能造成不利影响。
技术实现思路
本专利技术实施例要解决的技术问题是提供一种样本数据的生成方法、装置及计算机可读存储介质，可以提升样本数据的标签质量，进而可以改善基于该样本数据训练得到的推荐模型的性能。为解决上述技术问题，本专利...

【技术保护点】
1.一种样本数据的生成方法，其特征在于，包括：/n生成推荐系统的至少两个弱监督推荐模型；/n通过训练神经网络模型，学习所述至少两个弱监督推荐模型间的依赖关系；/n利用训练得到的所述神经网络模型，对样本数据进行重新标注，得到更新后的样本数据。/n

【技术特征摘要】
1.一种样本数据的生成方法，其特征在于，包括：
生成推荐系统的至少两个弱监督推荐模型；
通过训练神经网络模型，学习所述至少两个弱监督推荐模型间的依赖关系；
利用训练得到的所述神经网络模型，对样本数据进行重新标注，得到更新后的样本数据。

2.如权利要求1所述的方法，其特征在于，通过训练神经网络模型，学习所述至少两个弱监督推荐模型间的依赖关系的步骤，包括：
基于所述至少两个弱监督推荐模型的输出，构建用于表示所述至少两个弱监督推荐模型间的依赖关系的神经网络模型；
通过最大化所述至少两个弱监督推荐模型的输出的联合概率，训练所述神经网络模型的参数，生成所述至少两个弱监督推荐模型间的依赖关系。

3.如权利要求1所述的方法，其特征在于，利用训练得到的所述神经网络模型，对样本数据进行重新标注的步骤，包括：
获取所述至少两个弱监督推荐模型对样本数据的标注结果；
利用训练得到的所述神经网络模型，获得所述标注结果的最大似然估计，根据所述标注结果的最大似然估计，对样本数据进行重新标注。

4.如权利要求1所述的方法，其特征在于，所述生成推荐系统的至少两个弱监督推荐模型的步骤，包括：
基于已有的弱监督标签，训练生成多个不同类型的弱监督推荐模型；
分别从每个类型的弱监督推荐模型中，选择出标注性能高于预设门限的弱监督推荐模型，得到所述至少两个弱监督推荐模型。

5.如权利要求1至4任一项所述的方法，其特征在于，在得到更新后的样本数据之后，所述方法还包括：
利用更新后的样本数据，训练得到所述推荐系统的目标推荐模型。

6.一种样本数据的生成装置，其特征在于，包括：
推荐模...

【专利技术属性】
技术研发人员：丁磊，童毅轩，张佳师，姜珊珊，张永伟，
申请(专利权)人：株式会社理光，
类型：发明
国别省市：日本;JP

全部详细技术资料下载我是这个专利的主人