一种用于内容推荐的基于大数据的深度学习样本标注方法技术

技术编号：27534928 阅读：23 留言：0更新日期：2021-03-03 11:19

本发明专利技术提供了一种用于内容推荐的基于大数据的深度学习样本标注方法，该方法包括：接收与样本库中的第一组样本对象相关的用户标注输入；训练包含权值向量的偏好预测模型，所述权值向量包含与样本库相关联的多个特征中的每个特征的加权值，该样本库包括向用户呈现的第一组样本对象，利用所接收的用户标注输入来训练每个特征的加权值；选择要提供至用户的第二组样本对象，所述第二组样本对象相对于样本库中其他未被标识的样本对象，提供从用户标注输入获取的更多的先验知识；以及根据训练后的偏好预测模型，推送预设数量的偏好对象以提供至用户。本发明专利技术是基于用户的固有交互操作来挖掘用户兴趣偏好信息，提高样本标注效率和深度学习效果，从而便于更好地实现精准内容推荐。荐。荐。

全部详细技术资料下载

【技术实现步骤摘要】
一种用于内容推荐的基于大数据的深度学习样本标注方法

[0001]本专利技术涉及机器学习，特别涉及一种用于内容推荐的基于大数据的深度学习样本标注方法。

技术介绍

[0002]在信息过载的时代，基于个性的推荐显得愈发重要。传统技术基于对用户显式反馈数据的分析，例如在线教育平台请求用户对课程和教师等对象进行评分，而实际上显式反馈数据量和应用场景相对有限，无论是评分量表和问卷，都需要占用用户大量时间，导致体验不佳。现实中，大量的用户兴趣信息往往隐藏在用户的正常交互操作中。在进行用户偏好的挖掘时，如果标签信息不确定，则首先需要人为标注或者事先确定，进而通过完整的数据集训练机器学习模型，再去预测用户偏好的对象信息。而手工标注的方式消耗了大量的人力资源，并且存在人为的偏差，导致标注信息确定效率低、效果差；从而无法实现对用户的精准推荐。而对于不平衡率较高的样本，即存在少数类和多数类的被标注样本，样本的分类很容易向多数类偏移。

技术实现思路

[0003]为解决上述现有技术所存在的问题，本专利技术提出了一种用于内容推荐的基于大数据的深度学习样本标注方法，包括：
[0004]接收与样本库中的第一组样本对象相关的用户标注输入，所述用户标注输入表征相对于第一组样本对象中其他样本对象，用户对所标注样本对象的偏好；
[0005]训练包含权值向量的偏好预测模型，所述权值向量包含与样本库相关联的多个特征中的每个特征的加权值，该样本库包括向用户呈现的第一组样本对象，利用所接收的用户标注输入来训练每个特征的加权值；
>[0006]选择要提供至用户的第二组样本对象，所述第二组样本对象相对于样本库中其他未被标识的样本对象，提供从用户标注输入获取的更多的先验知识；以及
[0007]根据训练后的偏好预测模型，推送预设数量的偏好对象以提供至用户。
[0008]优选地，所述选择要提供至用户的第二组样本对象，进一步包括：
[0009]利用为样本库中样本子集的每个样本对象确定的偏好分值来确定样本对象的先验知识获取度量，所述偏好分值是利用训练的偏好预测模型与样本对象的多个特征共同确定。
[0010]优选地，所述确定样本对象的先验知识获取度量进一步包括：
[0011]为样本库中样本子集的每个样本对象，确定样本对象的特异性度量，所述特异性度量包含有关用户对样本对象的偏好的可信度；
[0012]确定样本对象的典型性度量，上述典型性度量包含样本对象与所述样本库中其他样本的特征相似度；以及
[0013]利用所述样本对象的已确定的特异性度量和典型性度量，确定对象的先验知识获
取度量。
[0014]优选地，所述确定对象的特异性度量进一步包括：
[0015]利用用户的偏好预测模型来确定对象的偏好分值，所述偏好预测模型利用与所述第一组对象有关的用户标注输入所训练；以及
[0016]利用对象的偏好分值来确定对象的特异性度量。
[0017]优选地，所述利用样本对象的偏好分值来确定特异性度量，进一步包括：
[0018]根据以下方法确定对象f
s
的特异性度量SPL：
[0019]SPL(f
s
)＝-SP(f
s
)lgSP(f
s
)-(1-SP(f
s
))lg(1-SP(f
s
))
[0020]其中SP(f
s
)为利用用户的偏好预测模型所确定的对象的偏好分值。
[0021]优选地，所述确定样本对象的典型性度量，进一步包括：
[0022]利用样本对象的相似度分值来确定对象的典型性度量。
[0023]优选地，所述利用偏好分值来确定对象的典型性度量，进一步包括：
[0024]确定对象f
s
的典型性度量TPL(f
s
)，如下式：
[0025][0026]其中|G
i
|为样本f
s
的邻接样本库G
i
中对象数量的计数，DS为距离函数，其确定f
s
与该邻接样本库中的邻接对象f
r
间的相似度分值。
[0027]优选地，该方法进一步包括：
[0028]基于每个样本的先验知识获取度量排序样本子集，该第二组对象包含数量为N的样本对象，相对于其他已排序的对象，所述N个样本对象具有更高的先验知识获取度量。
[0029]优选地，该方法进一步包括：
[0030]获取多个样本库中对象的已标注实例，每个已标注实例具有目标结果，其中获取已标注实例的步骤包括：
[0031]获取该待标注集合中被人工标注为异常标注对象集合的多个样本，并获取该待标注集合中被人工标注为正常标注对象集合的多个样本；
[0032]对表示该待标注集合的有向图执行随机遍历，以获取关联于该有向图中节点的固定概率，所述节点表示集合中的被标注样本对象；
[0033]构建分类模型，所述模型根据节点的固定概率、根据分配给所述有向图中其它节点的分类结果并根据目标结果，来对上述有向图中每个的节点中计算的分类结果；
[0034]根据所述分类模型所分配给节点的分类结果，将所述有向图中节点标注为属于多个样本库之一；
[0035]其中执行随机遍历的步骤包括：获取随机遍历定义，所述随机遍历定义界定所述有向图中节点的随机遍历；所述随机遍历定义指出关联所述有向图的转移概率；在执行所述随机遍历之前，将该有向图分解成强连通图分量。
[0036]本专利技术相比现有技术，具有以下优点：
[0037]本专利技术提出了一种用于内容推荐的基于大数据的深度学习样本标注方法，基于用户的固有交互操作来挖掘用户兴趣偏好信息，提高样本标注效率和深度学习效果，从而便于更好地实现精准内容推荐。
附图说明
[0038]图1是根据本专利技术实施例的一种用于内容推荐的基于大数据的深度学习样本标注方法的流程图。
具体实施方式
[0039]下文与图示本专利技术原理的附图一起提供对本专利技术一个或者多个实施例的详细描述。结合这样的实施例描述本专利技术，但是本专利技术不限于任何实施例。本专利技术的范围仅由权利要求书限定，并且本专利技术涵盖诸多替代、修改和等同物。在下文描述中阐述诸多具体细节以便提供对本专利技术的透彻理解。出于示例的目的而提供这些细节，并且无这些具体细节中的一些或者所有细节也可以根据权利要求书实现本专利技术。
[0040]本专利技术的一方面提供了一种用于内容推荐的基于大数据的深度学习样本标注方法。图1是根据本专利技术实施例的一种用于内容推荐的基于大数据的深度学习样本标注方法流程图。
[0041]本专利技术使用相对标注来标识对象偏好预测模型，该模型基于多个对象中每个对象的特征和学习得到的每个特征相关的加权值，为每个对象产生偏好分值。优选地，在用户交互界面中向用户呈现包含多个对象的待标注集合。由用户标注集合中所感兴趣的对象。接收用户的输入可视为向本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种用于内容推荐的基于大数据的深度学习样本标注方法，其特征在于，包括：选择N个样本对象以进行标注，所述样本对象包括可产生偏好的可标注样本；若确定已接收对象选择标注，则利用用户的标注输入为用户学习偏好预测模型；选择具有N个对象的新集合以进行下一轮选择式标注；响应用户最后一个对象选择标注以及任何先前的对象选择标注，为用户确定偏好预测模型；其中，在选择式标注过程中，第一待标注集合可被随机选择，而对于接下每一轮选择式标注而言，每个样本对象可基于被确定的将对象加入集合所能获取的先验知识的度量进行选择。2.根据权利要求1所述的方法，其特征在于，所获取的先验知识是为每个对象所确定的数值，或尚未包括于多次选择式标注中的每个对象所确定的数值。3.根据权利要求2所述的方法，其特征在于，相对于与未被选择的对象相关联的先验知识分值，包含在要向用户呈现的待标注集合中的N个对象具有最高的先验知识分值。4.根据权利要求1所述的方法，其特征在于，偏好预测模型可基于任何样本的特征与该模型的权值向量，来为对象产生偏好分值，该权值向量包含样本的特征中每个特征的对应加权值。5.根据权利要求5所述的方法，其特征在于，偏好预测分值计算方法可表示为：其中，Π(f
i
)为利用样本对象的特征，将样本投影至特征空间的函数，样本的特征可由特征向量f
i
表示，而为权值向量，该权值向量包含特征向量f
i
中每个特征的对应加权值。6.根据权利要求1所述的方法，其特征在于，所述方法还包括：在完成上一轮标注和计算之后，基于针对要选择的每个对象所确定的特异性度量和典型性度量来为下一轮迭代选择具有N个样本对象的集合。7.根据权利要求6所述的方法，其特征在于，根据以下方法确定对象f
s
的特异性度量...

【专利技术属性】
技术研发人员：ꢀ五一IntClG零六F一六九五三五，
申请(专利权)人：广州知弘科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人