The invention discloses a method and device for acquiring marks. The method includes: obtaining an identification corresponding to a predetermined operation from a plurality of data sources; obtaining an initial identification from the identity based on the characteristic information of the identified and the preset feature word; determining the characteristic parameters of the initial identification according to the preset weight and the feature information; obtaining the first target identification from the initial identification, in which the first target identification is obtained, A target identifier is a set of initial identifier whose characteristic parameter is higher than the preset parameter. By adopting the technical proposal, the technical problem of obtaining low accuracy for training marks in the prior art is solved.
【技术实现步骤摘要】
标识的获取方法及装置
本专利技术涉及计算机领域,具体而言,涉及一种标识的获取方法及装置。
技术介绍
在众多推荐领域,比如广告推荐、游戏推荐、视频推荐、新闻推荐等,常常需要将资源投放给某一特定领域用户(定向用户)来提升资源的投放效果,而定向用户的挖掘,通常采用训练预测模型的方式,包括LR(逻辑回归)、RF(随机森林)、GBDT(梯度提升决策树)等,而以上任何模型效果好坏的关键,就是在其训练阶段选择训练样本(可以是用户的标识)的准确性,即正负样本选择的是否足够精准。而通常获取真实正样本的方法,是根据CRM(客户关系管理)获得真实可靠的正样本数据,但往往这类数据规模较小,从而导致训练出的模型特征不够明显,从而影响模型训练效果。现有的训练数据样本获取的方式,多数是基于用户行为从单一数据源中获取规则匹配的人群,作为正样本集,负样本集则是从大盘中随机选取;这样单数据源的方式很容易导致样本有偏,同时生成的样本集规模也相对较小,除此之外选出的样本集也不易区分出每个样本的纯净度。在现有的训练数据样本获取的方式中,如图1所示,根据要挖掘的特定人群,准备样本表征词和优化规则,在单一的用户行为日志中,通过模式匹配(正则匹配)方式挖掘出带有样本表征词特征的人群,作为其训练数据正样本人群,负样本人群则是在大盘人群中排除正样本人群后,随机选择的样本。这种方式将会导致以下缺陷:首先用户行为日志单一,搜索匹配的人群有限,样本易偏;其次,正样本人群通过模式匹配挖掘后,不足以说明正样本的纯净度和可靠性。以上缺陷导致了现有的训练数据样本获取的方式获取用于训练的标识的准确度较低。针对上述的问题,目 ...
【技术保护点】
1.一种标识的获取方法,其特征在于,包括:从多个数据源中获取与预定操作对应的标识,其中,在所述多个数据源包括的目标数据源中记录有与所述标识对应的帐号和所述帐号执行过的所述预定操作;根据所述标识的特征信息以及预设特征词从所述标识中获取初始标识,其中,所述特征信息用于表示所述预定操作的特征;根据预设权重以及所述特征信息确定所述初始标识的特征参数,其中,所述预设权重与所述目标数据源对应,所述预设权重用于指示所述目标数据源中的帐号执行所述预定操作的频率,所述特征参数用于指示所述初始标识执行所述预定操作的频率;从所述初始标识中获取第一目标标识,其中,所述第一目标标识是所述初始标识中所述特征参数高于预设参数的标识的集合。
【技术特征摘要】
1.一种标识的获取方法,其特征在于,包括:从多个数据源中获取与预定操作对应的标识,其中,在所述多个数据源包括的目标数据源中记录有与所述标识对应的帐号和所述帐号执行过的所述预定操作;根据所述标识的特征信息以及预设特征词从所述标识中获取初始标识,其中,所述特征信息用于表示所述预定操作的特征;根据预设权重以及所述特征信息确定所述初始标识的特征参数,其中,所述预设权重与所述目标数据源对应,所述预设权重用于指示所述目标数据源中的帐号执行所述预定操作的频率,所述特征参数用于指示所述初始标识执行所述预定操作的频率;从所述初始标识中获取第一目标标识,其中,所述第一目标标识是所述初始标识中所述特征参数高于预设参数的标识的集合。2.根据权利要求1所述的方法,其特征在于,根据所述标识的所述特征信息以及所述预设特征词从所述标识中获取所述初始标识包括:获取第一特征词与第二特征词,其中,所述预设特征词包括所述第一特征词和所述第二特征词;从所述标识中获取所述初始标识,其中,所述初始标识对应的特征信息中携带所述第一特征词且未携带所述第二特征词。3.根据权利要求1所述的方法,其特征在于,根据所述预设权重以及所述特征信息确定所述初始标识的所述特征参数包括:获取所述预设权重,其中,所述预设权重的值越大表示所述目标数据源中的帐号执行所述预定操作的频率越高;从所述特征信息中获取时间信息和频次信息,其中,所述时间信息用于指示所述标识执行所述预定操作的时间,所述频次信息用于指示所述标识执行所述预定操作的频次;根据所述预设权重、所述时间信息以及所述频次信息确定所述特征参数,其中,所述特征参数的值越大表示所述初始标识执行所述预定操作的频率越高。4.根据权利要求3所述的方法,其特征在于,获取所述预设权重包括以下之一:获取所述目标数据源中执行所述预定操作的帐号在所述目标数据源中包括的全部帐号中所占的比例;根据所述比例为所述目标数据源分配所述预设权重,其中,所述比例越大的数据源分配的所述预设权重越大;获取第一标识集合与预设标识集合中相同标识的数量,其中,所述第一标识集合是所述初始标识中在一个所述目标数据源中包括的标识的集合;根据所述数量与所述第一标识集合中标识的数量之间的比值为所述目标数据源分配所述预设权重,其中,所述比值越大的数据源分配的所述预设权重越大。5.根据权利要求3所述的方法,其特征在于,根据所述预设权重、所述时间信息以及所述频次信息确定所述特征参数包括:计算所述初始标识在每个所述目标数据源中对应的所述时间信息和所述频次信息的乘积;根据所述预设权重计算所述乘积的加权和,得到所述特征参数。6.根据权利要求3所述的方法,其特征在于,在根据所述标识的特征信息以及预设特征词从所述标识中获取初始标识之前,所述方法还包括:从所述标识对应的所述预定操作中获取用于表示所述预定操作的特征的信息,其中,所述用于表示所述预定操作的特征的信息包括:所述预定操作对应的特征词,所述时间信息和所述频次信息;将所述特征词、所述时间信息以及所述频次信息存储为预设格式,得到所述特征信息。7.根据权利要求1所述的方法,其特征在于,从所述初始标识中获取所述第一目标标识包括以下之一:将所述初始标识按照所述特征参数从高到低进行排列;从排列后的标识中选择出所述第一目标标识,其中,所述第一目标标识包括在排列后的标识中排在前N位的标识;从所述初始标识中获取所述特征参数的值大于或者等于预设值的所述第一目标标识。8.根据权利要求1至7中任一项所述的方法,其特征在于,在从所述初始标识中获取所述第一目标标识之后,所述方法还包括:...
【专利技术属性】
技术研发人员:袁小燕,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。