标识的获取方法及装置制造方法及图纸

技术编号:18497117 阅读:31 留言:0更新日期:2018-07-21 20:11
本发明专利技术公开了一种标识的获取方法及装置。其中,该方法包括:从多个数据源中获取与预定操作对应的标识;根据标识的特征信息以及预设特征词从标识中获取初始标识;根据预设权重以及特征信息确定初始标识的特征参数;从初始标识中获取第一目标标识,其中,第一目标标识是初始标识中特征参数高于预设参数的标识的集合。采用上述技术方案,解决了现有技术中获取用于训练的标识的准确度低的技术问题。

Method and device for obtaining identification

The invention discloses a method and device for acquiring marks. The method includes: obtaining an identification corresponding to a predetermined operation from a plurality of data sources; obtaining an initial identification from the identity based on the characteristic information of the identified and the preset feature word; determining the characteristic parameters of the initial identification according to the preset weight and the feature information; obtaining the first target identification from the initial identification, in which the first target identification is obtained, A target identifier is a set of initial identifier whose characteristic parameter is higher than the preset parameter. By adopting the technical proposal, the technical problem of obtaining low accuracy for training marks in the prior art is solved.

【技术实现步骤摘要】
标识的获取方法及装置
本专利技术涉及计算机领域,具体而言,涉及一种标识的获取方法及装置。
技术介绍
在众多推荐领域,比如广告推荐、游戏推荐、视频推荐、新闻推荐等,常常需要将资源投放给某一特定领域用户(定向用户)来提升资源的投放效果,而定向用户的挖掘,通常采用训练预测模型的方式,包括LR(逻辑回归)、RF(随机森林)、GBDT(梯度提升决策树)等,而以上任何模型效果好坏的关键,就是在其训练阶段选择训练样本(可以是用户的标识)的准确性,即正负样本选择的是否足够精准。而通常获取真实正样本的方法,是根据CRM(客户关系管理)获得真实可靠的正样本数据,但往往这类数据规模较小,从而导致训练出的模型特征不够明显,从而影响模型训练效果。现有的训练数据样本获取的方式,多数是基于用户行为从单一数据源中获取规则匹配的人群,作为正样本集,负样本集则是从大盘中随机选取;这样单数据源的方式很容易导致样本有偏,同时生成的样本集规模也相对较小,除此之外选出的样本集也不易区分出每个样本的纯净度。在现有的训练数据样本获取的方式中,如图1所示,根据要挖掘的特定人群,准备样本表征词和优化规则,在单一的用户行为日志中,通过模式匹配(正则匹配)方式挖掘出带有样本表征词特征的人群,作为其训练数据正样本人群,负样本人群则是在大盘人群中排除正样本人群后,随机选择的样本。这种方式将会导致以下缺陷:首先用户行为日志单一,搜索匹配的人群有限,样本易偏;其次,正样本人群通过模式匹配挖掘后,不足以说明正样本的纯净度和可靠性。以上缺陷导致了现有的训练数据样本获取的方式获取用于训练的标识的准确度较低。针对上述的问题,目前尚未提出有效的解决方案。
技术实现思路
本专利技术实施例提供了一种标识的获取方法及装置,以至少解决现有技术中获取用于训练的标识的准确度低的技术问题。根据本专利技术实施例的一个方面,提供了一种标识的获取方法,包括:从多个数据源中获取与预定操作对应的标识,其中,在所述多个数据源包括的目标数据源中记录有与所述标识对应的帐号和所述帐号执行过的所述预定操作;根据所述标识的特征信息以及预设特征词从所述标识中获取初始标识,其中,所述特征信息用于表示所述预定操作的特征;根据预设权重以及所述特征信息确定所述初始标识的特征参数,其中,所述预设权重与所述目标数据源对应,所述预设权重用于指示所述目标数据源中的帐号执行所述预定操作的频率,所述特征参数用于指示所述初始标识执行所述预定操作的频率;从所述初始标识中获取第一目标标识,其中,所述第一目标标识是所述初始标识中所述特征参数高于预设参数的标识的集合。根据本专利技术实施例的另一方面,还提供了一种标识的获取装置,包括:第一获取模块,用于从多个数据源中获取与预定操作对应的标识,其中,在所述多个数据源包括的目标数据源中记录有与所述标识对应的帐号和所述帐号执行过的所述预定操作;第二获取模块,用于根据所述标识的特征信息以及预设特征词从所述标识中获取初始标识,其中,所述特征信息用于表示所述预定操作的特征;确定模块,用于根据预设权重以及所述特征信息确定所述初始标识的特征参数,其中,所述预设权重与所述目标数据源对应,所述预设权重用于指示所述目标数据源中的帐号执行所述预定操作的频率,所述特征参数用于指示所述初始标识执行所述预定操作的频率;第三获取模块,用于从所述初始标识中获取第一目标标识,其中,所述第一目标标识是所述初始标识中所述特征参数高于预设参数的标识的集合。根据本专利技术实施例的另一方面,还提供了一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行上述标识的获取方法。在本专利技术实施例中,从多个数据源中获取与预定操作对应的标识,其中,在多个数据源包括的目标数据源中记录有与标识对应的帐号和帐号执行过的预定操作;根据标识的特征信息以及预设特征词从标识中获取初始标识,其中,特征信息用于表示预定操作的特征;根据预设权重以及特征信息确定初始标识的特征参数,其中,预设权重与目标数据源对应,预设权重用于指示目标数据源中的帐号执行预定操作的频率,特征参数用于指示初始标识执行预定操作的频率;从初始标识中获取第一目标标识,其中,第一目标标识是初始标识中特征参数高于预设参数的标识的集合。也就是说,在目标数据源中记录了标识对应的帐号以及帐号执行过的预定操作,从中获取预定操作对应的标识,使得标识的获取途径更加的广泛,避免了从单一的用户日志获取标识规模较小导致的获取的标识有偏的问题,再根据标识的特征信息以及预设特征词初步地筛选出初始标识,并根据预设权重和特征信息为初始标识确定特征参数来表示出初始标识执行该预定操作的频率,然后从初始标识中获取特征参数高于预设参数的第一目标标志,使得第一目标标识中包括的标识均为执行预定操作频率较高的标识,从而提高了获取用于训练的标识的准确度,进而克服现有技术中获取用于训练的标识的准确度低的问题。附图说明此处所说明的附图用来提供对本专利技术的进一步理解,构成本申请的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:图1是根据相关技术的一种标识的获取方法的示意图;图2是根据本专利技术实施例的一种可选的标识的获取方法的应用环境示意图;图3是根据本专利技术实施例的一种可选的标识的获取方法的示意图;图4是根据本专利技术实施例的一种可选的标识的获取装置的示意图一;图5是根据本专利技术实施例的一种可选的标识的获取装置的示意图二;图6是根据本专利技术实施例的一种可选的标识的获取装置的示意图三;图7是根据本专利技术实施例的一种可选的标识的获取装置的示意图四;图8是根据本专利技术实施例的一种可选的标识的获取装置的示意图五;图9是根据本专利技术实施例的一种可选的标识的获取装置的示意图六;图10是根据本专利技术实施例的一种可选的标识的获取方法的应用场景示意图;以及图11是根据本专利技术实施例的一种可选的标识的获取设备的示意图。具体实施方式为了使本
的人员更好地理解本专利技术方案,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分的实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本专利技术保护的范围。需要说明的是,本专利技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本专利技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。实施例1在本专利技术实施例中,提供了一种上述标识的获取方法的实施例。作为一种可选的实施方式,该标识的获取方法可以但不限于应用于如图2所示的应用环境中,服务器202,用于从多个数据源中获取与预定操作对应的标识,根据标识的特征信息以及预设特征词从标识中获取初始标识,根据标识的特征信息以及预设特征词从标本文档来自技高网
...

【技术保护点】
1.一种标识的获取方法,其特征在于,包括:从多个数据源中获取与预定操作对应的标识,其中,在所述多个数据源包括的目标数据源中记录有与所述标识对应的帐号和所述帐号执行过的所述预定操作;根据所述标识的特征信息以及预设特征词从所述标识中获取初始标识,其中,所述特征信息用于表示所述预定操作的特征;根据预设权重以及所述特征信息确定所述初始标识的特征参数,其中,所述预设权重与所述目标数据源对应,所述预设权重用于指示所述目标数据源中的帐号执行所述预定操作的频率,所述特征参数用于指示所述初始标识执行所述预定操作的频率;从所述初始标识中获取第一目标标识,其中,所述第一目标标识是所述初始标识中所述特征参数高于预设参数的标识的集合。

【技术特征摘要】
1.一种标识的获取方法,其特征在于,包括:从多个数据源中获取与预定操作对应的标识,其中,在所述多个数据源包括的目标数据源中记录有与所述标识对应的帐号和所述帐号执行过的所述预定操作;根据所述标识的特征信息以及预设特征词从所述标识中获取初始标识,其中,所述特征信息用于表示所述预定操作的特征;根据预设权重以及所述特征信息确定所述初始标识的特征参数,其中,所述预设权重与所述目标数据源对应,所述预设权重用于指示所述目标数据源中的帐号执行所述预定操作的频率,所述特征参数用于指示所述初始标识执行所述预定操作的频率;从所述初始标识中获取第一目标标识,其中,所述第一目标标识是所述初始标识中所述特征参数高于预设参数的标识的集合。2.根据权利要求1所述的方法,其特征在于,根据所述标识的所述特征信息以及所述预设特征词从所述标识中获取所述初始标识包括:获取第一特征词与第二特征词,其中,所述预设特征词包括所述第一特征词和所述第二特征词;从所述标识中获取所述初始标识,其中,所述初始标识对应的特征信息中携带所述第一特征词且未携带所述第二特征词。3.根据权利要求1所述的方法,其特征在于,根据所述预设权重以及所述特征信息确定所述初始标识的所述特征参数包括:获取所述预设权重,其中,所述预设权重的值越大表示所述目标数据源中的帐号执行所述预定操作的频率越高;从所述特征信息中获取时间信息和频次信息,其中,所述时间信息用于指示所述标识执行所述预定操作的时间,所述频次信息用于指示所述标识执行所述预定操作的频次;根据所述预设权重、所述时间信息以及所述频次信息确定所述特征参数,其中,所述特征参数的值越大表示所述初始标识执行所述预定操作的频率越高。4.根据权利要求3所述的方法,其特征在于,获取所述预设权重包括以下之一:获取所述目标数据源中执行所述预定操作的帐号在所述目标数据源中包括的全部帐号中所占的比例;根据所述比例为所述目标数据源分配所述预设权重,其中,所述比例越大的数据源分配的所述预设权重越大;获取第一标识集合与预设标识集合中相同标识的数量,其中,所述第一标识集合是所述初始标识中在一个所述目标数据源中包括的标识的集合;根据所述数量与所述第一标识集合中标识的数量之间的比值为所述目标数据源分配所述预设权重,其中,所述比值越大的数据源分配的所述预设权重越大。5.根据权利要求3所述的方法,其特征在于,根据所述预设权重、所述时间信息以及所述频次信息确定所述特征参数包括:计算所述初始标识在每个所述目标数据源中对应的所述时间信息和所述频次信息的乘积;根据所述预设权重计算所述乘积的加权和,得到所述特征参数。6.根据权利要求3所述的方法,其特征在于,在根据所述标识的特征信息以及预设特征词从所述标识中获取初始标识之前,所述方法还包括:从所述标识对应的所述预定操作中获取用于表示所述预定操作的特征的信息,其中,所述用于表示所述预定操作的特征的信息包括:所述预定操作对应的特征词,所述时间信息和所述频次信息;将所述特征词、所述时间信息以及所述频次信息存储为预设格式,得到所述特征信息。7.根据权利要求1所述的方法,其特征在于,从所述初始标识中获取所述第一目标标识包括以下之一:将所述初始标识按照所述特征参数从高到低进行排列;从排列后的标识中选择出所述第一目标标识,其中,所述第一目标标识包括在排列后的标识中排在前N位的标识;从所述初始标识中获取所述特征参数的值大于或者等于预设值的所述第一目标标识。8.根据权利要求1至7中任一项所述的方法,其特征在于,在从所述初始标识中获取所述第一目标标识之后,所述方法还包括:...

【专利技术属性】
技术研发人员:袁小燕
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1