The embodiment of the invention discloses a method for creating application category labels: obtaining a first application data source first category information, obtain second application data source second categories of information, will be the integration of the first category information and the second categories of information into third categories of information; application of information acquisition application data source or the first second the application of the data source; the application description information and the third categories of information in the category labels to match the sample application for labeling of the third categories of information in the category label; according to the corresponding eigenvectors corresponding to the sample application identifier of the application of information extraction, according to the feature vectors of training classifier labels the sample application identifies and corresponding; according to the training of the classifier for target labeling of the third categories of applications Class labels in information. The type labels generated by the above method for target applications can make the results more accurate in finding applications.
【技术实现步骤摘要】
生成应用类别标签的方法及装置
本专利技术涉及互联网
,尤其涉及一种生成应用类别标签的方法及装置。
技术介绍
应用平台上为了方便用户浏览和下载应用,通常为应用平台上的每个注册的应用设置类型标签。而在传统技术中,应用平台上为了规范发布的应用的类型,通常自定义了一套应用类型分类树,在应用平台上注册的应用必须选择应用类型分类树定义的类型标签作为该应用的标签。而应用的类型往往五花八门,应用平台上定义的应用类型分类树并不能很好地体现应用的不同,往往属于同一类别标签的应用其实类型并不一样。在传统技术的另一种实现方式中,应用平台将为应用设置标签的权利下放给了在应用平台上注册应用的第三方开发者,由第三方开发者在注册时,自行填写注册的应用的类别标签,这就使得同一类型的应用可能由于开发者表述方式的不同而贴上了不同的类别标签。综合上述两种生成应用类别标签的方式可看出,传统技术中的应用的类别标签,要么太单一,不能体现不同应用的细微差别要么管理混乱,相同的应用对应不同的类别标签,使得标签失去了甄别的意义。因此,用户再根据标签查找时,或者应用平台在根据应用的类别标签选择应用推荐时,无法准确地查找到最适配的应用,因此,传统技术中生成应用类别标签的方式造成了查找应用不准确的问题。
技术实现思路
基于此,为解决传统技术中平台预设类别标签和发布者自选类别标签的方式所带来的,类别标签与应用匹配度不足,而导致的后续根据类别标签查找应用不准确的技术问题,特提供了一种生成应用类别标签的方法。一种生成应用类别标签的方法,包括:获取第一应用数据源的第一类别信息,获取第二应用数据源的第二类别信息,将所述第 ...
【技术保护点】
一种生成应用类别标签的方法,其特征在于,包括:获取第一应用数据源的第一类别信息,获取第二应用数据源的第二类别信息,将所述第一类别信息和所述第二类别信息整合成第三类别信息,所述第三类别信息包括类别标签,所述第一应用数据源包括本地应用平台的数据源,所述第二应用数据源包括第三方应用平台的数据源;获取第一应用数据源或第二应用数据源的应用信息,所述应用信息中包含有样本应用标识和对应的应用描述信息;将所述应用描述信息与所述第三类别信息中的类别标签进行匹配,为所述样本应用标识标注所述第三类别信息中的类别标签;根据所述应用信息提取相应的样本应用标识对应的特征向量,根据所述样本应用标识对应的类别标签和对应的特征向量训练分类器;根据所述训练的分类器为目标应用标识标注所述第三类别信息中的类别标签。
【技术特征摘要】
1.一种生成应用类别标签的方法,其特征在于,包括:获取第一应用数据源的第一类别信息,获取第二应用数据源的第二类别信息,将所述第一类别信息和所述第二类别信息整合成第三类别信息,所述第三类别信息包括类别标签,所述第一应用数据源包括本地应用平台的数据源,所述第二应用数据源包括第三方应用平台的数据源;获取第一应用数据源或第二应用数据源的应用信息,所述应用信息中包含有样本应用标识和对应的应用描述信息;将所述应用描述信息与所述第三类别信息中的类别标签进行匹配,为所述样本应用标识标注所述第三类别信息中的类别标签;根据所述应用信息提取相应的样本应用标识对应的特征向量,根据所述样本应用标识对应的类别标签和对应的特征向量训练分类器;根据所述训练的分类器为目标应用标识标注所述第三类别信息中的类别标签。2.根据权利要求1所述的生成应用类别标签的方法,其特征在于,所述将所述第一类别信息和所述第二类别信息整合成第三类别信息的步骤之后还包括:获取所述第一类别信息和所述第二类别信息中与所述第三类别信息中的类别标签匹配的同义类别标签;建立所述同义类别标签与相应的所述第三类别信息中的类别标签的映射关系;所述将所述应用描述信息与所述第三类别信息中的类别标签进行匹配的步骤还包括:查找与所述应用描述信息匹配的类别标签或同义类别标签,将查找到的类别标签或同义类别标签对应的类别标签作为所述应用描述信息对应的样本应用标识的类别标签。3.根据权利要求1所述的生成应用类别标签的方法,其特征在于,所述根据所述应用信息提取相应的样本应用标识对应的特征向量的步骤包括:根据所述应用信息提取相应的样本应用标识对应的应用属性向量、用户群组属性向量、关键词匹配向量、文档主题LDA向量、文档特征doc2vec向量作为特征向量。4.根据权利要求1所述的生成应用类别标签的方法,其特征在于,所述根据所述样本应用标识对应的类别标签和对应的特征向量训练分类器的步骤包括:获取所述第三类别信息中类别标签的个数,根据所述类别标签的个数生成对应数量的分类器。5.根据权利要求4所述的生成应用类别标签的方法,其特征在于,所述根据所述类别标签的个数生成对应数量的分类器的步骤还包括:将根据所述类别标签的个数生成对应第一数量的分类器作为主分类器;对于每个主分类器,根据所述样本应用标识的类别标签和对应的特征向量获取每个主分类器对应的正样本数和负样本数的比例;根据所述每个主分类器对应的正样本数和负样本数的比例生成对应第二数量的与该主分类器对应子分...
【专利技术属性】
技术研发人员:曹训,黄泽谦,卓居超,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。