生成应用类别标签的方法及装置制造方法及图纸

技术编号:15690872 阅读:69 留言:0更新日期:2017-06-24 03:37
本发明专利技术实施例公开了一种生成应用类别标签的方法,包括:获取第一应用数据源的第一类别信息,获取第二应用数据源的第二类别信息,将所述第一类别信息和所述第二类别信息整合成第三类别信息;获取第一应用数据源或第二应用数据源的应用信息;将所述应用描述信息与所述第三类别信息中的类别标签进行匹配,为所述样本应用标识标注所述第三类别信息中的类别标签;根据所述应用信息提取相应的样本应用标识对应的特征向量,根据所述样本应用标识对应的类别标签和对应的特征向量训练分类器;根据所述训练的分类器为目标应用标识标注所述第三类别信息中的类别标签。上述方法为目标应用生成的类型标签可使得在查找应用时的结果更加准确。

Method and device for generating application category label

The embodiment of the invention discloses a method for creating application category labels: obtaining a first application data source first category information, obtain second application data source second categories of information, will be the integration of the first category information and the second categories of information into third categories of information; application of information acquisition application data source or the first second the application of the data source; the application description information and the third categories of information in the category labels to match the sample application for labeling of the third categories of information in the category label; according to the corresponding eigenvectors corresponding to the sample application identifier of the application of information extraction, according to the feature vectors of training classifier labels the sample application identifies and corresponding; according to the training of the classifier for target labeling of the third categories of applications Class labels in information. The type labels generated by the above method for target applications can make the results more accurate in finding applications.

【技术实现步骤摘要】
生成应用类别标签的方法及装置
本专利技术涉及互联网
,尤其涉及一种生成应用类别标签的方法及装置。
技术介绍
应用平台上为了方便用户浏览和下载应用,通常为应用平台上的每个注册的应用设置类型标签。而在传统技术中,应用平台上为了规范发布的应用的类型,通常自定义了一套应用类型分类树,在应用平台上注册的应用必须选择应用类型分类树定义的类型标签作为该应用的标签。而应用的类型往往五花八门,应用平台上定义的应用类型分类树并不能很好地体现应用的不同,往往属于同一类别标签的应用其实类型并不一样。在传统技术的另一种实现方式中,应用平台将为应用设置标签的权利下放给了在应用平台上注册应用的第三方开发者,由第三方开发者在注册时,自行填写注册的应用的类别标签,这就使得同一类型的应用可能由于开发者表述方式的不同而贴上了不同的类别标签。综合上述两种生成应用类别标签的方式可看出,传统技术中的应用的类别标签,要么太单一,不能体现不同应用的细微差别要么管理混乱,相同的应用对应不同的类别标签,使得标签失去了甄别的意义。因此,用户再根据标签查找时,或者应用平台在根据应用的类别标签选择应用推荐时,无法准确地查找到最适配的应用,因此,传统技术中生成应用类别标签的方式造成了查找应用不准确的问题。
技术实现思路
基于此,为解决传统技术中平台预设类别标签和发布者自选类别标签的方式所带来的,类别标签与应用匹配度不足,而导致的后续根据类别标签查找应用不准确的技术问题,特提供了一种生成应用类别标签的方法。一种生成应用类别标签的方法,包括:获取第一应用数据源的第一类别信息,获取第二应用数据源的第二类别信息,将所述第一类别信息和所述第二类别信息整合成第三类别信息,所述第三类别信息包括类别标签,所述第一应用数据源包括本地应用平台的数据源,所述第二应用数据源包括第三方应用平台的数据源;获取第一应用数据源或第二应用数据源的应用信息,所述应用信息中包含有样本应用标识和对应的应用描述信息;将所述应用描述信息与所述第三类别信息中的类别标签进行匹配,为所述样本应用标识标注所述第三类别信息中的类别标签;根据所述应用信息提取相应的样本应用标识对应的特征向量,根据所述样本应用标识对应的类别标签和对应的特征向量训练分类器;根据所述训练的分类器为目标应用标识标注所述第三类别信息中的类别标签。在其中一个实施例中,所述将所述第一类别信息和所述第二类别信息整合成第三类别信息的步骤之后还包括:获取所述第一类别信息和所述第二类别信息中与所述第三类别信息中的类别标签匹配的同义类别标签;建立所述同义类别标签与相应的所述第三类别信息中的类别标签的映射关系;所述将所述应用描述信息与所述第三类别信息中的类别标签进行匹配的步骤还包括:查找与所述应用描述信息匹配的类别标签或同义类别标签,将查找到的类别标签或同义类别标签对应的类别标签作为所述应用描述信息对应的样本应用标识的类别标签。在其中一个实施例中,所述根据所述应用信息提取相应的样本应用标识对应的特征向量的步骤包括:根据所述应用信息提取相应的样本应用标识对应的应用属性向量、用户群组属性向量、关键词匹配向量、文档主题LDA向量、文档特征doc2vec向量作为特征向量。在其中一个实施例中,所述根据所述样本应用标识对应的类别标签和对应的特征向量训练分类器的步骤包括:获取所述第三类别信息中类别标签的个数,根据所述类别标签的个数生成对应数量的分类器。在其中一个实施例中,所述根据所述类别标签的个数生成对应数量的分类器的步骤还包括:将根据所述类别标签的个数生成对应第一数量的分类器作为主分类器;对于每个主分类器,根据所述样本应用标识的类别标签和对应的特征向量获取每个主分类器对应的正样本数和负样本数的比例;根据所述每个主分类器对应的正样本数和负样本数的比例生成对应第二数量的与该主分类器对应子分类器;结合随机重采样和随机欠采样训练所述第二数量的子分类器。此外,为解决传统技术中平台预设类别标签和发布者自选类别标签的方式所带来的,类别标签与应用匹配度不足,而导致的后续根据类别标签查找应用不准确的技术问题,特提供了一种生成应用类别标签的装置。一种生成应用类别标签的装置,包括:类别信息构建模块,用于获取第一应用数据源的第一类别信息,获取第二应用数据源的第二类别信息,将所述第一类别信息和所述第二类别信息整合成第三类别信息,所述第三类别信息包括类别标签,所述第一应用数据源包括本地应用平台的数据源,所述第二应用数据源包括第三方应用平台的数据源;样本应用获取模块,用于获取第一应用数据源或第二应用数据源的应用信息,所述应用信息中包含有样本应用标识和对应的应用描述信息;样本应用标注模块,用于将所述应用描述信息与所述第三类别信息中的类别标签进行匹配,为所述样本应用标识标注所述第三类别信息中的类别标签;分类器训练模块,用于根据所述应用信息提取相应的样本应用标识对应的特征向量,根据所述样本应用标识对应的类别标签和对应的特征向量训练分类器;目标应用标注模块,用于根据所述训练的分类器为目标应用标识标注所述第三类别信息中的类别标签。在其中一个实施例中,所述类别信息构建模块还用于获取所述第一类别信息和所述第二类别信息中与所述第三类别信息中的类别标签匹配的同义类别标签;建立所述同义类别标签与相应的所述第三类别信息中的类别标签的映射关系;所述样本应用标注模块还用于查找与所述应用描述信息匹配的类别标签或同义类别标签,将查找到的类别标签或同义类别标签对应的类别标签作为所述应用描述信息对应的样本应用标识的类别标签。在其中一个实施例中,所述分类器训练模块还用于根据所述应用信息提取相应的样本应用标识对应的应用属性向量、用户群组属性向量、关键词匹配向量、文档主题LDA向量、文档特征doc2vec向量作为特征向量。在其中一个实施例中,所述分类器训练模块还用于获取所述第三类别信息中类别标签的个数,根据所述类别标签的个数生成对应数量的分类器。在其中一个实施例中,所述分类器训练模块还用于将根据所述类别标签的个数生成对应第一数量的分类器作为主分类器;对于每个主分类器,根据所述样本应用标识的类别标签和对应的特征向量获取每个主分类器对应的正样本数和负样本数的比例;根据所述每个主分类器对应的正样本数和负样本数的比例生成对应第二数量的与该主分类器对应子分类器;结合随机重采样和随机欠采样训练所述第二数量的子分类器。实施本专利技术实施例,将具有如下有益效果:采用了上述生成应用类别标签的方法和装置之后,应用平台的类别信息得到了扩展,不仅包含了执行本方法的本地应用平台的开发人员预先定义的类别信息,还整合了由第三方应用平台的应用信息数据源抓取的其他应用平台、搜索记录、其他应用信息发布网站上对应用的类别信息的描述,使得构建的应用平台的类别信息更加全面。并且,先采集样本应用,并对样本应用进行类型标签的样本标注,然后将样本应用的特征向量输入的分类器中进行机器学习训练,然后由训练好的分类器对目标应用进行自动地分类,自动为目标应用标注在扩展后的类别信息下的类型标签,使得为应用平台上的目标应用标注类型标签的操作可自动化完成,且使得为目标应用添加的类型标签与目标应用更加匹配,从而在根据类别标签查找应用时,查找结果更加准确。附图说明为了更清楚地说明本专利技术实施例或现本文档来自技高网...
生成应用类别标签的方法及装置

【技术保护点】
一种生成应用类别标签的方法,其特征在于,包括:获取第一应用数据源的第一类别信息,获取第二应用数据源的第二类别信息,将所述第一类别信息和所述第二类别信息整合成第三类别信息,所述第三类别信息包括类别标签,所述第一应用数据源包括本地应用平台的数据源,所述第二应用数据源包括第三方应用平台的数据源;获取第一应用数据源或第二应用数据源的应用信息,所述应用信息中包含有样本应用标识和对应的应用描述信息;将所述应用描述信息与所述第三类别信息中的类别标签进行匹配,为所述样本应用标识标注所述第三类别信息中的类别标签;根据所述应用信息提取相应的样本应用标识对应的特征向量,根据所述样本应用标识对应的类别标签和对应的特征向量训练分类器;根据所述训练的分类器为目标应用标识标注所述第三类别信息中的类别标签。

【技术特征摘要】
1.一种生成应用类别标签的方法,其特征在于,包括:获取第一应用数据源的第一类别信息,获取第二应用数据源的第二类别信息,将所述第一类别信息和所述第二类别信息整合成第三类别信息,所述第三类别信息包括类别标签,所述第一应用数据源包括本地应用平台的数据源,所述第二应用数据源包括第三方应用平台的数据源;获取第一应用数据源或第二应用数据源的应用信息,所述应用信息中包含有样本应用标识和对应的应用描述信息;将所述应用描述信息与所述第三类别信息中的类别标签进行匹配,为所述样本应用标识标注所述第三类别信息中的类别标签;根据所述应用信息提取相应的样本应用标识对应的特征向量,根据所述样本应用标识对应的类别标签和对应的特征向量训练分类器;根据所述训练的分类器为目标应用标识标注所述第三类别信息中的类别标签。2.根据权利要求1所述的生成应用类别标签的方法,其特征在于,所述将所述第一类别信息和所述第二类别信息整合成第三类别信息的步骤之后还包括:获取所述第一类别信息和所述第二类别信息中与所述第三类别信息中的类别标签匹配的同义类别标签;建立所述同义类别标签与相应的所述第三类别信息中的类别标签的映射关系;所述将所述应用描述信息与所述第三类别信息中的类别标签进行匹配的步骤还包括:查找与所述应用描述信息匹配的类别标签或同义类别标签,将查找到的类别标签或同义类别标签对应的类别标签作为所述应用描述信息对应的样本应用标识的类别标签。3.根据权利要求1所述的生成应用类别标签的方法,其特征在于,所述根据所述应用信息提取相应的样本应用标识对应的特征向量的步骤包括:根据所述应用信息提取相应的样本应用标识对应的应用属性向量、用户群组属性向量、关键词匹配向量、文档主题LDA向量、文档特征doc2vec向量作为特征向量。4.根据权利要求1所述的生成应用类别标签的方法,其特征在于,所述根据所述样本应用标识对应的类别标签和对应的特征向量训练分类器的步骤包括:获取所述第三类别信息中类别标签的个数,根据所述类别标签的个数生成对应数量的分类器。5.根据权利要求4所述的生成应用类别标签的方法,其特征在于,所述根据所述类别标签的个数生成对应数量的分类器的步骤还包括:将根据所述类别标签的个数生成对应第一数量的分类器作为主分类器;对于每个主分类器,根据所述样本应用标识的类别标签和对应的特征向量获取每个主分类器对应的正样本数和负样本数的比例;根据所述每个主分类器对应的正样本数和负样本数的比例生成对应第二数量的与该主分类器对应子分...

【专利技术属性】
技术研发人员:曹训黄泽谦卓居超
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1