【技术实现步骤摘要】
目标类型app的确定方法、电子设备和介质
本专利技术涉及计算机
,尤其涉及一种目标类型app的确定方法、电子设备和介质。
技术介绍
随着电子设备的快速发展,电子设备中可以安装着各种应用程序(Application,简称app),app数量种类和数量越来越多。在很多应用场景中,需要对某一类型的app进行深入研究和分析,此时需要将该类型的app从海量的app中筛选出来,但是app的数量巨大,可达上百万个,因此,如何快速、准确地从海量app中筛选出目标类型app成为亟待解决的技术问题。
技术实现思路
本专利技术目的在于,提供一种目标类型app的确定方法、电子设备和介质,能够快速准确地从海量app中筛选出目标类型app。根据本专利技术第一方面,提供了一种目标类型app的确定方法,包括:步骤S1、获取预设数量的样本app对应的名称信息和描述信息,所述名称信息和描述信息均为文本信息;步骤S2、根据所述样本app的名称信息、描述信息、预设的第一词表、第二词表和第三词表构建特征向量,基于所述样本app的特征向量和对应的app类型构建训练样本,其中,app类型为目标类型的训练样本为正样本,对应的因变量实际值为1;app类型为非目标类型的训练样本为负样本,对应的因变量实际值为0,所述第一词表用于存储目标app类型特征词,所述第二词表用于存储非目标app类型特征词,所述第三词表用于存储目标app类型特征信息;步骤S3、将所述训练样本输入预设的分类模型中进行训练,得到app分类模型; ...
【技术保护点】
1.一种目标类型app的确定方法,其特征在于,包括:/n步骤S1、获取预设数量的样本app对应的名称信息和描述信息,所述名称信息和描述信息均为文本信息;/n步骤S2、根据所述样本app的名称信息、描述信息、预设的第一词表、第二词表和第三词表构建特征向量,基于所述样本app的特征向量和对应的app类型构建训练样本,其中,app类型为目标类型的训练样本为正样本,对应的因变量实际值为1;app类型为非目标类型的训练样本为负样本,对应的因变量实际值为0;所述第一词表用于存储目标app类型特征词,所述第二词表用于存储非目标app类型特征词,所述第三词表用于存储目标app类型特征信息;/n步骤S3、将所述训练样本输入预设的分类模型中进行训练,得到app分类模型;/n步骤S4、获取待测app对应的特征向量,并输入所述app分类模型,得到分类预测值,若所述分类预测值大于预设分类阈值,则确定所述待测app是为目标类型app。/n
【技术特征摘要】
1.一种目标类型app的确定方法,其特征在于,包括:
步骤S1、获取预设数量的样本app对应的名称信息和描述信息,所述名称信息和描述信息均为文本信息;
步骤S2、根据所述样本app的名称信息、描述信息、预设的第一词表、第二词表和第三词表构建特征向量,基于所述样本app的特征向量和对应的app类型构建训练样本,其中,app类型为目标类型的训练样本为正样本,对应的因变量实际值为1;app类型为非目标类型的训练样本为负样本,对应的因变量实际值为0;所述第一词表用于存储目标app类型特征词,所述第二词表用于存储非目标app类型特征词,所述第三词表用于存储目标app类型特征信息;
步骤S3、将所述训练样本输入预设的分类模型中进行训练,得到app分类模型;
步骤S4、获取待测app对应的特征向量,并输入所述app分类模型,得到分类预测值,若所述分类预测值大于预设分类阈值,则确定所述待测app是为目标类型app。
2.根据权利要求1所述的目标类型app的确定方法,其特征在于,
所述步骤S2包括:
步骤S21、根据所述样本app的名称信息、第一词表和第二词表构建第一特征向量,基于所述第一特征向量和对应的app类型构建第一训练样本;
步骤S22、根据所述样本app的描述信息、第一词表和第二词表构建第二特征向量,基于所述第二特征向量和对应的app类型构建第二训练样本;
步骤S23、根据所述样本app的描述信息、第三词表构建第三特征向量,基于所述第三特征向量和对应的app类型构建第三训练样本。
3.根据权利要求2所述的目标类型app的确定方法,其特征在于,
所述步骤S21包括:
步骤S211、根据预设的第一分词词库将所述样本app的名称信息进行分词处理,得到多个名称分词信息;
步骤S212、根据预设的第一停用词词库将所述多个名称分词信息进行去停用词处理,得到名称特征分词;
步骤S213、将所述名称特征分词与所述第一词表和第二词表匹配,获取每一词表中出现所述名称特征分词的数量、每二词表中出现所述名称特征分词的数量、每一名称特征分词在第一词表中出现的次数,每一名称特征分词在第二词表中出现的次数;
步骤S214、基于所述每一词表中出现所述名称特征分词的数量、每二词表中出现所述名称特征分词的数量、每一名称特征分词在第一词表中出现的次数,每一名称特征分词在第二词表中出现的次数构建所述第一特征向量。
4.根据权利要求3所述的目标类型app的确定方法,其特征在于,
所述步骤S22包括:
步骤S221、从所述样本app的描述信息中提取第一描述字段信息;
步骤S222、根据预设的第二分词词库将所述第一描述字段信息进行分词处理,得到多个描述分词信息;
步骤S223、根据预设的第二停用词词库将所述多个描述分词信息进行去停用词处理,得到描述特征分词;
步骤S224、将所述描述特征分词与所述第一词表和第二词表匹配,获取每一词表中出现所述描述特征分词的数量、每二词表中出现所述描述特征分词的数量、每一描述特征分词在第一词表中出现的次数,每一描述特征...
【专利技术属性】
技术研发人员:陈玉琪,朱金星,张静雅,
申请(专利权)人:北京云真信科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。