目标类型app的确定方法、电子设备和介质技术

技术编号:26762764 阅读:23 留言:0更新日期:2020-12-18 23:15
本发明专利技术涉及一种目标类型app的确定方法、电子设备和介质,方法包括步骤S1、获取预设数量的样本app对应的名称信息和描述信息,所述名称信息和描述信息均为文本信息;步骤S2、根据所述样本app的名称信息、描述信息、预设的第一词表、第二词表和第三词表构建特征向量,基于所述样本app的特征向量和对应的app类型构建训练样本;步骤S3、将所述训练样本输入预设的分类模型中进行训练,得到app分类模型;步骤S4、获取待测app对应的特征向量,并输入所述app分类模型,得到分类预测值,若所述分类预测值大于预设分类阈值,则确定所述待测app是为目标类型app。本发明专利技术提高了从海量app中筛选出目标类型app的效率和准确度。

【技术实现步骤摘要】
目标类型app的确定方法、电子设备和介质
本专利技术涉及计算机
,尤其涉及一种目标类型app的确定方法、电子设备和介质。
技术介绍
随着电子设备的快速发展,电子设备中可以安装着各种应用程序(Application,简称app),app数量种类和数量越来越多。在很多应用场景中,需要对某一类型的app进行深入研究和分析,此时需要将该类型的app从海量的app中筛选出来,但是app的数量巨大,可达上百万个,因此,如何快速、准确地从海量app中筛选出目标类型app成为亟待解决的技术问题。
技术实现思路
本专利技术目的在于,提供一种目标类型app的确定方法、电子设备和介质,能够快速准确地从海量app中筛选出目标类型app。根据本专利技术第一方面,提供了一种目标类型app的确定方法,包括:步骤S1、获取预设数量的样本app对应的名称信息和描述信息,所述名称信息和描述信息均为文本信息;步骤S2、根据所述样本app的名称信息、描述信息、预设的第一词表、第二词表和第三词表构建特征向量,基于所述样本app的特征向量和对应的app类型构建训练样本,其中,app类型为目标类型的训练样本为正样本,对应的因变量实际值为1;app类型为非目标类型的训练样本为负样本,对应的因变量实际值为0,所述第一词表用于存储目标app类型特征词,所述第二词表用于存储非目标app类型特征词,所述第三词表用于存储目标app类型特征信息;步骤S3、将所述训练样本输入预设的分类模型中进行训练,得到app分类模型;步骤S4、获取待测app对应的特征向量,并输入所述app分类模型,得到分类预测值,若所述分类预测值大于预设分类阈值,则确定所述待测app是为目标类型app。根据本专利技术第二方面,提供一种电子设备,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被设置为用于执行本专利技术第一方面所述的方法。根据本专利技术第三方面,提供一种计算机可读存储介质,所述计算机指令用于执行本专利技术第一方面所述的方法。本专利技术与现有技术相比具有明显的优点和有益效果。借由上述技术方案,本专利技术提供的一种目标类型app的确定方法、电子设备和介质可达到相当的技术进步性及实用性,并具有产业上的广泛利用价值,其至少具有下列优点:本专利技术所述方法提高了从海量app中筛选出目标类型app的效率和准确度。上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其他目的、特征和优点能够更明显易懂,以下特举较佳实施例,并配合附图,详细说明如下。附图说明图1为本专利技术实施例提供的目标类型app的确定方法流程图。具体实施方式为更进一步阐述本专利技术为达成预定专利技术目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本专利技术提出的一种目标类型app的确定方法、电子设备和介质的具体实施方式及其功效,详细说明如后。本专利技术实施例提供了一种目标类型app的确定方法,如图1所示,包括以下步骤:步骤S1、获取预设数量的样本app对应的名称信息和描述信息,所述名称信息和描述信息均为文本信息;步骤S2、根据所述样本app的名称信息、描述信息、预设的第一词表、第二词表和第三词表构建特征向量,基于所述样本app的特征向量和对应的app类型构建训练样本,其中,app类型为目标类型的训练样本为正样本,对应的因变量实际值为1;app类型为非目标类型的训练样本为负样本,对应的因变量实际值为0,所述第一词表用于存储目标app类型特征词,所述第二词表用于存储非目标app类型特征词,所述第三词表用于存储目标app类型特征信息;作为一种示例,第一词表、第二词表、第三词表可基于对多个已知为目标类型app的名称信息和描述信息进行分析统计而获取,也可通过一个信息交互界面接收用户输入的特征词信息添加至对应的词表中。步骤S3、将所述训练样本输入预设的分类模型中进行训练,得到app分类模型;其中,具体可采用FastTest或朴素贝叶斯算法训练所述分类模型,为了更进一步提高模型精确度,可以根据文本信息的长短来选择具体采用FastTest还是朴素贝叶斯算法,具体可设定一个文本阈值,对于大于等于文本阈值的文本,可以采用FastTest算法来处理,小于文本阈值的文本,采用朴素贝叶斯算法处理。FastTest算法和朴素贝叶斯算法为现有的算法,在此不再展开描述。步骤S4、获取待测app对应的特征向量,并输入所述app分类模型,得到分类预测值,若所述分类预测值大于预设分类阈值,则确定所述待测app是为目标类型app。本专利技术实施例所述方法提高了从海量app中筛选出目标类型app的效率和准确度。可以理解的是,步骤S4中获取待测app对应的特征向量具体步骤,与步骤S1-步骤S2中构建训练样本的特征向量的步骤一样,在此不再赘述。需要说明的是,本专利技术一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各步骤描述成顺序的处理,但是其中的许多步骤可以被并行地、并发地或者同时实施。此外,各步骤的顺序仅是为了引用方便的目的予以编排,并不意味着步骤执行的必然顺序,即可以被重新安排。当其操作完成时处理可以被终止,但是还可以具有未包括在附图中的附加步骤。处理可以对应于方法、函数、规程、子例程、子程序等等。作为一种实施例,所述步骤S2包括:步骤S21、根据所述样本app的名称信息、第一词表和第二词表构建第一特征向量,基于所述第一特征向量和对应的app类型构建第一训练样本;步骤S22、根据所述样本app的描述信息、第一词表和第二词表构建第二特征向量,基于所述第二特征向量和对应的app类型构建第二训练样本;步骤S23、根据所述样本app的描述信息、第三词表构建第三特征向量,基于所述第三特征向量和对应的app类型构建第三训练样本。可以理解的是,app类型为目标类型的第一训练样本、第二训练样本集第三训练样本为正样本,对应的第一因变量、第二因变量及第三因变量实际值为1。app类型为非目标类型的第一训练样本、第二训练样本集第三训练样本为负样本,对应的第一因变量实际值、第二因变量及第三因变量实际值为0。作为一种实施例,所述步骤S21具体包括:步骤S211、根据预设的第一分词词库将所述样本app的名称信息进行分词处理,得到多个名称分词信息;步骤S212、根据预设的第一停用词词库将所述多个名称分词信息进行去停用词处理,得到名称特征分词;步骤S213、将所述名称特征分词与所述第一词表和第二词表匹配,获取每一词表中出现所述名称特征分词的数量、每二词表中出现所述名称特征分词的数量、每一名称特征分词在第一词表中出现的次数,每一名称特征分词在第二词表中出现的次数;步骤S214、基于所述每一词表中出现所述名称特征分词的数量、每二本文档来自技高网...

【技术保护点】
1.一种目标类型app的确定方法,其特征在于,包括:/n步骤S1、获取预设数量的样本app对应的名称信息和描述信息,所述名称信息和描述信息均为文本信息;/n步骤S2、根据所述样本app的名称信息、描述信息、预设的第一词表、第二词表和第三词表构建特征向量,基于所述样本app的特征向量和对应的app类型构建训练样本,其中,app类型为目标类型的训练样本为正样本,对应的因变量实际值为1;app类型为非目标类型的训练样本为负样本,对应的因变量实际值为0;所述第一词表用于存储目标app类型特征词,所述第二词表用于存储非目标app类型特征词,所述第三词表用于存储目标app类型特征信息;/n步骤S3、将所述训练样本输入预设的分类模型中进行训练,得到app分类模型;/n步骤S4、获取待测app对应的特征向量,并输入所述app分类模型,得到分类预测值,若所述分类预测值大于预设分类阈值,则确定所述待测app是为目标类型app。/n

【技术特征摘要】
1.一种目标类型app的确定方法,其特征在于,包括:
步骤S1、获取预设数量的样本app对应的名称信息和描述信息,所述名称信息和描述信息均为文本信息;
步骤S2、根据所述样本app的名称信息、描述信息、预设的第一词表、第二词表和第三词表构建特征向量,基于所述样本app的特征向量和对应的app类型构建训练样本,其中,app类型为目标类型的训练样本为正样本,对应的因变量实际值为1;app类型为非目标类型的训练样本为负样本,对应的因变量实际值为0;所述第一词表用于存储目标app类型特征词,所述第二词表用于存储非目标app类型特征词,所述第三词表用于存储目标app类型特征信息;
步骤S3、将所述训练样本输入预设的分类模型中进行训练,得到app分类模型;
步骤S4、获取待测app对应的特征向量,并输入所述app分类模型,得到分类预测值,若所述分类预测值大于预设分类阈值,则确定所述待测app是为目标类型app。


2.根据权利要求1所述的目标类型app的确定方法,其特征在于,
所述步骤S2包括:
步骤S21、根据所述样本app的名称信息、第一词表和第二词表构建第一特征向量,基于所述第一特征向量和对应的app类型构建第一训练样本;
步骤S22、根据所述样本app的描述信息、第一词表和第二词表构建第二特征向量,基于所述第二特征向量和对应的app类型构建第二训练样本;
步骤S23、根据所述样本app的描述信息、第三词表构建第三特征向量,基于所述第三特征向量和对应的app类型构建第三训练样本。


3.根据权利要求2所述的目标类型app的确定方法,其特征在于,
所述步骤S21包括:
步骤S211、根据预设的第一分词词库将所述样本app的名称信息进行分词处理,得到多个名称分词信息;
步骤S212、根据预设的第一停用词词库将所述多个名称分词信息进行去停用词处理,得到名称特征分词;
步骤S213、将所述名称特征分词与所述第一词表和第二词表匹配,获取每一词表中出现所述名称特征分词的数量、每二词表中出现所述名称特征分词的数量、每一名称特征分词在第一词表中出现的次数,每一名称特征分词在第二词表中出现的次数;
步骤S214、基于所述每一词表中出现所述名称特征分词的数量、每二词表中出现所述名称特征分词的数量、每一名称特征分词在第一词表中出现的次数,每一名称特征分词在第二词表中出现的次数构建所述第一特征向量。


4.根据权利要求3所述的目标类型app的确定方法,其特征在于,
所述步骤S22包括:
步骤S221、从所述样本app的描述信息中提取第一描述字段信息;
步骤S222、根据预设的第二分词词库将所述第一描述字段信息进行分词处理,得到多个描述分词信息;
步骤S223、根据预设的第二停用词词库将所述多个描述分词信息进行去停用词处理,得到描述特征分词;
步骤S224、将所述描述特征分词与所述第一词表和第二词表匹配,获取每一词表中出现所述描述特征分词的数量、每二词表中出现所述描述特征分词的数量、每一描述特征分词在第一词表中出现的次数,每一描述特征...

【专利技术属性】
技术研发人员:陈玉琪朱金星张静雅
申请(专利权)人:北京云真信科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1