The present invention provides a method of classification, application first, obtain the classification data, among them, the classification of data including the description of application name to be classified application and application; then, the application name classification data to the application and to describe the word segmentation, multiple keywords obtained the classification application; finally, according to the classification and names of the plurality of keywords obtained the classification application. Compared with the prior art, the invention creatively use the app store application for each application described as classification according to the application of the word segmentation description obtained after multiple keywords, then according to the classification of keywords judgment for the application, the classification of data will be re classified according to predetermined category name the purpose, in order to achieve a unified application of re classification.
【技术实现步骤摘要】
应用分类方法和应用分类装置
本专利技术涉及应用分类领域,具体的说是一种应用分类方法和一种应用分类装置。
技术介绍
随着智能手机、平板电脑等智能终端的迅速普及,基于IOS操作系统、android操作系统和windows操作系统的各种应用程序(英文缩写:App;英文全称:Application)已从社交、购物、交通、服务、医疗、通讯等各个领域深入消费者的生活中,应用程序的总数量呈爆发式增长,目前,基于IOS操作系统的App总数已超过150万,而基于开源的android操作系统的App数量更加庞大,这些App在互联网中的各大应用商店中上架,以供用户下载安装。由于App发展是互联网发展的重要方面,根据App的规模、分类等情况可以宏观了解互联网科技的发展方向,对政府、企业、个人等均具有重要的指导作用,因此,需要了解市场上所有App整体的分类情况。目前,国内有几十个应用商店,各个应用商店的规模不同,上架的App千差万别,各个应用商店对App的分类类目各不相同,对各个App的分类也不尽相同,对同一个应用商店的数据尚可以进行分类汇总,但对多个应用商店的数据就无法统一进行分类汇总了,以上现状对统计市场上所有App的整体分类情况造成了阻碍,现有技术中缺少能够对市场上的App进行统一分类的方法。
技术实现思路
鉴于上述问题,迫切需要一种能够对市场上的App进行统一分类的应用分类方法,以及相应的一种应用分类装置。本专利技术采用的技术方案是:本申请提供一种应用分类方法,包括:获取待分类数据,其中,所述待分类数据包括待分类应用的应用名称和应用描述;对所述待分类数据中的应用名称和应用描述进 ...
【技术保护点】
一种应用分类方法,其特征在于,包括:获取待分类数据,其中,所述待分类数据包括待分类应用的应用名称和应用描述;对所述待分类数据中的应用名称和应用描述进行分词处理,获得所述待分类应用的多个关键词;根据所述多个关键词获得所述待分类应用的分类名称。
【技术特征摘要】
1.一种应用分类方法,其特征在于,包括:获取待分类数据,其中,所述待分类数据包括待分类应用的应用名称和应用描述;对所述待分类数据中的应用名称和应用描述进行分词处理,获得所述待分类应用的多个关键词;根据所述多个关键词获得所述待分类应用的分类名称。2.根据权利要求1所述的应用分类方法,其特征在于,所述对所述待分类数据中的应用名称和应用描述进行分词处理,获得所述应用的多个关键词的步骤,包括:对所述待分类数据中的应用名称和应用描述采用ICTCLAS、IKAnalyzer、盘古分词、庖丁中文分词、LibMMSeg、PHPCWS、HTTPCWS、mmseg4j、smallseg、CRF、SCWS、FudanNLP和ICTCLAS4j中的任一种分词工具进行分词处理,获得所述应用的多个关键词。3.根据权利要求1所述的应用分类方法,其特征在于,所述根据所述多个关键词获得所述待分类应用的分类名称的步骤具体包括:获取由多条训练数据组成的训练样本,其中,每条所述训练数据包括一个已确定分类的训练应用的应用名称、应用描述和分类名称;对每条所述训练数据中的应用名称和应用描述进行分词处理,获得每个训练应用的多个关键词,所有所述训练应用的关键词和分类名称共同组成朴素贝叶斯分类器的训练样本;采用所述训练样本训练朴素贝叶斯分类器,获得训练好的朴素贝叶斯分类器;采用测试样本测试所述训练好的朴素贝叶斯分类器的准确度;判断所述准确度是否达到预期值,若未达到,则按照用户的指令在所述训练样本中删除至少一条训练数据,重新训练朴素贝叶斯分类器并测试训练好的朴素贝叶斯分类器的准确度,重复执行本步骤直至所述准确度达到预期值;将所述多个关键词输入训练好的朴素贝叶斯分类器中进行分类,获得所述待分类应用的分类名称。4.根据权利要求1所述的应用分类方法,其特征在于,所述获取待分类数据的步骤,包括:采用网络爬取方法从不同应用商店中爬取待分类数据。5.根据权利要求4所述的应用分类方法,其特征在于,所述采用网络爬取方法从不同应用商店中爬取待分类数据的步骤,包括:采用nutch爬虫从不同应用商店中爬取待分类数据。6.一种应用分类装置,其特征在于,包括:待分类数据...
【专利技术属性】
技术研发人员:王跃,路博,王琼,刘思言,王洪岭,邓琳碧,
申请(专利权)人:工业和信息化部电信研究院,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。