应用分类方法和应用分类装置制造方法及图纸

技术编号:16780076 阅读:47 留言:0更新日期:2017-12-13 00:11
本发明专利技术提供一种应用分类方法,首先,获取待分类数据,其中,所述待分类数据包括待分类应用的应用名称和应用描述;然后,对所述待分类数据中的应用名称和应用描述进行分词处理,获得所述待分类应用的多个关键词;最后,根据所述多个关键词获得所述待分类应用的分类名称。相较于现有技术,本发明专利技术创造性的利用了各大应用商店中对各个应用的应用描述作为分类根据,采用分词技术对所述应用描述分词后获得多个关键词,然后根据关键词判断所述应用的分类,实现了将待分类数据按照预定的分类名称重新分类的目的,从而实现对应用的统一重新分类。

Application classification method and application classification device

The present invention provides a method of classification, application first, obtain the classification data, among them, the classification of data including the description of application name to be classified application and application; then, the application name classification data to the application and to describe the word segmentation, multiple keywords obtained the classification application; finally, according to the classification and names of the plurality of keywords obtained the classification application. Compared with the prior art, the invention creatively use the app store application for each application described as classification according to the application of the word segmentation description obtained after multiple keywords, then according to the classification of keywords judgment for the application, the classification of data will be re classified according to predetermined category name the purpose, in order to achieve a unified application of re classification.

【技术实现步骤摘要】
应用分类方法和应用分类装置
本专利技术涉及应用分类领域,具体的说是一种应用分类方法和一种应用分类装置。
技术介绍
随着智能手机、平板电脑等智能终端的迅速普及,基于IOS操作系统、android操作系统和windows操作系统的各种应用程序(英文缩写:App;英文全称:Application)已从社交、购物、交通、服务、医疗、通讯等各个领域深入消费者的生活中,应用程序的总数量呈爆发式增长,目前,基于IOS操作系统的App总数已超过150万,而基于开源的android操作系统的App数量更加庞大,这些App在互联网中的各大应用商店中上架,以供用户下载安装。由于App发展是互联网发展的重要方面,根据App的规模、分类等情况可以宏观了解互联网科技的发展方向,对政府、企业、个人等均具有重要的指导作用,因此,需要了解市场上所有App整体的分类情况。目前,国内有几十个应用商店,各个应用商店的规模不同,上架的App千差万别,各个应用商店对App的分类类目各不相同,对各个App的分类也不尽相同,对同一个应用商店的数据尚可以进行分类汇总,但对多个应用商店的数据就无法统一进行分类汇总了,以上现状对统计市场上所有App的整体分类情况造成了阻碍,现有技术中缺少能够对市场上的App进行统一分类的方法。
技术实现思路
鉴于上述问题,迫切需要一种能够对市场上的App进行统一分类的应用分类方法,以及相应的一种应用分类装置。本专利技术采用的技术方案是:本申请提供一种应用分类方法,包括:获取待分类数据,其中,所述待分类数据包括待分类应用的应用名称和应用描述;对所述待分类数据中的应用名称和应用描述进行分词处理,获得所述待分类应用的多个关键词;根据所述多个关键词获得所述待分类应用的分类名称。可选的,所述对所述待分类数据中的应用名称和应用描述进行分词处理,获得所述应用的多个关键词的步骤,包括:对所述待分类数据中的应用名称和应用描述采用ICTCLAS、IKAnalyzer、盘古分词、庖丁中文分词、LibMMSeg、PHPCWS、HTTPCWS、mmseg4j、smallseg、CRF、SCWS、FudanNLP和ICTCLAS4j中的任一种分词工具进行分词处理,获得所述应用的多个关键词。可选的,所述根据所述多个关键词获得所述待分类应用的分类名称的步骤具体包括:获取由多条训练数据组成的训练样本,其中,每条所述训练数据包括一个已确定分类的训练应用的应用名称、应用描述和分类名称;对每条所述训练数据中的应用名称和应用描述进行分词处理,获得每个训练应用的多个关键词,所有所述训练应用的关键词和分类名称共同组成朴素贝叶斯分类器的训练样本;采用所述训练样本训练朴素贝叶斯分类器,获得训练好的朴素贝叶斯分类器;采用测试样本测试所述训练好的朴素贝叶斯分类器的准确度;判断所述准确度是否达到预期值,若未达到,则按照用户的指令在所述训练样本中删除至少一条训练数据,重新训练朴素贝叶斯分类器并测试训练好的朴素贝叶斯分类器的准确度,重复执行本步骤直至所述准确度达到预期值;将所述多个关键词输入训练好的朴素贝叶斯分类器中进行分类,获得所述待分类应用的分类名称。可选的,所述获取待分类数据的步骤,包括:采用网络爬取方法从不同应用商店中爬取待分类数据。可选的,所述采用网络爬取方法从不同应用商店中爬取待分类数据的步骤,包括:采用nutch爬虫从不同应用商店中爬取待分类数据。本申请还提供一种应用分类装置,包括:待分类数据获取模块,用于获取待分类数据,其中,所述待分类数据包括待分类应用的应用名称和应用描述;待分类数据分词模块,用于对所述待分类数据中的应用名称和应用描述进行分词处理,获得所述待分类应用的多个关键词;分类模块,用于根据所述多个关键词获得所述待分类应用的分类名称。可选的,所述待分类数据分词模块包括:待分类数据分词单元,用于对所述待分类数据中的应用名称和应用描述采用ICTCLAS、IKAnalyzer、盘古分词、庖丁中文分词、LibMMSeg、PHPCWS、HTTPCWS、mmseg4j、smallseg、CRF、SCWS、FudanNLP和ICTCLAS4j中的任一种分词工具进行分词处理,获得所述应用的多个关键词。可选的,所述分类模块包括:训练样本获取单元,用于获取由多条训练数据组成的训练样本,其中,每条所述训练数据包括一个已确定分类的训练应用的应用名称、应用描述和分类名称;训练数据分词单元,用于对每条所述训练数据中的应用名称和应用描述进行分词处理,获得每个训练应用的多个关键词,所有所述训练应用的关键词和分类名称共同组成朴素贝叶斯分类器的训练样本;分类器训练单元,用于采用所述训练样本训练朴素贝叶斯分类器,获得训练好的朴素贝叶斯分类器;分类器测试单元,用于采用测试样本测试所述训练好的朴素贝叶斯分类器的准确度;重复训练单元,用于判断所述准确度是否达到预期值,若未达到,则按照用户的指令在所述训练样本中删除至少一条训练数据,重新训练朴素贝叶斯分类器并测试训练好的朴素贝叶斯分类器的准确度,重复执行本步骤直至所述准确度达到预期值;分类单元,用于将所述多个关键词输入训练好的朴素贝叶斯分类器中进行分类,获得所述待分类应用的分类名称。可选的,所述待分类数据获取模块包括:待分类数据爬取单元,用于采用网络爬取方法从不同应用商店中爬取待分类数据。可选的,所述待分类数据爬取单元包括:Nutch爬虫子单元,用于采用nutch爬虫从不同应用商店中爬取待分类数据。与现有技术相比,本专利技术具有以下优点:本专利技术提供的一种应用分类方法,首先,获取待分类数据,其中,所述待分类数据包括待分类应用的应用名称和应用描述;然后,对所述待分类数据中的应用名称和应用描述进行分词处理,获得所述待分类应用的多个关键词;最后,根据所述多个关键词获得所述待分类应用的分类名称。相较于现有技术,本专利技术创造性的利用了各大应用商店中对各个应用的应用描述作为分类根据,采用分词技术对所述应用描述分词后获得多个关键词,然后根据关键词判断所述应用的分类,实现了将待分类数据按照预定的分类名称重新分类的目的,从而实现对应用的统一重新分类,解决了目前各大应用市场应用分类不一致导致的不能统计市场上所有App的整体分类情况的问题。由于应用描述一般都会对应用的功能、用途进行详细说明,因此,根据应用描述进行分类具有较高的准确性,目前,根据试验结果,本方法的分类准确性高达96%以上,效果显著。进一步的,本专利技术在根据关键词判断所述应用的分类时,采用了朴素贝叶斯分类方法,并对朴素贝叶斯分类器进行重复训练和检验,以保证所述朴素贝叶斯分类器分类的准确性,利用朴素贝叶斯分类器实现应用的自动分类,具有较高的分类效率和准确性。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本专利技术的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。图1是本专利技术提供的一种应用分类方法实施例的流程图;图2是本专利技术提供的一种应用分类装置实施例的示意图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中附图,对本专利技术实施例中的本文档来自技高网...
应用分类方法和应用分类装置

【技术保护点】
一种应用分类方法,其特征在于,包括:获取待分类数据,其中,所述待分类数据包括待分类应用的应用名称和应用描述;对所述待分类数据中的应用名称和应用描述进行分词处理,获得所述待分类应用的多个关键词;根据所述多个关键词获得所述待分类应用的分类名称。

【技术特征摘要】
1.一种应用分类方法,其特征在于,包括:获取待分类数据,其中,所述待分类数据包括待分类应用的应用名称和应用描述;对所述待分类数据中的应用名称和应用描述进行分词处理,获得所述待分类应用的多个关键词;根据所述多个关键词获得所述待分类应用的分类名称。2.根据权利要求1所述的应用分类方法,其特征在于,所述对所述待分类数据中的应用名称和应用描述进行分词处理,获得所述应用的多个关键词的步骤,包括:对所述待分类数据中的应用名称和应用描述采用ICTCLAS、IKAnalyzer、盘古分词、庖丁中文分词、LibMMSeg、PHPCWS、HTTPCWS、mmseg4j、smallseg、CRF、SCWS、FudanNLP和ICTCLAS4j中的任一种分词工具进行分词处理,获得所述应用的多个关键词。3.根据权利要求1所述的应用分类方法,其特征在于,所述根据所述多个关键词获得所述待分类应用的分类名称的步骤具体包括:获取由多条训练数据组成的训练样本,其中,每条所述训练数据包括一个已确定分类的训练应用的应用名称、应用描述和分类名称;对每条所述训练数据中的应用名称和应用描述进行分词处理,获得每个训练应用的多个关键词,所有所述训练应用的关键词和分类名称共同组成朴素贝叶斯分类器的训练样本;采用所述训练样本训练朴素贝叶斯分类器,获得训练好的朴素贝叶斯分类器;采用测试样本测试所述训练好的朴素贝叶斯分类器的准确度;判断所述准确度是否达到预期值,若未达到,则按照用户的指令在所述训练样本中删除至少一条训练数据,重新训练朴素贝叶斯分类器并测试训练好的朴素贝叶斯分类器的准确度,重复执行本步骤直至所述准确度达到预期值;将所述多个关键词输入训练好的朴素贝叶斯分类器中进行分类,获得所述待分类应用的分类名称。4.根据权利要求1所述的应用分类方法,其特征在于,所述获取待分类数据的步骤,包括:采用网络爬取方法从不同应用商店中爬取待分类数据。5.根据权利要求4所述的应用分类方法,其特征在于,所述采用网络爬取方法从不同应用商店中爬取待分类数据的步骤,包括:采用nutch爬虫从不同应用商店中爬取待分类数据。6.一种应用分类装置,其特征在于,包括:待分类数据...

【专利技术属性】
技术研发人员:王跃路博王琼刘思言王洪岭邓琳碧
申请(专利权)人:工业和信息化部电信研究院
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1