一种基于移动应用的分类识别方法及系统技术方案

技术编号:19139966 阅读:36 留言:0更新日期:2018-10-13 08:38
本发明专利技术公开了一种基于移动应用的分类识别方法,其包括以下步骤:系统建立基础分类特征库;通过互联网爬取移动应用及应用页面中关键信息;系统识别所述关键信息中的分类信息及应用特征关键词;若识别到分类信息,则持续进行分类信息识别;若未识别到分类信息,则进入匹配基础特征库关键词识别;系统对采集到的应用特征关键词进行处理,获取到最优分类,并将新的分类结果补充至基础分类特征库。一种基于移动应用的分类识别系统,其包括:初始化控制模块、识别分类信息模块、匹配关键词模块。其提高了后续爬取到的移动应用分类识别效率和准确性,解决了现有应用分类的低效及无法识别的问题,可广泛应用于互联网应用领域。

A classification and recognition method and system based on mobile application

The invention discloses a classification and recognition method based on mobile application, which comprises the following steps: establishing a basic classification feature library by the system; crawling the key information in mobile application and application pages through the Internet; systematically identifying the classification information and application feature keywords in the key information; and identifying the classification information if the classification information is recognized; Continuous classification information recognition; if the classification information is not recognized, it enters the matching basic feature library keyword recognition; the system processes the collected applied feature keywords to obtain the optimal classification, and adds the new classification results to the basic classification feature library. A classification and recognition system based on mobile application includes initialization control module, recognition classification information module and matching keyword module. It improves the efficiency and accuracy of mobile application classification and recognition, solves the problems of inefficiency and unrecognizability of existing application classification, and can be widely used in Internet applications.

【技术实现步骤摘要】
一种基于移动应用的分类识别方法及系统
本专利技术涉及互联网应用领域,具体为基于移动应用的分类识别方法及系统。
技术介绍
在现有移动终端项目中,通常需要对应用大致分类,以便后续进行统计及识别。一般的分类方法是通过互联网爬取应用商城应用详情页面中的已知类别,该类别通常是对应于该商城本身需要所作的分类,分类标签也是各个商城不一致。对于分类有固定要求的系统,则会设置一些基础分类标签,如未识别,则会通过默认标签识别。然而,使用一般的识别方法,不足之处非常明显,具体在于:1、各应用商城分类不一致,导致后续类别标签高重复率;2、部分应用商城分类不明确,导致无法识别应用分类;3、对于赋予默认标签的应用,后续统计会出现分类偏差;如通过对现有项目中应用分类结果分析得知,正常爬取应用后,普遍出现分类不准确,包括:1、分类重复;2、分类无法识别;3、分类识别错误;4、分类不完整,多类型分类统计不准确。在传统的方法中,固定的认同各个应用商城中分类,导致很多分类不准确,例如百度应用商城中定义“社交通讯”,而在360应用商城中则叫“聊天工具”,且百度应用商城中对于“社交通讯”还有二级分类,即“聊天”、“社交”、“婚恋”、“通讯”,而360应用商城中对应二级分类则叫“社交聊天”、“网络电话”、“视频聊天”、“游戏语音”,因此对于如此多种且意义相近的分类进行只有系统分类处理,将需要一个持续的分析识别过程。为解决当前应用分类不够准确的问题,因此有必要提出一种新的移动应用持续标签识别方法。
技术实现思路
为了解决上述技术问题,本专利技术的目的是提供一种基于移动应用的分类识别方法及系统。本专利技术所采用的技术方案是:本专利技术提供一种基于移动应用的分类识别方法,其包括以下步骤:系统建立基础分类特征库;通过互联网爬取移动应用及应用页面中关键信息;系统识别所述关键信息中的分类信息及应用特征关键词;若识别到分类信息,则持续进行分类信息识别;若未识别到分类信息,则进入匹配基础特征库关键词识别;系统对采集到的应用特征关键词进行处理,获取到最优分类;构建应用基础画像,并将新的分类结果补充至基础分类特征库。作为该技术方案的改进,所述基础分类特征库的基础分类包括:社交类、影音类、游戏类。作为该技术方案的改进,所述步骤系统对采集到的应用特征关键词进行处理,获取到最优分类,其中通过最大公约算法获取最优分类。作为该技术方案的改进,所述方法还包括:系统预先设定识别应用分类的默认映射关系;获取所述爬取的应用描述信息;通过分词组件获取描述信息中的分词结果,并剔除忽略词库中的内容;采用最大匹配算法匹配基础分类特征词;依据匹配阈值判断是否匹配成功,若匹配成功,则直接识别对应基础特征及分类;否则,系统进行映射策略选择。作为该技术方案的改进,所述映射策略选择包括发送无法识别分类通知至系统以进行手动映射,或自动映射为未识别分类。进一步地,所述匹配阈值包括设定命中词的个数。进一步地,当命中情况为非唯一命中或全未命中,则进行手动映射。进一步地,当自动映射为未识别分类,则系统持续进行分类识别,直至匹配完成。另一方面,本专利技术还提供一种基于移动应用的分类识别系统,其包括:初始化控制模块,用于执行步骤系统建立基础分类特征库;通过互联网爬取移动应用及应用页面中关键信息;识别分类信息模块,用于执行步骤系统识别所述关键信息中的分类信息及应用特征关键词;若识别到分类信息,则持续进行分类信息识别;匹配关键词模块,用于执行步骤若未识别到分类信息,则进入匹配基础特征库关键词识别;系统对采集到的应用特征关键词进行处理,获取到最优分类;构建应用基础画像,并将新的分类结果补充至基础分类特征库。本专利技术的有益效果是:本专利技术提供的基于移动应用的分类识别方法及系统,通过改进原有互联网应用分类识别的映射模式,设计了一套依据连续在互联网爬取并积累应用类别分词语义库,后续通过语义匹配和人工映射两种途径来构建应用分类的基础特征映射库,在匹配过程中通过最大匹配分词过程和匹配度阈值等机制来获得精确匹配结果,由此提高后续爬取到的移动应用分类识别效率和准确性,解决了现有应用分类的低效及无法识别的问题;且对于新爬取到的应用,为后续应用统计和报表提供了准确分类内容。附图说明下面结合附图对本专利技术的具体实施方式作进一步说明:图1是本专利技术第一实施例的移动应用持续分类识别方法控制流程示意图;图2是本专利技术第二实施例的移动应用识别基础分类方法控制流程示意图;图3是本专利技术第三实施例的模块连接图。具体实施方式需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。参照图1,本专利技术提供一种基于移动应用的分类识别方法,其包括以下步骤:系统建立基础分类特征库;通过互联网爬取移动应用及应用页面中关键信息;系统识别所述关键信息中的分类信息及应用特征关键词;若识别到分类信息,则持续进行分类信息识别;若未识别到分类信息,则进入匹配基础特征库关键词识别;系统对采集到的应用特征关键词进行处理,获取到最优分类;构建应用基础画像,并将新的分类结果补充至基础分类特征库。作为该技术方案的改进,所述基础分类特征库的基础分类包括:社交类、影音类、游戏类。作为该技术方案的改进,所述步骤系统对采集到的应用特征关键词进行处理,获取到最优分类,其中通过最大公约算法获取最优分类。作为一具体实施例,其流程说明如下:101)综合互联网商城分类标签,建立分类标签基础库;102)通过后台爬虫服务持续爬取互联网移动应用,及应用详情页面中关键信息;103)通过分类识别模块识别关键信息中的分类信息及描述中应用特征关键词,如果识别到分类信息,则继续后续分类信息识别,否则进入匹配特征库关键词识别;104)采集到的特征关键词会通过最大公约算法获取到最优分类。其中,最大公约算法即最大字频优选法,其将采集的特征关键词拆分成单字,计算各字在基础特征库中的出现频率百分比值,略掉频率等于0的字,最终将结果值排序后取前100的字所对应的关键词作为最后的最优分类。对于匹配到多个分类结果的情况,将通过应用内部分析匹配已分类应用库,进一步筛选应用分类,例如通过应用包名等识别应用库,依据已匹配的历史来推断该应用分类;105)通过以上各项分类识别,大体构建该应用的分类标签,允许适配多个分类,通过后续基础库的不断完善,将不断提高分类结果;106)将新的分类结果补充至分类特征库。实际项目中按照以上流程,首先建立标准分类,如下表1所示:表1标准分类特征关键词社交类社交、聊天、通讯、电话、美容影音类视频、语音、电台、铃声、娱乐、特效游戏类休闲、益智、养成、射击、模拟、竞速、棋牌后台爬虫服务通过互联网爬取到百度应用商城分类“社交通讯”;和360应用商城分类“社交网络”、“休闲娱乐”分类信息;通过标准库中特征关键词直接匹配到“社交通讯”和“社交网络”,因此建立该匹配关系,百度应用商城分类中的“社交通讯”和360应用商城分类中的“社交网络”下的所有应用将在爬取后属于标准分类中的“社交类”。系统在识别过程中,而未被直接识别出的“休闲娱乐”分类将通过策略配置是否采用人工映射,或者自动映射;如果采用人工映射,则表现在系统会发送提醒或通知管理员登录系统进行设定映射;而采用自动映射,则由系统暂时设定未知标签,等待系统基础特征库丰富后,定期再本文档来自技高网...

【技术保护点】
1.一种基于移动应用的分类识别方法,其特征在于,其包括以下步骤:系统建立基础分类特征库;通过互联网爬取移动应用及应用页面中关键信息;系统识别所述关键信息中的分类信息及应用特征关键词;若识别到分类信息,则持续进行分类信息识别;若未识别到分类信息,则进入匹配基础特征库关键词识别;系统对采集到的应用特征关键词进行处理,获取到最优分类;构建应用基础画像,并将新的分类结果补充至基础分类特征库。

【技术特征摘要】
1.一种基于移动应用的分类识别方法,其特征在于,其包括以下步骤:系统建立基础分类特征库;通过互联网爬取移动应用及应用页面中关键信息;系统识别所述关键信息中的分类信息及应用特征关键词;若识别到分类信息,则持续进行分类信息识别;若未识别到分类信息,则进入匹配基础特征库关键词识别;系统对采集到的应用特征关键词进行处理,获取到最优分类;构建应用基础画像,并将新的分类结果补充至基础分类特征库。2.根据权利要求1所述的基于移动应用的分类识别方法,其特征在于,所述基础分类特征库的基础分类包括:社交类、影音类、游戏类。3.根据权利要求1或2所述的基于移动应用的分类识别方法,其特征在于,所述步骤系统对采集到的应用特征关键词进行处理,获取到最优分类,其中通过最大公约算法获取最优分类。4.根据权利要求3所述的基于移动应用的分类识别方法,其特征在于,所述方法还包括:系统预先设定识别应用分类的默认映射关系;获取所述爬取的应用描述信息;通过分词组件获取描述信息中的分词结果,并剔除忽略词库中的内容;采用最大匹配算法匹配基础分类特征词;依据匹配阈值判断是否匹配成功,若匹配成功,则直接识别对应基础特征及...

【专利技术属性】
技术研发人员:吴岳辉
申请(专利权)人:卓望数码技术深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1