The invention discloses a classification and recognition method based on mobile application, which comprises the following steps: establishing a basic classification feature library by the system; crawling the key information in mobile application and application pages through the Internet; systematically identifying the classification information and application feature keywords in the key information; and identifying the classification information if the classification information is recognized; Continuous classification information recognition; if the classification information is not recognized, it enters the matching basic feature library keyword recognition; the system processes the collected applied feature keywords to obtain the optimal classification, and adds the new classification results to the basic classification feature library. A classification and recognition system based on mobile application includes initialization control module, recognition classification information module and matching keyword module. It improves the efficiency and accuracy of mobile application classification and recognition, solves the problems of inefficiency and unrecognizability of existing application classification, and can be widely used in Internet applications.
【技术实现步骤摘要】
一种基于移动应用的分类识别方法及系统
本专利技术涉及互联网应用领域,具体为基于移动应用的分类识别方法及系统。
技术介绍
在现有移动终端项目中,通常需要对应用大致分类,以便后续进行统计及识别。一般的分类方法是通过互联网爬取应用商城应用详情页面中的已知类别,该类别通常是对应于该商城本身需要所作的分类,分类标签也是各个商城不一致。对于分类有固定要求的系统,则会设置一些基础分类标签,如未识别,则会通过默认标签识别。然而,使用一般的识别方法,不足之处非常明显,具体在于:1、各应用商城分类不一致,导致后续类别标签高重复率;2、部分应用商城分类不明确,导致无法识别应用分类;3、对于赋予默认标签的应用,后续统计会出现分类偏差;如通过对现有项目中应用分类结果分析得知,正常爬取应用后,普遍出现分类不准确,包括:1、分类重复;2、分类无法识别;3、分类识别错误;4、分类不完整,多类型分类统计不准确。在传统的方法中,固定的认同各个应用商城中分类,导致很多分类不准确,例如百度应用商城中定义“社交通讯”,而在360应用商城中则叫“聊天工具”,且百度应用商城中对于“社交通讯”还有二级分类,即“聊天”、“社交”、“婚恋”、“通讯”,而360应用商城中对应二级分类则叫“社交聊天”、“网络电话”、“视频聊天”、“游戏语音”,因此对于如此多种且意义相近的分类进行只有系统分类处理,将需要一个持续的分析识别过程。为解决当前应用分类不够准确的问题,因此有必要提出一种新的移动应用持续标签识别方法。
技术实现思路
为了解决上述技术问题,本专利技术的目的是提供一种基于移动应用的分类识别方法及系统。本专利技术所 ...
【技术保护点】
1.一种基于移动应用的分类识别方法,其特征在于,其包括以下步骤:系统建立基础分类特征库;通过互联网爬取移动应用及应用页面中关键信息;系统识别所述关键信息中的分类信息及应用特征关键词;若识别到分类信息,则持续进行分类信息识别;若未识别到分类信息,则进入匹配基础特征库关键词识别;系统对采集到的应用特征关键词进行处理,获取到最优分类;构建应用基础画像,并将新的分类结果补充至基础分类特征库。
【技术特征摘要】
1.一种基于移动应用的分类识别方法,其特征在于,其包括以下步骤:系统建立基础分类特征库;通过互联网爬取移动应用及应用页面中关键信息;系统识别所述关键信息中的分类信息及应用特征关键词;若识别到分类信息,则持续进行分类信息识别;若未识别到分类信息,则进入匹配基础特征库关键词识别;系统对采集到的应用特征关键词进行处理,获取到最优分类;构建应用基础画像,并将新的分类结果补充至基础分类特征库。2.根据权利要求1所述的基于移动应用的分类识别方法,其特征在于,所述基础分类特征库的基础分类包括:社交类、影音类、游戏类。3.根据权利要求1或2所述的基于移动应用的分类识别方法,其特征在于,所述步骤系统对采集到的应用特征关键词进行处理,获取到最优分类,其中通过最大公约算法获取最优分类。4.根据权利要求3所述的基于移动应用的分类识别方法,其特征在于,所述方法还包括:系统预先设定识别应用分类的默认映射关系;获取所述爬取的应用描述信息;通过分词组件获取描述信息中的分词结果,并剔除忽略词库中的内容;采用最大匹配算法匹配基础分类特征词;依据匹配阈值判断是否匹配成功,若匹配成功,则直接识别对应基础特征及...
【专利技术属性】
技术研发人员:吴岳辉,
申请(专利权)人:卓望数码技术深圳有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。