当前位置: 首页 > 专利查询>中山大学专利>正文

一种基于WEB和日志信息的APP分类方法及其装置制造方法及图纸

技术编号:13569605 阅读:70 留言:0更新日期:2016-08-21 11:58
本发明专利技术实施例公开了一种基于WEB和日志信息的APP分类方法及其装置,其中,该方法包括:将APP名字提交到搜索引擎,获得前M条搜索片段;对所述搜索片段进行匹配,获得相似值最大的搜索片段的文本向量;获取APP的使用日志信息,根据所述使用日志信息获得APP的上下文向量;对所述文本向量和上下文向量进行训练,获得APP分类。在本发明专利技术实施例中,将APP的名字提交到WEB搜索引擎上,得到前几个搜索片段,通过VSM模型得到文本特征,同时利用日志信息得到现实特征向量,采用MaxEnt模型训练APP分类,可以提高分类的准确性和效率。

【技术实现步骤摘要】

本专利技术涉及移动应用(APP)
,尤其涉及一种基于WEB和日志信息的APP分类方法及其装置
技术介绍
随着移动终端的普及,适用于移动终端的应用(APP)也越来越多,APP的分类直接影响用户对移动终端的日常使用。现有一种分类方法,在这方法中,利用移动终端所附带的配置文件:移动终端连接应用商店服务器,获取并存储应用商店服务器提供的应用类别与应用特征数据库;移动终端分析应用附带的配置文件,获取配置文件包含的特征信息;将获取的特征信息和应用类别与应用特征数据库中存储的特征信息比对,根据比对结果将应用显示到所属应用类别文件夹中。移动终端连接应用商店服务器,获取并存储应用商店服务器提供的应用类别与应用特征数据库;移动终端分析应用附带的配置文件,获取配置文件包含的特征信息;将获取的特征信息和应用类别与应用特征数据库中存储的特征信息比对,根据比对结果将应用显示到所属应用类别文件夹中。移动终端设置同步时间,自动连接应用商店服务器,更新分类列表。利用配置文件分类结果存在很大的不可靠性。由于应用的分类完全由Manifest文件来控制,一旦Manifest文件是被更改过的,对应的应用分类也就随之改变,很容易造成分类错误。而且在第三方服务平台获取这些配置信息有难度,App也可能来自不同的应用商店,比如Apple store,google play,它们之间的分类标准也不一样。另有一种基于功耗的应用分类方法,移动终端启动飞行模式,保持屏幕常亮,获取并记录电池的初始电压和初始时间,打开被测应用后每隔预设时间获取一次电池电压及时间,并判断当前的时间是否为被测应用的功耗稳定时间点;若是,则记录当前的电池电压和时间;根据当前的电池电 压和时间,初始电压和初始时间计算出被测应用的功耗值,根据该功耗值对被测应用进行功耗级别分类。这种分类方法存在一定的局限性,将应用的分类完全由功耗来决定,虽然易于操作,但分类效果不是非常好。
技术实现思路
本专利技术的目的在于克服现有技术的不足,本专利技术提供了一种基于WEB和日志信息的APP分类方法及其装置,基于WEB和日志信息对APP进行分类,可以提高分类的准确性和效率。为了解决上述问题,本专利技术提出了一种基于WEB和日志信息的APP分类方法,所述方法包括:将APP名字提交到搜索引擎,获得前M条搜索片段;对所述搜索片段进行匹配,获得相似值最大的搜索片段的文本向量;获取APP的使用日志信息,根据所述使用日志信息获得APP的上下文向量;对所述文本向量和上下文向量进行训练,获得APP分类。优选地,所述对所述搜索片段进行匹配,获得相似值最大的搜索片段的文本向量的步骤,包括:通过VSM模型与APP分类树的分类标签对所述搜索片段进行匹配,获得相似值最大的搜索片段的文本向量。优选地,所述通过VSM模型与APP分类树的分类标签对所述搜索片段进行匹配,获得相似值最大的搜索片段的文本向量的步骤,包括:根据APP分类目录建立类型配置文件;为每一个APP类型构造规范化单词向量;获取所述搜索片段中待分类APP的词向量;将规范化单词向量和待分类APP的词向量进行相似匹配,获得每个搜索片段的相似值;选取相似值最大的搜索片段的文本向量。优选地,所述获取APP的使用日志信息,根据所述使用日志信息获得APP的上下文向量的步骤,包括:获取所有用户使用同一APP的使用日志信息;为每个已经分类的APP建立环境配置文件;为每个APP类型建立上下文配置文件;为每个APP类型建立上下文向量;将每个APP类型的上下文向量和待分类APP的上下文向量进行相似匹配;选取相似值最大的APP的上下文向量。优选地,所述对所述文本向量和上下文向量进行训练,获得APP分类的步骤,包括:使用Maximum Entropy分类模型对所述文本向量和上下文向量进行训练,获得APP分类。相应地,本专利技术还提供一种基于WEB和日志信息的APP分类装置,所述装置包括:搜索模块,用于将APP名字提交到搜索引擎,获得前M条搜索片段;匹配模块,用于对所述搜索片段进行匹配,获得相似值最大的搜索片段的文本向量;日志信息处理模块,用于获取APP的使用日志信息,根据所述使用日志信息获得APP的上下文向量;训练模块,用于对所述文本向量和上下文向量进行训练,获得APP分类。优选地,所述匹配模块还用于通过VSM模型与APP分类树的分类标签对所述搜索片段进行匹配,获得相似值最大的搜索片段的文本向量。优选地,所述匹配模块包括:第一建立单元,用于根据APP分类目录建立类型配置文件;构造单元,用于为每一个APP类型构造规范化单词向量;第一获取单元,用于获取所述搜索片段中待分类APP的词向量;第一匹配单元,用于将规范化单词向量和待分类APP的词向量进行相似匹配,获得每个搜索片段的相似值;第一选取单元,用于选取相似值最大的搜索片段的文本向量。优选地,所述日志信息处理模块包括:第二建立单元,用于获取所有用户使用同一APP的使用日志信息,为每个APP类型建立上下文配置文件,为每个APP类型建立上下文向量;第二建立单元,用于为每个已经分类的APP建立环境配置文件;第二匹配单元,用于将每个APP类型的上下文向量和待分类APP的上下文向量进行相似匹配;第二选取单元,用于选取相似值最大的APP的上下文向量。优选地,所述训练模块还用于使用Maximum Entropy分类模型对所述文本向量和上下文向量进行训练,获得APP分类。在本专利技术实施例中,将APP的名字提交到WEB搜索引擎上,得到前几个搜索片段,通过VSM模型得到文本特征,同时利用日志信息得到现实特征向量,采用MaxEnt模型训练APP分类,可以提高分类的准确性和效率。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。图1是本专利技术实施例的基于WEB和日志信息的APP分类方法的流程示意图;图2是本专利技术实施例的基于WEB和日志信息的APP分类装置的结构组成示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没 有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。图1是本专利技术实施例的基于WEB和日志信息的APP分类方法的流程示意图,如图1所示,该方法包括:S1,将APP名字提交到搜索引擎,获得前M条搜索片段;S2,对搜索片段进行匹配,获得相似值最大的搜索片段的文本向量;S3,获取APP的使用日志信息,根据使用日志信息获得APP的上下文向量;S4,对文本向量和上下文向量进行训练,获得APP分类。在S2中,通过VSM模型与APP分类树的分类标签对所述搜索片段进行匹配,获得相似值最大的搜索片段的文本向量。进一步地,S2包括:根据APP分类目录建立类型配置文件;为每一个APP类型构造规范化单词向量;获取所述搜索片段中待分类APP的词向量;将规范化单词向量和待分类APP的词向量进行相似匹配,获得每个搜索本文档来自技高网
...

【技术保护点】
一种基于WEB和日志信息的APP分类方法,其特征在于,所述方法包括:将APP名字提交到搜索引擎,获得前M条搜索片段;对所述搜索片段进行匹配,获得相似值最大的搜索片段的文本向量;获取APP的使用日志信息,根据所述使用日志信息获得APP的上下文向量;对所述文本向量和上下文向量进行训练,获得APP分类。

【技术特征摘要】
1.一种基于WEB和日志信息的APP分类方法,其特征在于,所述方法包括:将APP名字提交到搜索引擎,获得前M条搜索片段;对所述搜索片段进行匹配,获得相似值最大的搜索片段的文本向量;获取APP的使用日志信息,根据所述使用日志信息获得APP的上下文向量;对所述文本向量和上下文向量进行训练,获得APP分类。2.如权利要求1所述的基于WEB和日志信息的APP分类方法,其特征在于,所述对所述搜索片段进行匹配,获得相似值最大的搜索片段的文本向量的步骤,包括:通过VSM模型与APP分类树的分类标签对所述搜索片段进行匹配,获得相似值最大的搜索片段的文本向量。3.如权利要求2所述的基于WEB和日志信息的APP分类方法,其特征在于,所述通过VSM模型与APP分类树的分类标签对所述搜索片段进行匹配,获得相似值最大的搜索片段的文本向量的步骤,包括:根据APP分类目录建立类型配置文件;为每一个APP类型构造规范化单词向量;获取所述搜索片段中待分类APP的词向量;将规范化单词向量和待分类APP的词向量进行相似匹配,获得每个搜索片段的相似值;选取相似值最大的搜索片段的文本向量。4.如权利要求1所述的基于WEB和日志信息的APP分类方法,其特征在于,所述获取APP的使用日志信息,根据所述使用日志信息获得APP
\t的上下文向量的步骤,包括:获取所有用户使用同一APP的使用日志信息;为每个已经分类的APP建立环境配置文件;为每个APP类型建立上下文配置文件;为每个APP类型建立上下文向量;将每个APP类型的上下文向量和待分类APP的上下文向量进行相似匹配;选取相似值最大的APP的上下文向量。5.如权利要求1所述的基于WEB和日志信息的APP分类方法,其特征在于,所述对所述文本向量和上下文向量进行训练,获得APP分类的步骤,包括:使用Maximum Entropy分类模型对所述文本向量和上下文向量...

【专利技术属性】
技术研发人员:陈湘萍周强魏相沛
申请(专利权)人:中山大学
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1