【技术实现步骤摘要】
软件名称的分类方法及装置
[0001]本专利技术涉及信息处理
,尤其是涉及一种软件名称的分类方法及装置。
技术介绍
[0002]随着移动通信技术的发展,越来越多的软件被开发出来,目前在架的软件数量达到了数百万,必须要进一步强化软件分类检测的手段建设。然而,很多网站下载平台并没有相关软件分类检测的手段,只能靠人工分类方式对软件进行分类,人工分类的效率和准确性均较低,尤其是在面临上百万的软件时,人工分类的方式显然无法满足需求。
技术实现思路
[0003]有鉴于此,本专利技术的目的在于提供一种软件名称的分类方法及装置,以提高对软件进行分类的效率和准确性。
[0004]第一方面,本专利技术实施例提供了一种软件名称的分类方法,所述方法包括:基于预先进行人工分类的多个已知软件名称建立初始名称语料库;其中,所述初始名称语料库包括多个已知分类,每个已知分类均包括多个已知软件名称;通过所述初始名称语料库分别提取每个已知分类的特征词;其中,每个已知分类的特征词为该已知分类的已知软件名称中出现频率超过预设频率阈值的词语;基于每个已知分类的特征词和预先定义的每个已知分类的自定义词,建立初始分类知识库;其中,所述自定义词包括以下中至少之一:与特征词词义不相近的第一自定义词、与特征词词义相近的第二自定义词、通过网络爬取得到的与所述第一自定义词和所述第二自定义词均不同的第三自定义词;通过所述初始分类知识库对待分类的多个第一软件名称进行分类预处理,得到每个第一软件名称的第一分类;基于每个第一软件名称的第一分类对每个第一 ...
【技术保护点】
【技术特征摘要】
1.一种软件名称的分类方法,其特征在于,所述方法包括:基于预先进行人工分类的多个已知软件名称建立初始名称语料库;其中,所述初始名称语料库包括多个已知分类,每个已知分类均包括多个已知软件名称;通过所述初始名称语料库分别提取每个已知分类的特征词;其中,每个已知分类的特征词为该已知分类的已知软件名称中出现频率超过预设频率阈值的词语;基于每个已知分类的特征词和预先定义的每个已知分类的自定义词,建立初始分类知识库;其中,所述自定义词包括以下中至少之一:与特征词词义不相近的第一自定义词、与特征词词义相近的第二自定义词、通过网络爬取得到的与所述第一自定义词和所述第二自定义词均不同的第三自定义词;通过所述初始分类知识库对待分类的多个第一软件名称进行分类预处理,得到每个第一软件名称的第一分类;基于每个第一软件名称的第一分类对每个第一软件名称进行分类校验,并根据每个第一软件名称的分类校验结果确定每个第一软件名称的最终分类结果。2.根据权利要求1所述的方法,其特征在于,所述初始分类知识库包括每个已知分类各自对应的特征词以及每个已知分类各自对应的自定义词;通过所述初始分类知识库对待分类的多个第一软件名称进行分类预处理,得到每个第一软件名称的第一分类的步骤,包括:对于每个第一软件名称,将该第一软件名称分别与所述初始分类知识库中每个已知分类各自对应的特征词进行匹配;对于每个第一软件名称,若该第一软件名称与所述初始分类知识库中的特征词匹配成功,则将所述初始分类知识库中与该第一软件名称匹配的特征词所对应的已知分类作为该第一软件名称的第一分类。3.根据权利要求2所述的方法,其特征在于,通过所述初始分类知识库对待分类的多个第一软件名称进行分类预处理,得到每个第一软件名称的第一分类的步骤,还包括:对于每个第一软件名称,若该第一软件名称与所述初始分类知识库中的特征词匹配失败,则将该第一软件名称分别与所述初始分类知识库中每个已知分类各自对应的自定义词进行匹配;对于每个第一软件名称,若该第一软件名称与所述初始分类知识库中的自定义词匹配成功,则将所述初始分类知识库中与该第一软件名称匹配的自定义词所对应的已知分类作为该第一软件名称的第一分类。4.根据权利要求1所述的方法,其特征在于,通过所述初始分类知识库对待分类的多个第一软件名称进行分类预处理,得到每个第一软件名称的第一分类的步骤,还包括:对于每个第一软件名称,若该第一软件名称不符合预设规则,则用第一预设标识方式标识该第一软件名称。5.根据权利要求3所述的方法,其特征在于,基于每个第一软件名称的第一分类对每个第一软件名称进行分类校验的步骤,包括:对于每个第一软件名称,若该第一软件名称的第一分类有多个,则将该第一软件名称分别与预先定义的每个已知分类的关键词进行匹配;其中,所述关键词为不同已知分类中相同的词;对于每个第一软件名称,若该第一软件名称与多个已知分类的关键词匹配或者该第一
软件名称与每个已知分类的关键词均不匹配,则该第一软件名称的分类校验不通过;对于每个第一软件名称,若该第...
【专利技术属性】
技术研发人员:刘立兰,黄萍,王梅,王涛,
申请(专利权)人:北京锐安科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。