软件名称的分类方法及装置制造方法及图纸

技术编号:37066497 阅读:14 留言:0更新日期:2023-03-29 19:44
本发明专利技术提供了一种软件名称的分类方法及装置,基于预先进行人工分类的多个已知软件名称建立初始名称语料库,通过初始名称语料库分别提取每个已知分类的特征词,基于每个已知分类的特征词和预先定义的每个已知分类的自定义词建立初始分类知识库,通过初始分类知识库对待分类的多个第一软件名称进行分类预处理以得到每个第一软件名称的第一分类,基于每个第一软件名称的第一分类对每个第一软件名称进行分类校验,并根据每个第一软件名称的分类校验结果确定每个第一软件名称的最终分类结果。采用本发明专利技术可以提高对软件进行分类的效率和准确性。和准确性。和准确性。

【技术实现步骤摘要】
软件名称的分类方法及装置


[0001]本专利技术涉及信息处理
,尤其是涉及一种软件名称的分类方法及装置。

技术介绍

[0002]随着移动通信技术的发展,越来越多的软件被开发出来,目前在架的软件数量达到了数百万,必须要进一步强化软件分类检测的手段建设。然而,很多网站下载平台并没有相关软件分类检测的手段,只能靠人工分类方式对软件进行分类,人工分类的效率和准确性均较低,尤其是在面临上百万的软件时,人工分类的方式显然无法满足需求。

技术实现思路

[0003]有鉴于此,本专利技术的目的在于提供一种软件名称的分类方法及装置,以提高对软件进行分类的效率和准确性。
[0004]第一方面,本专利技术实施例提供了一种软件名称的分类方法,所述方法包括:基于预先进行人工分类的多个已知软件名称建立初始名称语料库;其中,所述初始名称语料库包括多个已知分类,每个已知分类均包括多个已知软件名称;通过所述初始名称语料库分别提取每个已知分类的特征词;其中,每个已知分类的特征词为该已知分类的已知软件名称中出现频率超过预设频率阈值的词语;基于每个已知分类的特征词和预先定义的每个已知分类的自定义词,建立初始分类知识库;其中,所述自定义词包括以下中至少之一:与特征词词义不相近的第一自定义词、与特征词词义相近的第二自定义词、通过网络爬取得到的与所述第一自定义词和所述第二自定义词均不同的第三自定义词;通过所述初始分类知识库对待分类的多个第一软件名称进行分类预处理,得到每个第一软件名称的第一分类;基于每个第一软件名称的第一分类对每个第一软件名称进行分类校验,并根据每个第一软件名称的分类校验结果确定每个第一软件名称的最终分类结果。
[0005]第二方面,本专利技术实施例还提供一种软件名称的分类装置,所述装置包括:第一建立模块,用于基于预先进行人工分类的多个已知软件名称建立初始名称语料库;其中,所述初始名称语料库包括多个已知分类,每个已知分类均包括多个已知软件名称;提取模块,用于通过所述初始名称语料库分别提取每个已知分类的特征词;其中,每个已知分类的特征词为该已知分类的已知软件名称中出现频率超过预设频率阈值的词语;第二建立模块,用于基于每个已知分类的特征词和预先定义的每个已知分类的自定义词,建立初始分类知识库;其中,所述自定义词包括以下中至少之一:与特征词词义不相近的第一自定义词、与特征词词义相近的第二自定义词、通过网络爬取得到的与所述第一自定义词和所述第二自定义词均不同的第三自定义词;分类预处理模块,用于通过所述初始分类知识库对待分类的第一软件名称进行分类预处理,得到所述第一软件名称的第一分类;确定模块,用于基于所述第一软件名称的第一分类对所述第一软件名称进行分类校验,并根据所述分类校验的结果确定所述第一软件名称的最终分类结果。
[0006]本专利技术实施例提供的一种软件名称的分类方法及装置,基于预先进行人工分类的
多个已知软件名称建立初始名称语料库,通过初始名称语料库分别提取每个已知分类的特征词,基于每个已知分类的特征词和预先定义的每个已知分类的自定义词建立初始分类知识库,通过初始分类知识库对待分类的多个第一软件名称进行分类预处理以得到每个第一软件名称的第一分类,基于每个第一软件名称的第一分类对每个第一软件名称进行分类校验,并根据每个第一软件名称的分类校验结果确定每个第一软件名称的最终分类结果。采用上述技术,只有软件名称即可通过分类知识库自动对软件进行分类,且分类的准确性较高,因而可以满足对大量软件进行分类的需求。
[0007]本专利技术的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本专利技术而了解。本专利技术的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
[0008]为使本专利技术的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
[0009]为了更清楚地说明本专利技术具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0010]图1为本专利技术实施例提供的一种软件名称的分类方法的流程示意图;
[0011]图2为本专利技术实施例提供的一种软件名称的分类方法的示例图;
[0012]图3为本专利技术实施例提供的一种软件名称的分类装置的结构示意图;
[0013]图4为本专利技术实施例提供的另一种软件名称的分类装置的结构示意图。
具体实施方式
[0014]为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合实施例对本专利技术的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0015]随着移动通信技术的发展,越来越多的软件被开发出来,目前在架的软件数量达到了数百万,必须要进一步强化软件分类检测的手段建设。然而,很多网站下载平台并没有相关软件分类检测的手段,只能靠人工分类方式对软件进行分类,人工分类的效率和准确性均较低,尤其是在面临上百万的软件时,人工分类的方式显然无法满足需求。
[0016]基于此,本专利技术实施提供的一种软件名称的分类方法及装置,可以提高对软件进行分类的效率和准确性。
[0017]为便于对本实施例进行理解,首先对本专利技术实施例所公开的一种软件名称的分类方法进行详细介绍,参见图1所示的一种软件名称的分类方法的流程示意图,该方法可以包括以下步骤:
[0018]步骤S102,基于预先进行人工分类的多个已知软件名称建立初始名称语料库;其中,初始名称语料库包括多个已知分类,每个已知分类均包括多个已知软件名称。
[0019]上述软件可以指安装在电子设备(如手机、台式电脑、笔记本电脑、平板电脑等)上面的软件,如APP、软件包等,相应地,上述已知软件名称可以为已知APP名称、已知包名称(可简称为“已知包名”)等,对此不进行限定。
[0020]上述已知分类的划分方式可根据实际需求自定义,例如按照软件所属领域(如金融、游戏、房产、医疗健康、小说等)进行划分、按照软件功能(如会议、购物等)进行划分等,对此不进行限定。
[0021]上述初始名称语料库具体可采用关系型数据库(如MySQL、MariaDB等)、非关系型数据库(如Cassandra、MongoDB等)、键值数据库(如Dynamo、LevelDB等)等,具体可根据实际情况自行确定,对此不进行限定。
[0022]具体地,可先分析抽取出一定数量已知软件的名称,建立一个数据库,之后对抽取得到的软件名称进行人工分类存储在该数据库中,该数据库即为上述初始名称语料库。
[0023]步骤S104,通过初始名称语料库分别提取每个已知分类的特征词;其中,每个本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种软件名称的分类方法,其特征在于,所述方法包括:基于预先进行人工分类的多个已知软件名称建立初始名称语料库;其中,所述初始名称语料库包括多个已知分类,每个已知分类均包括多个已知软件名称;通过所述初始名称语料库分别提取每个已知分类的特征词;其中,每个已知分类的特征词为该已知分类的已知软件名称中出现频率超过预设频率阈值的词语;基于每个已知分类的特征词和预先定义的每个已知分类的自定义词,建立初始分类知识库;其中,所述自定义词包括以下中至少之一:与特征词词义不相近的第一自定义词、与特征词词义相近的第二自定义词、通过网络爬取得到的与所述第一自定义词和所述第二自定义词均不同的第三自定义词;通过所述初始分类知识库对待分类的多个第一软件名称进行分类预处理,得到每个第一软件名称的第一分类;基于每个第一软件名称的第一分类对每个第一软件名称进行分类校验,并根据每个第一软件名称的分类校验结果确定每个第一软件名称的最终分类结果。2.根据权利要求1所述的方法,其特征在于,所述初始分类知识库包括每个已知分类各自对应的特征词以及每个已知分类各自对应的自定义词;通过所述初始分类知识库对待分类的多个第一软件名称进行分类预处理,得到每个第一软件名称的第一分类的步骤,包括:对于每个第一软件名称,将该第一软件名称分别与所述初始分类知识库中每个已知分类各自对应的特征词进行匹配;对于每个第一软件名称,若该第一软件名称与所述初始分类知识库中的特征词匹配成功,则将所述初始分类知识库中与该第一软件名称匹配的特征词所对应的已知分类作为该第一软件名称的第一分类。3.根据权利要求2所述的方法,其特征在于,通过所述初始分类知识库对待分类的多个第一软件名称进行分类预处理,得到每个第一软件名称的第一分类的步骤,还包括:对于每个第一软件名称,若该第一软件名称与所述初始分类知识库中的特征词匹配失败,则将该第一软件名称分别与所述初始分类知识库中每个已知分类各自对应的自定义词进行匹配;对于每个第一软件名称,若该第一软件名称与所述初始分类知识库中的自定义词匹配成功,则将所述初始分类知识库中与该第一软件名称匹配的自定义词所对应的已知分类作为该第一软件名称的第一分类。4.根据权利要求1所述的方法,其特征在于,通过所述初始分类知识库对待分类的多个第一软件名称进行分类预处理,得到每个第一软件名称的第一分类的步骤,还包括:对于每个第一软件名称,若该第一软件名称不符合预设规则,则用第一预设标识方式标识该第一软件名称。5.根据权利要求3所述的方法,其特征在于,基于每个第一软件名称的第一分类对每个第一软件名称进行分类校验的步骤,包括:对于每个第一软件名称,若该第一软件名称的第一分类有多个,则将该第一软件名称分别与预先定义的每个已知分类的关键词进行匹配;其中,所述关键词为不同已知分类中相同的词;对于每个第一软件名称,若该第一软件名称与多个已知分类的关键词匹配或者该第一
软件名称与每个已知分类的关键词均不匹配,则该第一软件名称的分类校验不通过;对于每个第一软件名称,若该第...

【专利技术属性】
技术研发人员:刘立兰黄萍王梅王涛
申请(专利权)人:北京锐安科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1