网站分类方法、装置、电子设备及可读存储介质制造方法及图纸

技术编号:30830525 阅读:18 留言:0更新日期:2021-11-18 12:43
本申请的实施例提供了一种网站分类方法、装置、电子设备及可读存储介质,涉及计算机技术领域。该方法应用于电子设备,电子设备中存储有分类模型,分类模型根据已分类网站的样本描述信息及对应的样本分类结果得到,该方法包括:根据待分类网站的描述信息,获得待分类网站的第一特征信息集;根据目标转换矩阵对第一特征信息集进行降维处理,得到第二特征信息集,目标转换矩阵为在获得分类模型时对样本描述信息进行主成分分析时确定的矩阵,第二特征信息集的维度数量小于第一特征信息集的维度数量;基于分类模型,根据第二特征信息集获得待分类网站的分类结果。如此,可节省大量的人力,提高分类效率及分类结果的准确性。提高分类效率及分类结果的准确性。提高分类效率及分类结果的准确性。

【技术实现步骤摘要】
网站分类方法、装置、电子设备及可读存储介质


[0001]本申请涉及计算机
,具体而言,涉及一种网站分类方法、装置、电子设备及可读存储介质。

技术介绍

[0002]目前的网站资源比较多,为了便于人们查找和使用,会对网站资源进行分类,形成网站资源分类。目前只要是人工对目标网站进行浏览和查看,从而判断网站的类型。比如,确定一个网站是视频网站。这种方式需要大量的人工参与、成本较高、效率低,并且人工分类时需要依靠主观判断,会存在分类不准确的情况,也即人工构建的网站分类存在偏差。

技术实现思路

[0003]本申请实施例提供了一种网站分类方法、装置、电子设备及可读存储介质,其能够根据待分类网站的描述信息,利用预先训练好的分类模型,快速确定该待分类网站的分类结果,可节省大量的人力,提高分类效率,同时降低人力成本,提高分类结果的准确性。
[0004]本申请的实施例可以这样实现:
[0005]第一方面,本申请实施例提供一种网站分类方法,应用于电子设备,所述电子设备中存储有分类模型,所述分类模型根据已分类网站的样本描述信息及对应的样本分类结果得到,所述方法包括:
[0006]根据待分类网站的描述信息,获得所述待分类网站的第一特征信息集;
[0007]根据目标转换矩阵对所述第一特征信息集进行降维处理,得到第二特征信息集,其中,所述目标转换矩阵为在获得所述分类模型时对样本描述信息进行主成分分析时确定的矩阵,所述第二特征信息集的维度数量小于所述第一特征信息集的维度数量;
[0008]基于所述分类模型,根据所述第二特征信息集获得所述待分类网站的分类结果。
[0009]第二方面,本申请实施例提供一种网站分类装置,应用于电子设备,所述电子设备中存储有分类模型,所述分类模型根据已分类网站的样本描述信息及对应的样本分类结果得到,所述装置包括:
[0010]信息获取模块,用于根据待分类网站的描述信息,获得所述待分类网站的第一特征信息集;
[0011]处理模块,用于根据目标转换矩阵对所述第一特征信息集进行降维处理,得到第二特征信息集,其中,所述目标转换矩阵为在获得所述分类模型时对样本描述信息进行主成分分析时确定的矩阵,所述第二特征信息集的维度数量小于所述第一特征信息集的维度数量;
[0012]分类模块,用于基于所述分类模型,根据所述第二特征信息集获得所述待分类网站的分类结果。
[0013]第三方面,本申请实施例提供一种电子设备,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的机器可执行指令,所述处理器可执行所述机器可执行指令以
实现前述实施方式中任意一项所述的网站分类方法。
[0014]第四方面,本申请实施例提供一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如前述实施方式中任意一项所述的网站分类方法。
[0015]本申请实施例提供的网站分类方法、装置、电子设备及可读存储介质,根据待分类网站的描述信息,获得该待分类网站的第一特征信息集;进而利用在获得分类模型时对已分类网站的样本描述信息进行主成分信息时确定的目标矩阵,对该第一特征信息集进行降维处理,得到第二特征信息集,其中,上述分类模型根据已分类网站的样本描述信息及对应的样本分类结果得到;接着,则可以基于该分类模型,根据该第二特征信息集对该待分类网站进行分类,得到该待分类网站的分类结果。如此,可节省大量的人力,网站分类速快,可针对大量网站进行批量化分类;并且,由于分类时使用的分类模型是基于已分类网站的信息得到的,使得该分类模型更加依赖于数据本身所隐藏的数据分布特征,无需增加过多的专家的主观判断,由此使得得到的分类结果更加准确和客观。
附图说明
[0016]为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
[0017]图1为本申请实施例提供的电子设备的方框示意图;
[0018]图2为本申请实施例提供的网站分类方法的流程示意图;
[0019]图3为本申请实施例提供的待分类网站信息示意图;
[0020]图4为图2中步骤S210包括的子步骤的流程示意图;
[0021]图5为本申请实施例提供的获得分类模型的过程示意图;
[0022]图6为本申请实施例提供的已分类网站信息示意图;
[0023]图7为图5中步骤S120包括的子步骤的流程示意图;
[0024]图8为本申请实施例提供的样本分类结果的处理结果和第一样本特征信息集的示意图;
[0025]图9为本申请实施例提供的提供的构建xgboost分类模型的示意图;
[0026]图10为本申请实施例提供的网站分类装置的方框示意图。
[0027]图标:100

电子设备;110

存储器;120

处理器;130

通信单元;200

网站分类装置;210

信息获取模块;220

处理模块;230

分类模块。
具体实施方式
[0028]为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。
[0029]因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人
员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0030]需要说明的是,术语“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0031]目前主要是通过人工对目标网站进行浏览和查看,判断网站类型。通过这种方式进行网站分类,通过需要依赖于人工对不同类网站的熟悉程度,在熟悉程度非常高的情况下,才能做出比较准确的判断。并且,通过人工进网站分类,需要大量人工参与,人力成本比较高且效率低。
...

【技术保护点】

【技术特征摘要】
1.一种网站分类方法,其特征在于,应用于电子设备,所述电子设备中存储有分类模型,所述分类模型根据已分类网站的样本描述信息及对应的样本分类结果得到,所述方法包括:根据待分类网站的描述信息,获得所述待分类网站的第一特征信息集;根据目标转换矩阵对所述第一特征信息集进行降维处理,得到第二特征信息集,其中,所述目标转换矩阵为在获得所述分类模型时对样本描述信息进行主成分分析时确定的矩阵,所述第二特征信息集的维度数量小于所述第一特征信息集的维度数量;基于所述分类模型,根据所述第二特征信息集获得所述待分类网站的分类结果。2.根据权利要求1所述的方法,其特征在于,所述描述信息包括标题及简介,所述第一特征信息集包括词向量,所述根据待分类网站的描述信息,获得所述待分类网站的第一特征信息集,包括:对所述标题及简介中的无效字符进行剔除,得到处理后的标题及处理后的简介;对处理后的标题及处理后的简介进行拼接,得到拼接结果,其中,在所述拼接结果中,处理后的标题与处理后的简介之间存在预设标点符号;获得所述拼接结果的词向量。3.根据权利要求2所述的方法,其特征在于,所述获得所述拼接结果的词向量,包括:针对所述拼接结果,采用词频

逆向文件频率TF

IDF算法,构造词向量。4.根据权利要求1

3中任意一项所述的方法,其特征在于,所述分类模型通过如下方式得到:获得多个已分类网站各自的样本描述信息及样本分类结果,其中,所述样本分类结果为经过对所述多个已分类网站的初始分类结果进行同质化分类后确定的分类结果;根据所述样本描述信息及样本分类结果,训练得到所述分类模型。5.根据权利要求4所述的方法,其特征在于,所述根据所述样本描述信息及样本分类结果,训练得到所述分类模型,包括:根据每个已分类网站的样本描述信息,获得每个已分类网站的第一样本特征信息集;针对所获得的...

【专利技术属性】
技术研发人员:杨武剑周长虹虞王可
申请(专利权)人:成都知道创宇信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1