一种互联网网站的分类方法及装置制造方法及图纸

技术编号:14066803 阅读:41 留言:0更新日期:2016-11-28 12:46
本发明专利技术提供了一种互联网网站的分类方法及装置,上述方法包括:爬取待分类的互联网网站的网站内容;根据互联网网站所属的应用领域,构建应用领域匹配的原始词典:中文分词词典和停止词词典;根据综合词典,训练原始词典对应的关键词库,并根据关键词库优化原始词典,得到优化中文分词词典及其匹配的优化关键词库;其中,关键词库包括多个网站内容的类别关键词且多个类别关键词均按照其在各个类别中的权重值从大到小的顺序排列设置;根据优化关键词库中的类别关键词对待分类的互联网网站的网站内容进行计算,得到互联网网站的类别;其降低业务分类之间的耦合性以及强化业务分类的独立性,有利于对专业性互联网网站进行分类,提高了分类精度。

【技术实现步骤摘要】

本专利技术涉及网站分类
,具体而言,涉及一种互联网网站的分类方法及装置
技术介绍
随着社会信息化的不断深入,在生活中尤其是在互联网上,无时无刻不在产生着大量的信息,且信息的产生速度也越来越快;信息产生速度的急剧增加进一步加剧了信息过载现象。如何自动并且高效地处理这些海量信息中所包含的有效数据,是一个重要的研究领域。文本分类是这个领域中的一个方向,主要目的是根据所给的文本,将其划分至所属的类别,以供进一步的处理。而上述文本分类的方法应用广泛,方法多样,因而广受关注。在解决上述文本分类问题的方法中,文本分类的处理方法主要方向分为三种:词匹配法、知识工程法、统计学习方法。然而,目前文本分类技术中有最常用的方法包括:先将文本进行分词,然后根据所有的分词构建文档-词条矩阵并将构建的矩阵转换为数据框,最后对数据框建立统计、挖掘模型。在需要对文本进行分类时,根据建立的统计、挖掘模型对所述文本中的分词进行处理,以得到文本的类别。专利技术人在研究中发现,上述文本分类方法中文档-词条矩阵的容量过大大,且其中包含了很多对分类贡献小的词,使得最终计算文本类别的计算复杂度高。
技术实现思路
有鉴于此,本专利技术实施例的目的在于提供一种互联网网站的分类方法及装置,以降低业务分类之间的耦合性以及强化业务分类的独立性,有利于对专业性互联网网站进行分类,且提高了分类精度。第一方面,本专利技术实施例提供了一种互联网网站的分类方法,所述方法包括:爬取待分类的互联网网站的网站内容;所述网站内容包括:网站标题和网站正文信息;根据所述互联网网站所属的应用领域,构建所述应用领域匹配的原始词典;所述原始词典包括:中文分词词典和停止词词典;根据综合词典,训练所述原始词典对应的关键词库,并根据所述关键词库优化所述原始词典,得到优化中文分词词典及其匹配的优化关键词库;其中,所述关键词库包括多个所述网站内容的类别关键词且多个所述类别关键词均按照其在各个类别中的权重值从大到小的顺序排列设置;所述关键词库包括:网站标题关键词库和网站正文关键词库;根据所述优化关键词库中的所述类别关键词对所述待分类的互联网网站的网站内容进行计算,得到所述互联网网站的类别。结合第一方面,本专利技术实施例提供了第一方面的第一种可能的实施方式,其中,所述根据综合词典,训练所述原始词典对应的关键词库,并根据所述关键词库优化所述原始词典,得到优化中文分词词典及其匹配的优化关键词库,包括:步骤1、选取多个不同类别网站的互联网网站内容作为样本集;所述样本集包括:训练样本集和测试样本集;步骤2、对所述训练样本集中的各个类别的互联网网站的所述网站内容进行分词处理,提取所述网站内容中的词条;步骤3、利用关键词提取方法对提取的所述词条进行训练处理,得到所述训练样本集中的各个类别的互联网网站对应的关键词库;步骤4、将所述关键词库中权重值大于设定阈值的关键词加入到所述原始词典的中文分词词典中,将所述关键词库中权重值小于设定阈值的关键词加入所述原始词典的停止词词典中;步骤5、根据各个所述训练样本集中的各个类别的互联网网站对应的关键词库对所述训练样本集进行分类,得到关键词训练误差;根据各个所述训练样本集中的各个类别的互联网网站对应的关键词库对所述测试样本集进行分类,得到关键词测试误差;步骤6、在所述关键词训练误差和所述关键词测试误差均小于评估阈值,得到对应的优化中文分词词典;在所述关键词训练误差和所述关键词测试误差中的任意一个误差大于所述评估阈值时,继续执行步骤2、步骤3、步骤4、步骤5,直至所述关键词训练误差和所述关键词测试误差均小于所述评估阈值时,得到对应的优化中文分词词典;步骤7、按照步骤2和步骤3的方法,对所述优化中文分词词典进行训练,得到所述优化中文分词词典对应的优化关键词库。结合第一方面的第一种可能的实施方式,本专利技术实施例提供了第一方面的第二种可能的实施方式,其中,步骤3、利用关键词提取方法对提取的所述词条进行训练处理,得到所述训练样本集中的各个类别的互联网网站对应的关键词库,包括:计算各个标题词条在各个类别中的出现频率,得到各个所述标题词条的词频;计算各个所述标题词条在所述网站标题中的重要性度量,得到各个所述标题词条的逆向类别频率;根据各个所述标题词条的词频和各个所述标题词条的逆向类别频率,计算各个所述标题词条在任意类别中的权重值;将各个所述标题词条按照其在各个类别中的权重值从大到小的顺序进行排序,得到对应的网站标题关键词库。结合第一方面的第一种可能的实施方式,本专利技术实施例提供了第一方面的第三种可能的实施方式,其中,步骤3、利用关键词提取方法对提取的所述词条进行训练处理,得到所述训练样本集中的各个类别的互联网网站对应的关键词库,包括:计算各个所述正文词条在对应的各个网站正文中的出现频率,得到各个所述网站正文中正文词条的第一词频;计算各个所述正文词条在各个类别中的出现频率,得到各个所述正文词条的第二词频;计算各个所述正文词条在所述网站正文信息中的重要性度量,得到各个所述正文词条的逆向类别频率;计算各个所述正文词条在各个类别中的重要性度量,得到各个所述正文词条的逆业务类频率;根据各个所述网站正文中正文词条的第一词频、各个所述正文词条的第二词频、各个所述正文词条的逆向类别频率和各个所述正文词条的逆业务类频率,计算各个所述正文词条在各个类别中的权重值;将各个所述正文词条按照其在各个类别中的权重值从大到小的顺序进行排序,得到对应的网站正文关键词库。结合第一方面的第二种可能的实施方式或第三种可能的实施方式,本专利技术实施例提供了第一方面的第四种可能的实施方式,其中,步骤2、对所述训练样本集中的各个类别的互联网网站的所述网站内容进行分词处理,提取所述网站内容中的词条,包括:通过分词程序对所述训练样本集中的各个类别的互联网网站的所述网站内容进行分词处理,得到多个词条;其中,所述词条包括:网站标题词条和网站正文词条;查找多个所述词条中对分类无贡献的无贡献词条;所述无贡献词条至少包括:停止词和单个的字;将所述词条中的所述无贡献词条添加到对应类别的停止词词典中,得到优化词条。结合第一方面的第四种可能的实施方式,本专利技术实施例提供了第一方面的第五种可能的实施方式,其中,步骤5的实现方法,包括:步骤A,获取各个所述样本集中的各个类别的父类互联网网站的网站内容,根据匹配的关键词库对所述父类互联网网站的网站内容进行分类;所述网站内容包括:网站标题和网站正文信息;所述样本集包括:训练样本集和测试样本集;步骤B;在根据所述父类互联网网站的网站内容进行分类的结果与所述样本集的标准类别不匹配时,获取所述父类互联网网站的一级子类互联网网站及所述一级子类互联网网站的网站内容,采用匹配的关键词库对所述一级子类互联网网站的网站内容进行分类;步骤C;若采用所述一级子类互联网网站进行分类的结果与所述样本集的标准类别不匹配时,重新选择所述一级子类互联网网站的下一级子类互联网网站作为父类互联网网站,并重新执行步骤A,直至根据所述下一级子类互联网网站进行分类的结果与所述样本集的标准类别匹配时,输出关键词训练误差和关键词测试误差;其中,所述关键词包括:网站标题关键词和网站正文关键词。结合第一方面的第四种可能的实施方式,本专利技术实施例提供了第一方面的第六种可能的本文档来自技高网...
一种互联网网站的分类方法及装置

【技术保护点】
一种互联网网站的分类方法,其特征在于,所述方法包括:爬取待分类的互联网网站的网站内容;所述网站内容包括:网站标题和网站正文信息;根据所述互联网网站所属的应用领域,构建所述应用领域匹配的原始词典;所述原始词典包括:中文分词词典和停止词词典;根据综合词典,训练所述原始词典对应的关键词库,并根据所述关键词库优化所述原始词典,得到优化中文分词词典及其匹配的优化关键词库;其中,所述关键词库包括多个所述网站内容的类别关键词且多个所述类别关键词均按照其在各个类别中的权重值从大到小的顺序排列设置;所述关键词库包括:网站标题关键词库和网站正文关键词库;根据所述优化关键词库中的所述类别关键词对所述待分类的互联网网站的网站内容进行计算,得到所述互联网网站的类别。

【技术特征摘要】
1.一种互联网网站的分类方法,其特征在于,所述方法包括:爬取待分类的互联网网站的网站内容;所述网站内容包括:网站标题和网站正文信息;根据所述互联网网站所属的应用领域,构建所述应用领域匹配的原始词典;所述原始词典包括:中文分词词典和停止词词典;根据综合词典,训练所述原始词典对应的关键词库,并根据所述关键词库优化所述原始词典,得到优化中文分词词典及其匹配的优化关键词库;其中,所述关键词库包括多个所述网站内容的类别关键词且多个所述类别关键词均按照其在各个类别中的权重值从大到小的顺序排列设置;所述关键词库包括:网站标题关键词库和网站正文关键词库;根据所述优化关键词库中的所述类别关键词对所述待分类的互联网网站的网站内容进行计算,得到所述互联网网站的类别。2.根据权利要求1所述的互联网网站的分类方法,其特征在于,所述根据综合词典,训练所述原始词典对应的关键词库,并根据所述关键词库优化所述原始词典,得到优化中文分词词典及其匹配的优化关键词库,包括:步骤1、选取多个不同类别网站的互联网网站内容作为样本集;所述样本集包括:训练样本集和测试样本集;步骤2、对所述训练样本集中的各个类别的互联网网站的所述网站内容进行分词处理,提取所述网站内容中的词条;步骤3、利用关键词提取方法对提取的所述词条进行训练处理,得到所述训练样本集中的各个类别的互联网网站对应的关键词库;步骤4、将所述关键词库中权重值大于设定阈值的关键词加入到所述原始词典的中文分词词典中,将所述关键词库中权重值小于设定阈值的关键词加入所述原始词典的停止词词典中;步骤5、根据各个所述训练样本集中的各个类别的互联网网站对应的关键词库对所述训练样本集进行分类,得到关键词训练误差;根据各个所述训练样本集中的各个类别的互联网网站对应的关键词库对所述测试样本集进行分类,得到关键词测试误差;步骤6、在所述关键词训练误差和所述关键词测试误差均小于评估阈值,得到对应的优化中文分词词典;在所述关键词训练误差和所述关键词测试误差中的任意一个误差大于所述评估阈值时,继续执行步骤2、步骤3、步骤4、步骤5,直至所述关键词训练误差和所述关键词测试误差均小于所述评估阈值时,得到对应的优化中文分词词典;步骤7、按照步骤2和步骤3的方法,对所述优化中文分词词典进行训练,得到所述优化中文分词词典对应的优化关键词库。3.根据权利要求2所述的互联网网站的分类方法,其特征在于,步骤3、利用关键词提取方法对提取的所述词条进行训练处理,得到所述训练样本集中的各个类别的互联网网站对应的关键词库,包括:计算各个标题词条在各个类别中的出现频率,得到各个所述标题词条的词频;计算各个所述标题词条在所述网站标题中的重要性度量,得到各个所述标题词条的逆向类别频率;根据各个所述标题词条的词频和各个所述标题词条的逆向类别频率,计算各个所述标题词条在任意类别中的权重值;将各个所述标题词条按照其在各个类别中的权重值从大到小的顺序进行排序,得到对应的网站标题关键词库。4.根据权利要求2所述的互联网网站的分类方法,其特征在于,步骤3、利用关键词提取方法对提取的所述词条进行训练处理,得到所述训练样本集中的各个类别的互联网网站对应的关键词库,包括:计算各个所述正文词条在对应的各个网站正文中的出现频率,得到各个所述网站正文中正文词条的第一词频;计算各个所述正文词条在各个类别中的出现频率,得到各个所述正文词条的第二词频;计算各个所述正文词条在所述网站正文信息中的重要性度量,得到各个所述正文词条的逆向类别频率;计算各个所述正文词条在各个类别中的重要性度量,得到各个所述正文词条的逆业务类频率;根据各个所述网站正文中正文词条的第一词频、各个所述正文词条的第二词频、各个所述正文词条的逆向类别频率和各个所述正文词条的逆业务类频率,计算各个所述正文词条在各个类别中的权重值;将各个所述正文词条按照其在各个类别中的权重值从大到小的顺序进行排序,得到对应的网站正文关键词库。5.根据权利要求3或4所述的互联网网站的分类方法,其特征在于,步骤2、对所述训练样本集中的各个类别的互联网网站的所述网站内容进行分词处理,提取所述网站内容中的词条,包括:通过分词程序对所述训练样本集中的各个类别的互联网网站的所述网站内容进行分词处理,得到多个词条;其中,所述词条包括:网站标题词条和网站正文词条;查找多个所述词条中对分类无贡献的无贡献词条;所述无贡献词条至少包括:停止词和单个的字;将所述词条中的所述无贡献词条添加到对应类别的停止词词典中,得到优化词条。6.根据权利要求5所述的互联网网站的分类方法,其特征在于,步骤5的实现方法,包括:步骤A,获取各个所述样本集中的各个类别的父类互联网网站的网站内容,根据匹配的关键词库对所述父类互联网网站的网站内容进行分类;所述网站内容包括:网站标题和网站正文信息;所述样本集包括:训练样本集和测试样本集;步骤B;在根据所述父类互联网网站的网站内容进行分类的结果与所述样本集的标准类别不匹配时,获取所述父类互联网网站的一级子类互联网网站及所述一级子类互联网网站的网站内容,采用匹配的关键词库对所述一级子类互联网网站的网站内容进行分类;步骤C;若采用所述一级子类互联网网站进行分类的结果与所述样本集的标准类别不匹配时,重新选择所述一级子类互联网网站的下一级子类互联网网站作为父类互联网网站,并重新执行步骤A,直至根据所述下一级子类互联网网站进行分类的结果与所述样本集的标准类别匹配时,输出关键词训练误差和关键词测试误差;其中,所述关键词包括:网站标题关键词和网站正文关键词。7.根据权利要求5所述的互联网网站的分类方法,其特征在于,步骤5的实现方法,还包括:获取各个所述样本集中的各个类别的互联网网站的网站内容;根据函数对各个类别的互联网网站的网站内容进行计算,确定所述样本集的类别,输出关键词训练误差和关键词测试误差;其中,所述关键词包括:网站标题关键词和网站正文关键词,k表示所述训练样本集或者所述测试样本集的所属类别;Ck为互联网网站所属的应用领域的所有类别中的任意一种;i表示所述关键词库中任意一个网站正文关键词;W(i|Ck)表示网站正文关键词i在Ck类别中的权重值;K表示类别种类。8.一种互联网网站的分类装置,其特征在于,所述装置包括:爬取模块,用于爬取待分类的互联网网站的网站内容;所述网站内容包括...

【专利技术属性】
技术研发人员:祁豪兵陈圣强李鹏
申请(专利权)人:北京北信源软件股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1