本申请提供了一种基于多模态特征的网页聚类方法及装置,该方法利用网页截图、网页结构信息和文本信息等多模态特征,分层次对待聚类网页进行聚类,可以保证聚类的精度。可以保证聚类的精度。可以保证聚类的精度。
【技术实现步骤摘要】
一种基于多模态特征的网页聚类方法及装置
[0001]本申请涉及数据处理
,特别涉及一种基于多模态特征的网页聚类方法及装置。
技术介绍
[0002]随着科技的进步,社会的发展,互联网已成为人们日常生活中不可或缺的一部分。人们通过构建大量的网页,加快了信息流通的速度。
[0003]其中,通过聚类,将具有相似度的网页归并,有助于从网络世界提取有效信息。
[0004]但是,如何对网页进行聚类成为问题。
技术实现思路
[0005]本申请提供如下技术方案:
[0006]本申请一方面提供一种基于多模态特征的网页聚类方法,包括:
[0007]获取每个待聚类网页的网页截图;
[0008]从所述网页截图中提取图片特征值,基于所述图片特征值对各个所述待聚类网页进行聚类,得到多个第一簇;
[0009]确定所述第一簇中的中心点网页,获取所述中心点网页的网页结构信息;
[0010]确定每两个所述第一簇中的中心点网页的网页结构信息是否一致;
[0011]若一致,确定每两个所述第一簇中的中心点网页的图片特征值之间的差异是否大于设定阈值;
[0012]若不大于,将每两个所述第一簇聚类为第二簇。
[0013]可选的,所述将每两个所述第一簇聚类为第二簇之后,还包括:
[0014]确定每两个所述第二簇中的中心点网页之间的文本信息间距、网页结构信息间距和图片特征值间距;
[0015]将每两个所述第二簇中的中心点网页之间的文本信息间距、网页结构信息间距和图片特征值间距输入机器学习模型,得到所述机器学习模型确定出的中心点网页第一归并概率;
[0016]若所述中心点网页第一归并概率大于第一设定概率阈值,将每两个所述第二簇聚类为第三簇。
[0017]可选的,在将每两个所述第二簇聚类为第三簇之前,还包括:
[0018]确定每两个所述第二簇中的中心点网页的图片特征值之间的差异是否大于所述设定阈值;
[0019]若不大于,将每两个所述第二簇聚类为第三簇。
[0020]可选的,若每两个所述第一簇中的中心点网页的网页结构信息不一致,或,若每两个所述第一簇中的中心点网页的图片特征值之间的差异大于所述设定阈值,所述方法还包括:
[0021]确定每两个所述第一簇中的中心点网页之间的文本信息间距、网页结构信息间距和图片特征值间距;
[0022]将每两个所述第一簇中的中心点网页之间的文本信息间距、网页结构信息间距和图片特征值间距输入机器学习模型,得到所述机器学习模型确定出的中心点网页第二归并概率;
[0023]若所述中心点网页第二归并概率大于第二设定概率阈值,将每两个所述第一簇聚类为第三簇。
[0024]可选的,从所述网页截图中提取图片特征值,包括:
[0025]确定所述网页截图的平均哈希值、差异哈希值和感知哈希值,将所述平均哈希值、所述差异哈希值和所述感知哈希值确定为图片特征值。
[0026]本申请另一方面提供一种基于多模态特征的网页聚类装置,包括:
[0027]第一获取模块,用于获取每个待聚类网页的网页截图;
[0028]第一聚类模块,用于从所述网页截图中提取图片特征值,基于所述图片特征值对各个所述待聚类网页进行聚类,得到多个第一簇;
[0029]第一确定模块,用于确定所述第一簇中的中心点网页;
[0030]第二获取模块,用于获取所述中心点网页的网页结构信息;
[0031]第二确定模块,用于确定每两个所述第一簇中的中心点网页的网页结构信息是否一致;
[0032]第三确定模块,用于若每两个所述第一簇中的中心点网页的网页结构信息一致,确定每两个所述第一簇中的中心点网页的图片特征值之间的差异是否大于设定阈值;
[0033]第二聚类模块,用于若每两个所述第一簇中的中心点网页的图片特征值之间的差异不大于设定阈值,将每两个所述第一簇聚类为第二簇。
[0034]可选的,所述装置还包括:
[0035]第四确定模块,用于确定每两个所述第二簇中的中心点网页之间的文本信息间距、网页结构信息间距和图片特征值间距;
[0036]第五确定模块,用于将每两个所述第二簇中的中心点网页之间的文本信息间距、网页结构信息间距和图片特征值间距输入机器学习模型,得到所述机器学习模型确定出的中心点网页第一归并概率;
[0037]第三聚类模块,用于若所述中心点网页第一归并概率大于第一设定概率阈值,将每两个所述第二簇聚类为第三簇。
[0038]可选的,所述装置还包括:
[0039]第六确定模块,用于确定每两个所述第二簇中的中心点网页的图片特征值之间的差异是否大于所述设定阈值,若不大于,触发所述第三聚类模块将每两个所述第二簇聚类为第三簇。
[0040]可选的,所述装置还包括:
[0041]第七确定模块,用于若每两个所述第一簇中的中心点网页的网页结构信息不一致,或,若每两个所述第一簇中的中心点网页的图片特征值之间的差异大于所述设定阈值,确定每两个所述第一簇中的中心点网页之间的文本信息间距、网页结构信息间距和图片特征值间距;
[0042]第八确定模块,用于将每两个所述第一簇中的中心点网页之间的文本信息间距、网页结构信息间距和图片特征值间距输入机器学习模型,得到所述机器学习模型确定出的中心点网页第二归并概率;
[0043]第四聚类模块,用于若所述中心点网页第二归并概率大于第二设定概率阈值,将每两个所述第一簇聚类为第三簇。
[0044]与现有技术相比,本申请的有益效果为:
[0045]在本申请中,通过获取每个待聚类网页的网页截图,从所述网页截图中提取图片特征值,基于所述图片特征值对各个所述待聚类网页进行聚类,得到多个第一簇,确定所述第一簇中的中心点网页,提取所述中心点网页的网页结构信息,确定每两个所述第一簇中的中心点网页的网页结构信息是否一致,若一致,确定每两个所述第一簇中的中心点网页的图片特征值之间的差异是否大于设定阈值,若不大于,将每两个所述第一簇聚类为第二簇,实现利用网页截图和网页结构信息等多模态特征,分层次对待聚类网页进行聚类,可以保证聚类的精度。
附图说明
[0046]为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0047]图1是本申请实施例1提供的一种基于多模态特征的网页聚类方法的流程示意图;
[0048]图2是本申请提供的一种聚类系统的结构示意图;
[0049]图3是本申请实施例2提供的一种基于多模态特征的网页聚类方法的流程示意图;
[0050]图4是本申请实施例3提供的一种基于多模态特征的网页聚类方法的流程示意图;
[0051]图5是本申请实施例4提供的一本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种基于多模态特征的网页聚类方法,其特征在于,包括:获取每个待聚类网页的网页截图;从所述网页截图中提取图片特征值,基于所述图片特征值对各个所述待聚类网页进行聚类,得到多个第一簇;确定所述第一簇中的中心点网页,获取所述中心点网页的网页结构信息;确定每两个所述第一簇中的中心点网页的网页结构信息是否一致;若一致,确定每两个所述第一簇中的中心点网页的图片特征值之间的差异是否大于设定阈值;若不大于,将每两个所述第一簇聚类为第二簇。2.根据权利要求1所述的方法,其特征在于,所述将每两个所述第一簇聚类为第二簇之后,还包括:确定每两个所述第二簇中的中心点网页之间的文本信息间距、网页结构信息间距和图片特征值间距;将每两个所述第二簇中的中心点网页之间的文本信息间距、网页结构信息间距和图片特征值间距输入机器学习模型,得到所述机器学习模型确定出的中心点网页第一归并概率;若所述中心点网页第一归并概率大于第一设定概率阈值,将每两个所述第二簇聚类为第三簇。3.根据权利要求2所述的方法,其特征在于,在将每两个所述第二簇聚类为第三簇之前,还包括:确定每两个所述第二簇中的中心点网页的图片特征值之间的差异是否大于所述设定阈值;若不大于,将每两个所述第二簇聚类为第三簇。4.根据权利要求1
‑
3中任意一项所述的方法,其特征在于,若每两个所述第一簇中的中心点网页的网页结构信息不一致,或,若每两个所述第一簇中的中心点网页的图片特征值之间的差异大于所述设定阈值,所述方法还包括:确定每两个所述第一簇中的中心点网页之间的文本信息间距、网页结构信息间距和图片特征值间距;将每两个所述第一簇中的中心点网页之间的文本信息间距、网页结构信息间距和图片特征值间距输入机器学习模型,得到所述机器学习模型确定出的中心点网页第二归并概率;若所述中心点网页第二归并概率大于第二设定概率阈值,将每两个所述第一簇聚类为第三簇。5.根据权利要求1所述的方法,其特征在于,从所述网页截图中提取图片特征值,包括:确定所述网页截图的平均哈希值、差异哈希值和感知哈希值,将所述平均哈希值、所述差异哈希值和所述感知哈希值确定为图片特征值。6.一种基于多模态特征的网页聚类装置,其特征在于,包括:第一获取模块,...
【专利技术属性】
技术研发人员:张恒,史磊,张立坤,刘宇,
申请(专利权)人:中国互联网络信息中心,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。