【技术实现步骤摘要】
一种网站识别方法、装置及电子设备
[0001]本公开涉及数据处理
,尤其涉及数据挖掘
技术介绍
[0002]根据实际需求,用户可以按照不同的分类标准将网站划分为多种不同类型。例如根据网站所服务于的行业将网站分为多种类别,如服务于金融业的网站、服务于旅游业的网站等。
技术实现思路
[0003]本公开提供了一种网站识别方法、装置及电子设备。
[0004]根据本公开的第一方面,提供了一种网站识别方法,包括:
[0005]获取目标类型的网站的多个关键词;
[0006]针对每个所述关键词,以所述关键词进行网站检索,得到所述关键词的检索结果;
[0007]确定候选网站出现在各个所述检索结果中的出现频次;
[0008]如果所述出现频次大于预设第一阈值,将所述候选网站确定为所述目标类型的网站。
[0009]根据本公开的第二方面,提供了一种网站识别装置,包括:
[0010]关键词获取模块,用于获取目标类型的网站的多个关键词;
[0011]检索模块, ...
【技术保护点】
【技术特征摘要】
1.一种网站识别方法,包括:获取目标类型的网站的多个关键词;针对每个所述关键词,以所述关键词进行网站检索,得到所述关键词的检索结果;确定候选网站出现在各个所述检索结果中的出现频次;如果所述出现频次大于预设第一阈值,将所述候选网站确定为所述目标类型的网站。2.根据权利要求1所述的方法,还包括:如果所述出现频次大不于所述预设第一阈值,在所有所述检索结果中确定出现种子网站的检索结果,作为种子检索结果,其中,所述种子网站为预设的所述目标类型的网站;确定所述候选网站出现在各个所述种子检索结果中的共现频次;如果所述共现频次大于预设第二阈值,将所述候选网站确定为所述目标类型的网站。3.根据权利要求2所述的方法,还包括:如果所述共现频次小于所述预设第二阈值,提取所述候选网站的网站特征;根据所述候选网站的网站特征与所述目标类型的网站的网站特征间的匹配程度,确定所述候选网站为所述目标类型的网站的置信度,所述置信度与所述匹配程度正相关;如果所述置信度大于预设第三阈值,将所述候选网站确定为所述目标类型的网站。4.根据权利要求3所述的方法,其中,所述根据所述候选网站的网站特征与所述目标类型的网站的网站特征间的匹配程度,确定所述候选网站为所述目标类型的网站的置信度,包括:根据所述候选网站的网站特征与所述目标类型的网站的网站特征间的匹配程度、所述出现频次、所述共现频次,确定所述候选网站为所述目标类型的网站的置信度,所述置信度与所述出现频次正相关,并且所述置信度与所述共现频次正相关。5.一种网站识别装置,包括:关键词获取模块,用于获取目标类型的网站的多个关键词;检索模块,用于针对每个所述关键词,以所述关键词进行网站检索,得到所述关键词的检索结果;出现频次统计模块,用于确定候选网站出现在各个所述检索结果中的出现频次;第一判断模块,用于如果所述出现频次大于预设第一阈值,将所述候选网站确定为所述目标类型的网站。6.根据权...
【专利技术属性】
技术研发人员:薛昌熵,杨骏伟,刘晓庆,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。