【技术实现步骤摘要】
一种仿冒网站的检测方法、装置及系统
本申请涉及大数据分析领域,具体涉及一种仿冒网站的检测方法、装置及系统。另外涉及一种仿冒网页的检测方法、装置及系统。
技术介绍
随着网络技术的发展,网络安全成为人们不得不重视的问题,正规网站被仿冒的趋势越来越严重。通过仿冒网站欺诈用户,骗取个人机密信息,已成为网络安全的重大威胁。如何快速识别正规网站是否有相应的仿冒网站出现,从而减少用户以及正规网站的损失,成为亟待解决的问题。目前,现有技术中存在的发现仿冒网站的技术方案都是根据客户举报或舆情监控等手段发现疑似仿冒网站,再根据该疑似仿冒网站和相应的正规网站的标签关键字、关键图片等网页特征,判断是否为仿冒网站。上述方法在实际应用过程中往往不够准确,且存在滞后性,从而不能满足用户的预期。
技术实现思路
本申请提供一种仿冒网站的检测方法、装置及系统,以解决现有技术中存在的发现仿冒网站的方法难以满足用户需求,由此导致用户的使用体验较差的问题。本申请另外提供一仿冒网页的检测方法、装置及系统。本申请提供的一种仿冒网站的检测方法,包括:获得第一网站的信息;根据所述第一网站的信息以及以网站信息为索引的网站信息数据库,获得与所述第一网站的信息对应的第一网页指纹信息,其中,所述网站信息数据库包括网站信息与网页指纹信息之间的对应关系,所述第一网页指纹信息用于标识所述第一网站所包含的网页的特征;从以网页指纹信息为索引的网页指纹信息数据库中,获得与所述第一网页指纹信息的相似度达到或超过第一相似度阈值的第二网页指纹信息,其中,所 ...
【技术保护点】
1.一种仿冒网站的检测方法,其特征在于,包括:/n获得第一网站的信息;/n根据所述第一网站的信息以及以网站信息为索引的网站信息数据库,获得与所述第一网站的信息对应的第一网页指纹信息,其中,所述网站信息数据库包括网站信息与网页指纹信息之间的对应关系,所述第一网页指纹信息用于标识所述第一网站所包含的网页的特征;/n从以网页指纹信息为索引的网页指纹信息数据库中,获得与所述第一网页指纹信息的相似度达到或超过第一相似度阈值的第二网页指纹信息,其中,所述网页指纹信息数据库包括网页指纹信息与网站信息之间的对应关系;/n根据所述第二网页指纹信息以及所述网页指纹信息数据库,获得与所述第二网页指纹信息对应的第二网站的信息;/n根据所述第一网站与所述第二网站之间的相似度,确定所述第一网站和所述第二网站中是否存在仿冒网站。/n
【技术特征摘要】
1.一种仿冒网站的检测方法,其特征在于,包括:
获得第一网站的信息;
根据所述第一网站的信息以及以网站信息为索引的网站信息数据库,获得与所述第一网站的信息对应的第一网页指纹信息,其中,所述网站信息数据库包括网站信息与网页指纹信息之间的对应关系,所述第一网页指纹信息用于标识所述第一网站所包含的网页的特征;
从以网页指纹信息为索引的网页指纹信息数据库中,获得与所述第一网页指纹信息的相似度达到或超过第一相似度阈值的第二网页指纹信息,其中,所述网页指纹信息数据库包括网页指纹信息与网站信息之间的对应关系;
根据所述第二网页指纹信息以及所述网页指纹信息数据库,获得与所述第二网页指纹信息对应的第二网站的信息;
根据所述第一网站与所述第二网站之间的相似度,确定所述第一网站和所述第二网站中是否存在仿冒网站。
2.根据权利要求1所述的仿冒网站的检测方法,其特征在于,还包括:
获得网站信息;
根据所述网站信息获得网页信息,所述网页信息为所述网站信息对应的网站所包括的网页的信息;
根据所述网页信息生成网页指纹信息;
建立以所述网站信息为索引、包括所述网站信息与所述网页指纹信息之间的对应关系的网站信息数据库。
3.根据权利要求2所述的仿冒网站的检测方法,其特征在于,所述根据所述网页信息生成网页指纹信息,包括:
从所述网页信息对应的网页中提取网页要素信息;
根据所述网页要素信息,生成网页要素指纹信息;
根据所述网页要素指纹信息,获得网页指纹信息。
4.根据权利要求1所述的仿冒网站的检测方法,其特征在于,所述根据所述第一网站的信息以及以网站信息为索引的网站信息数据库,获得与所述第一网站的信息对应的第一网页指纹信息,包括:
以所述第一网站的信息为索引,在所述网站信息数据库包括的网站信息与网页指纹信息之间的对应关系中,查找与所述第一网站的信息对应的第一网页指纹信息。
5.根据权利要求1所述的仿冒网站的检测方法,其特征在于,还包括:
获得网站信息;
根据所述网站信息获得网页信息,所述网页信息为所述网站信息对应的网站所包括的网页的信息;
根据所述网页信息生成网页指纹信息;
建立以所述网页指纹信息为索引、包括所述网页指纹信息与所述网站信息之间的对应关系的网页指纹信息数据库。
6.根据权利要求1所述的仿冒网站的检测方法,其特征在于,所述从以网页指纹信息为索引的网页指纹信息数据库中,获得与所述第一网页指纹信息的相似度达到或超过第一相似度阈值的第二网页指纹信息,包括:
计算所述第一网页指纹信息与所述网页指纹信息数据库中的网页指纹信息之间的相似度;
将相似度达到或超过第一相似度阈值的所述网页指纹信息数据库中的网页指纹信息确定为所述第二网页指纹信息。
7.根据权利要求6所述的仿冒网站的检测方法,其特征在于,与同一个第一网页指纹信息之间的相似度达到或超过第一相似度阈值的所述网页指纹信息数据库中的网页指纹信息为多个网页指纹信息;
所述将相似度达到或超过第一相似度阈值的所述网页指纹信息数据库中的网页指纹信息确定为所述第二网页指纹信息,包括:从所述多个网页指纹信息中选择相似度最高的网页指纹信息作为与所述同一个第一网页指纹信息的相似度达到或超过第一相似度阈值的第二网页指纹信息。
8.根据权利要求1所述的仿冒网站的检测方法,其特征在于,所述根据所述第二网页指纹信息以及所述网页指纹信息数据库,获得与所述第二网页指纹信息对应的第二网站的信息,包括:
以所述第二网页指纹信息为索引,在所述网页指纹信息数据库包括的网页指纹信息与网站信息之间的对应关系中,查找与所述第二网页指纹信息对应的第二网站的信息。
9.根据权利要求1所述的仿冒网站的检测方法,其特征在于,还包括:
计算所述第一网站包括的网页与所述第二网站包括的网页之间的相似度;
根据所述第一网站包括的网页与所述第二网站包括的网页之间的相似度,计算所述第一网站与所述第二网站之间的相似度。
10.根据权利要求9所述的仿冒网站的检测方法,其特征在于,所述计算所述第一网站包括的网页与所述第二网站包括的网页之间的相似度,包括:计算所述第一网站包括的每个网页与所述第二网站包括的每个网页之间的相似度;
所述根据所述第一网站包括的网页与所述第二网站包括的网页之间的相似度,计算所述第一网站与所述第二网站之间的相似度,包括:针对所述第一网站包括的每个网页与所述第二网站包括的每个网页之间的相似度进行深度学习融合计算,得到所述第一网站与所述第二网站之间的相似度。
11.根据权利要求1所述的仿冒网站的检测方法,其特征在于,所述根据所述第一网站与所述第二网站之间的相似度,确定所述第一网站和所述第二网站中是否存在仿冒网站,包括:
如果所述第一网站与所述第二网站之间的相似度达到或超过第二相似度阈值,则确定所述第一网站和所述第二网站中存在仿冒网站。
12.根据权利要求1所述的仿冒网站的检测方法,其特征在于,所述第一网页指纹信息包括第一URL指纹信息、第一HTML指纹信息、第一文本指纹信息以及第一网页资源指纹信息中的至少一种指纹信息;
所述第二网页指纹信息包括第二URL指纹信息、第二HTML指纹信息、第二文本指纹信息以及第二网页资源指纹信息中的至少一种指纹信息;
所述从以网页指纹信息为索引的网页指纹信息数据库中,获得与所述第一网页指纹信息的相似度达到或超过第一相似度阈值的第二网页指纹信息,包括以下至少一种方式:
从以网页指纹信息为索引的网页指纹信息数据库中,获得与所述第一URL指纹信息的相似度达到或超过第一相似度阈值的第二URL指纹信息;
从以网页指纹信息为索引的网页指纹信息数据库中,获得与所述第一HTML指纹信息的相似度达到或超过第一相似度阈值的第二HTML指纹信息;
从以网页指纹信息为索引的网页指纹信息数据库中,获得与所述第一文本指纹信息的相似度达到或超过第一相似度阈值的第二文本指纹信息;
从以网页指纹信息为索引的网页指纹信息数据库中,获得与所述第一网页资源指纹信息的相似度达到或超过第一相似度阈值的第二网页资源指纹信息。
13.根据权利要求1所述的仿冒网站的检测方法,其特征在于,所述第一网站的信息为疑似仿冒网站的信息,所述第二网站的信息为正规网站的信息;或者,所述第一网站的信息为正规网站的信息,所述第二网站的信息为疑似仿冒网站的信息;
所述根据所述第一网站与所述第二网站之间的相似度,确定所述第一网站和所述第二网站中是否存在仿冒网站,包括:根据所述疑似仿冒网站与所述正规网站之间的相似度,判断所述疑似仿冒网站是否为所述正规网站的仿冒网站。
14.根据权利要求1所述的仿冒网站的检测方法,其特征在于,所述第一网站的信息为所述第一网站的域名信息,所述第二网站的信息为所述第二网站的域名信息。
15.根据权利要求3所述的仿冒网站的检测方法,其特征在于,所述根据所述网页要素信息,生成网页要素指纹信息,包括:
根据所述网页要素信息,获得所述网页要素信息的片段信息;
根据所述网页要素信息的片段信息,生成所述网页要素信息对应的片段指纹信息;
所述根据所述网页要素指纹信息,获得网页指纹信息,包括:根据所述网页要素信息对应的片段指纹信息,获得所述网页指纹信息。
16.一种仿冒网站的检测装置,其特征在于,包括:
第一获得单元,用于获得第一网站的信息;
第二获得单元,用于根据所述第一网站的信息以及以网站信息为索引的网站信息数据库,获得与所述第一网站的信息对应的第一网页指纹信息,其中,所述网站信息数据库包括网站信息与网页指纹信息之间的对应关系,所述第一网页指纹信息用于标识所述第一网站所包含的网页的特征;
第三获得单元,用于从以网页指纹信息为索引的网页指纹信息数据库中,获得与所述第一网页指纹信息的相似度达到或超过第一相似度阈值的第二网页指纹信息,其中,所述网页指纹信息数据库包括网页指纹信息与网站信息之间的对应关系;
第四获得单元,用于根据所述第二网页指纹信息以及所述网页指纹信息数据库,获得与所述第二网页指纹信息对应的第二网站的信息;
确定单元,用于根据所述第一网站与所述第二网站之间的相似度,确定所述第一网站和所述第二网站中是否存在仿冒网站。
17.根据权利要求16所述的仿冒网站的检测装置,其特征在于,还包括:
第五获得单元,用于获得网站信息;
第六获得单元,用于根据所述网站信息获得网页信息,所述网页信息为所述网站信息对应的网站所包括的网页的信息;
第一生成单元,用于根据所述网页信息生成网页指纹信息;
第一建立单元,用于建立以所述网站信息为索引、包括所述网站信息与所述网页指纹信息之间的对应关系的网站信息数据库。
18.根据权利要求17所述的仿冒网站的检测装置,其特征在于,所述第一生成单元具体用于:
从所述网页信息对应的网页中提取网页要素信息;
根据所述网页要素信息,生成网页要素指纹信息;
根据所述网页要素指纹信息,获得网页指纹信息。
19.根据权利要求16所述的仿冒网站的检测装置,其特征在于,所述第二获得单元具体用于,以所述第一网站的信息为索引,在所述网站信息数据库包括的网站信息与网页指纹信息之间的对应关系中,查找与所述第一网站的信息对应的第一网页指纹信息。
20.根据权利要求16所述的仿冒网站的检测装置,其特征在于,还包括:
第七获得单元,用于获得网站信息;
第八获得单元,用于根据所述网站信息获得网页信息,所述网页信息为所述网站信息对应的网站所包括的网页的信息;
第二生成单元,用于根据所述网页信息生成网页指纹信息;
第二建立单元,用于建立以所述网页指纹信息为索引、包括所述网页指纹信息与所述网站信息之间的对应关系的网页指纹信息数据库。
21.根据权利要求16所述的仿冒网站的检测装置,其特征在于,所述第三获得单元具体用于:计算所述第一网页指纹信息与所述网页指纹信息数据库中的网页指纹信息之间的相似度;
将相似度达到或超过第一相似度阈值的所述网页指纹信息数据库中的网页指纹信息确定为所述第二网页指纹信息。
22.根据权利要求21所述的仿冒网站的检测装置,其特征在于,与同一个第一网页指纹信息之间的相似度达到或超过第一相似度阈值的所述网页指纹信息数据库中的网页指纹信息为多个网页指纹信息;
所述第四获得单元具体用于,从所述多个网页指纹信息中选择相似度最高的网页指纹信息作为与所述同一个第一网页指纹信息的相似度达到或超过第一相似度阈值的第二网页指纹信息。
23.根据权利要求16所述的仿冒网站的检测装置,其特征在于,所述第四获得单元具体用于,以所述第二网页指纹信息为索引,...
【专利技术属性】
技术研发人员:杨文学,王康,
申请(专利权)人:阿里巴巴集团控股有限公司,
类型:发明
国别省市:开曼群岛;KY
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。