一种网站相似度检测方法技术

技术编号：19857648 阅读：18 留言：0更新日期：2018-12-22 11:43

本发明专利技术提供了一种网站相似度检测方法，通过服务器提取待检测网站中各个页面的文本信息，并将各个页面的文本信息整合为第一文本；所述服务器根据爬取任务配置文件开启网络URL信息爬取，获取各个网站所含文本信息，并将爬取的文本信息整合为第二文本；所述服务器计算第一文本与各个网站所对应的第二文本所含文本信息之间的相似度；若相似度超出预设阈值，则判定待检测网站与爬取到的文字信息相对应网站内容重复。对判定出的相同内容网站进行辨别，确认出是否为钓鱼网站。本发明专利技术公开的网站相似度检测方法，在现有技术的基础上，增加了网站信息智能爬取和爬取信息的相似度匹配的步骤，提高了钓鱼网站的快速识别。

全部详细技术资料下载

【技术实现步骤摘要】
一种网站相似度检测方法
本专利技术信息安全检测
，尤其涉及一种网站相似度检测方法。
技术介绍
现有技术中，常常会出现与正规网站相同页面内容的钓鱼网站，而这些网站仿冒正规网站的域名(URL)地址以及页面内容，或者利用真实网站服务器程序上的漏洞在站点的某些网页中插入危险的Javascript代码，以此来骗取用户银行或信用卡账号、密码等私人资料，使用户受到经济上的损失。目前钓鱼网站的检测识别成为Web安全领域重要研究内容。判断一个网站是否是钓鱼网站，一个重要的途径是验证该网站是否跟某个真实网站在视觉效果或内容上具有相似性。但是如果若通过人工进行鉴别，则效率低，无法基于海量网站中快速查找出钓鱼网站。因此，现有技术有待于进一步的改进。
技术实现思路
鉴于上述现有技术中的不足之处，本专利技术的目的在于为用户提供一种网站相似度检测方法，克服现有技术中基于人工进行钓鱼网站的查找和识别的缺陷。本专利技术公开了一种网站相似度检测方法，其中，所述方法包括：服务器提取待检测网站中各个页面的文本信息，并将各个页面的文本信息整合为第一文本；所述服务器根据爬取任务配置文件开启网络URL信息爬取，获取各个网站所含文本信息，并将爬取的文本信息整合为第二文本；所述服务器计算第一文本与各个网站所对应的第二文本所含文本信息之间的相似度；若相似度超出预设阈值，则判定待检测网站与爬取到的文字信息相对应网站内容重复。可选的，将第一文本中各个网页所含文本块与第二文本中各个网页所含文本块之间相似度的权值作为所述第一文本与第二文本之间的相似度。可选的，服务器计算第一文本中各个文本块与第二文本中相对应文本块...

【技术保护点】
1.一种网站相似度检测方法，其特征在于，所述方法包括：服务器提取待检测网站中各个页面的文本信息，并将各个页面的文本信息整合为第一文本；所述服务器根据爬取任务配置文件开启网络URL信息爬取，获取各个网站所含文本信息，并将爬取的文本信息整合为第二文本；所述服务器计算第一文本与各个网站所对应的第二文本所含文本信息之间的相似度；若相似度超出预设阈值，则判定待检测网站与爬取到的文字信息相对应网站内容重复。

【技术特征摘要】
1.一种网站相似度检测方法，其特征在于，所述方法包括：服务器提取待检测网站中各个页面的文本信息，并将各个页面的文本信息整合为第一文本；所述服务器根据爬取任务配置文件开启网络URL信息爬取，获取各个网站所含文本信息，并将爬取的文本信息整合为第二文本；所述服务器计算第一文本与各个网站所对应的第二文本所含文本信息之间的相似度；若相似度超出预设阈值，则判定待检测网站与爬取到的文字信息相对应网站内容重复。2.根据权利要求1所述的网站相似度检测方法，其特征在于，将第一文本中各个网页所含文本块与第二文本中各个网页所含文本块之间相似度的权值作为所述第一文本与第二文本之间的相似度。3.根据权利要求2所述的网站相似度检测方法，其特征在于，服务器计算第一文本中各个文本块与第二文本中相对应文本块之间的相似度的权值步骤包括:所述服务器对所述第一文本中的文本块进行拆解得到若干候选句子；所述服务器确定各候选句子的重要性分数；所述服务器提取重要性分数大于预设值的目标句子作为所述第一文本的关键信息；所述服务器将所述第一文本的关键信息与各个第二文本中相对应文本块的关键信息进行对比得出各个文本块之间相似度；将各个文本块之间的相似度进行加权得到文本块之间相似度的权值。4.根据权利要求3所述的网站相似度检测方法，其特征在于，所述服务器对所述第一文本进行拆解得到若干候选句子的步骤中，对第一文本中的文本块进行拆分的方法为：按照标点符号进行拆解；其中，所述标点符号为分号、逗号、句号时，进行拆解，当标点符号为顿号、冒号、引号时，不进行拆解。5.根据权利要求4所述的网站相似度检测方法，其特征在于，所述服务器确定各候选句子的重要性分数的步骤包括：判断所述候选句子中是否包含中文句子和/或网页链接地址；若仅仅含有中文句子，则将中文句子中各词组的权值之和作为所述候选句子的重要性分数；若仅仅含有网页链接地址，则将所述网页链接地址对应网页中所含页面元素的权值之和作为所述候选句子的重要性分数；若同时含有中文句子和网页链接地址，则将中文句子中各词组的权值之和和网页链接地址所对应网页中所含页...

【专利技术属性】
技术研发人员：向湘杰，
申请(专利权)人：东莞市华睿电子科技有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人