句法指纹识别制造技术

技术编号：16274967 阅读：48 留言：0更新日期：2017-09-22 23:55

一种通过组成网站的构造组件，识别网络钓鱼网站和展示每个网站的起源的方法。本方法包括识别新观察到的网络钓鱼网站并使用本方法作为聚集网络钓鱼网站的距离度量。变更本方法内的阈值演示了网络钓鱼调查人员识别许多网络钓鱼网站源头以及各个网络钓鱼者的潜在能力。

Syntactic fingerprinting

A method of identifying phishing sites and displaying the origin of each site by composing components of a web site. The method comprises identifying a newly observed phishing site and using the method as a distance metric for aggregating phishing sites. Changing the threshold in this method demonstrates the potential of phishing investigators to identify the origins of many phishing sites and the potential for phishing.

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】相关申请的交叉引用根据35U.S.C.§119，本申请要求2011年7月8日提交的临时专利申请序列号61/505,630的优先权，标题为“SyntacticalFingerprinting”，其全部内容在此引用作为参考。
本专利技术针对自动地识别在工具栏内新观察到的网络钓鱼网站、为了调查而正确地标注所述网络钓鱼网站以及确定所述网络钓鱼网站的流行和起源的方法。
技术介绍
研发人员已经提出许多不同的技术用于检测文件之间的相似性，比如确定源代码中变化的技术，例如普遍存在的Unix实用程序diff，或者通过ssdeep取证地识别系统文件的变种或恶意软件。这些实用程序提供了确定文件变化的好处，比如对代码段的编辑或者诸如插入或删除若干字节的小变化。不过，需要几乎严格匹配并非总是切合实际，并且这些技术对文件的起源是否相同不提供指示。为了识别网站是不是恶意，文件不一定需要完全相同，网络钓鱼就是一个实例情况。常用组件如表单和JavaScript函数过程在计...

【技术保护点】
一种识别网络钓鱼网站的方法，包括：a.提供计算机系统，具有操作系统、数据库系统以及用于控制通过因特网通信的通信系统；b.向计算机系统发送通信，包含多个疑似网络钓鱼URL；c.检索多个网络钓鱼URL的每个疑似网络钓鱼URL的网站内容文件，该网站内容文件包括构造组件；d.预处理网站内容文件，从而为多个疑似网络钓鱼URL的每一个产生标准化的网站内容文件集；e.为标准化的网站内容文件集的每一个创建抽象语法树；f.为每个标准化的网站内容文件集的每个构造组件计算散列值，并且为每个标准化的网站内容文件集都从中构建散列值集；g.从第一个散列值集选择第一个散列值并且把第一个散列值与已知网络钓鱼网站构造组件的散列...

【技术特征摘要】
【国外来华专利技术】2011.07.08 US 61/505,6301.一种识别网络钓鱼网站的方法，包括：
a.提供计算机系统，具有操作系统、数据库系统以及用于控制
通过因特网通信的通信系统；
b.向计算机系统发送通信，包含多个疑似网络钓鱼URL；
c.检索多个网络钓鱼URL的每个疑似网络钓鱼URL的网站内
容文件，该网站内容文件包括构造组件；
d.预处理网站内容文件，从而为多个疑似网络钓鱼URL的每一
个产生标准化的网站内容文件集；
e.为标准化的网站内容文件集的每一个创建抽象语法树；
f.为每个标准化的网站内容文件集的每个构造组件计算散列值，
并且为每个标准化的网站内容文件集都从中构建散列值集；
g.从第一个散列值集选择第一个散列值并且把第一个散列值与
已知网络钓鱼网站构造组件的散列值进行对比，以定位匹配的散列值；
h.如果匹配的散列值已定位，把第一个散列值集与匹配的散列
值的散列值集进行对比并创建相似度评分；以及
i.如果相似度评分达到或超过预定阈值，把导出第一个散列值的
疑似URL指定为网络钓鱼网站。
2.根据权利要求1的方法，其中，所述通信被发送自反垃圾邮
件公司、反网络钓鱼公司、关机公司、在客户计算机系统上运行的自
治程序，该自治程序被配置为自动地俘获疑似网络钓鱼网站的通信并
把疑似网络钓鱼网站的通信发送到所述计算机系统。
3.根据权利要求1的方法，其中，以电子邮件本体发送多个疑
似网络钓鱼URL时，从采用第一解析程序的通信中提取所述多个疑
似网络钓鱼URL。
4.根据权利要求1的方法，进一步包括在步骤c之前，从多个疑
似网络钓鱼URL中去除以下情形的任何疑似网络钓鱼URL：已知有
利URL、已知网络钓鱼URL或者所述多个疑似网络钓鱼URL中另一

\t个网络钓鱼URL的副本的URL。
5.根据权利要求1的方法，进一步包括在所述计算机系统上存
储网站内容文件。
6.根据权利要求1的方法，其中，预处理包括一项或多项以下
操作：从网站内容文件中去除空格、使网站内容文件不区分大小写或
者从网站内容文件中去除动态内容。
7.根据权利要求1的方法，其中，网站内容文件从所检索的网
站内容文件的索引页中导出。
8.根据权利要求1的方法，其中，创建抽象语法树包括解析标
准化的网站内容文件集内的HTML标签并构建HTML实体的抽象语
法树。
9.根据权利要求1的方法，进一步包括在所述计算机系统上存
储散列值。
10.根据权利要求1的方法，进一步包括在所述计算机系统上把
已知网络钓鱼网站的构造组件的散列值存储为散列值集表。
11.根据权利要求1的方法，其中，使用Kulczynski2系数计算
相似度评分。
12.根据权利要求1的方法，进一步包括相似度评分达到或超过
预定阈值时，把所述第一个散列值集添加到已知网络钓鱼网站构造组
件的散列值。
13.根据权利要求1的方法，其中，构造组件是HTML标签。
14.根据权利要求1的方法，进一步包括确定网络钓鱼网站的起
源。
15.根据权利要求14的方法，其中，确定网络...

【专利技术属性】
技术研发人员：B·瓦德曼，W·哈顿克，
申请(专利权)人：UAB研究基金会，
类型：发明
国别省市：美国;US

全部详细技术资料下载我是这个专利的主人