欺诈网站识别方法、装置、电子设备和存储介质制造方法及图纸

技术编号：40217728 阅读：6 留言：0更新日期：2024-02-02 22:24

本发明专利技术公开了一种欺诈网站识别方法、装置、电子设备和存储介质，其中方法包括：从网站数据中抽取出节点，并基于节点及其关联关系构建节点图；对节点进行数据拼接融合，得到表征各节点的节点向量；基于节点图得到源节点、边和目标节点，并通过相互注意力模型，得到权重向量；以节点向量为输入，结合权重向量，训练图神经网络；利用训练好的图神经网络，对网站是否为欺诈网站进行识别。上述方案利用节点图模型引入了多源外部数据，分别选用如注意力机制、TextCNN等学习模型进行特征融合，极大提升了模型性能和稳定性；能够将现有欺诈网址知识与可识别的欺诈网址样本相关联，克服了网络反欺诈中网址的跳转、引用等前置链接的特征不明显问题。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及人工智能，具体涉及一种欺诈网站识别方法、装置、电子设备和存储介质。

技术介绍

1、随着互联网时代的到来，当网络成为人民群众的一种生活方式，各种暗藏的风险随之而来，尤其是诈骗网址，辐射人群多、危害大、变化快，给网络安全治理带来新的挑战。在传统的网络反欺诈业务中，采用的主要方法是基于黑名单和启发式规则等，这些方法维护迭代成本高，且较低的智能化水平难以应对海量高速变化的互联网信息。

2、当前也存在机器学习或深度学习的方法对海量网址进行检测、识别和评估，实现智能化的网络反欺诈，其方案包括爬取网址训练样本集的原始特征(包括统一资源定位符(url)词法、统计特征、外部信息、超文本标记语言(html)信息等)，经过特征工程后，输入机器学习或深度学习模型中进行训练。当模型训练完成后，输入测试网址样本流，按同样方式进行特征工程，则模型可以输出网址相关诈骗风险的概率，后续可根据公安的业务规则确定网址的欺诈风险和相关访问用户的受骗风险。

3、现有方案的缺点如下：(1)大多数机器学习、深度学习方案，没有考虑融合多源特征，对于特征空间的统一性需要人工根据任务来进行设计；(2)对于整个网络反欺诈现实场景的覆盖率比较低，主要集中在某些大类案件，对于新出现的欺诈或者长尾分布的欺诈案件的泛化性能较弱；(3)某些欺诈网址的前端是空白页面或页面伪装极佳，基于独立样本无法解决跳转或前置链接因特征不明显而无法检出的问题；(4)网页有效信息较少，纯图片的网页难以提取文本特征，即使基于文本或url等单元数据，也无法有效刻画网址特征；(5

技术实现思路

1、鉴于上述问题，提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的一种欺诈网站识别方法、装置、计算设备和存储介质。

2、根据本专利技术的一个方面，提供了一种欺诈网站识别方法，所述方法包括：

3、从网站数据中抽取出节点，并基于所述节点及其关联关系构建节点图；

4、对所述节点进行数据拼接融合，得到表征各节点的节点向量；

5、基于所述节点图得到源节点、边和目标节点，并通过注意力模型，得到权重向量；

6、以所述节点向量为输入，结合所述权重向量，训练图神经网络；

7、利用训练好的图神经网络，对网站是否为欺诈网站进行识别。

8、可选的，所述节点的类型包括如下的至少一项：站点、域名或互联网协议地址，所述节点图中各边表征的关系包括如下的至少一项：归属关系、跳转关系、引用关系或下载关系。

9、可选的，对所述节点进行数据拼接融合，得到表征各节点的节点向量包括：

10、从网站数据中获取统一资源定位符、文本、外部特征的数据，分别经预处理后得到低维编码向量，将所述低维编码向量经拼接得到所述节点向量。

11、可选的，对所述节点进行数据拼接融合，得到表征各节点的节点向量之后，还包括：

12、以目标节点和源节点之间的时间差为自变量，以三角函数为因变量构建偏置向量；

13、将所述偏置向量经线性映射后得到时序编码向量；

14、由源节点向量融合所述时序编码向量，得到目标节点向量。

15、可选的，基于所述节点图得到源节点、边和目标节点，并通过相互注意力模型，得到权重向量之后，还包括：

16、利用线性网络抽取源节点的特征信息，融合与所述源节点连接边的关系信息后，得到特征向量；

17、基于所述权重向量配置所述特征向量的重要性加权，根据加权结果更新各层的目标节点向量；

18、将所述目标节点向量经过激活层后线性映射，再融合该目标节点向量上一层的特征向量，得到最终的目标节点向量。

19、可选的，以所述节点向量为输入，结合所述权重向量，训练图神经网络包括：

20、以交叉熵损失为损失函数，以adamw为优化器，对所述图神经网络进行收敛训练。

21、可选的，利用训练好的图神经网络，对网站是否为欺诈网站进行识别包括：

22、利用训练好的图神经网络，对如下的任一项进行检测识别或预警：欺诈网址检测、欺诈链路检测、聚集关系分析、用户欺诈风险预警或态势感知。

23、根据本专利技术的另一方面，提供了一种欺诈网站识别装置，所述装置包括：

24、节点构建模块，适于从网站数据中抽取出节点，并基于所述节点及其关联关系构建节点图；

25、数据融合模块，适于对所述节点进行数据拼接融合，得到表征各节点的节点向量；

26、权重获取模块，适于基于所述节点图得到源节点、边和目标节点，并通过相互注意力模型，得到权重向量；

27、模型训练模块，适于以所述节点向量为输入，结合所述权重向量，训练图神经网络；

28、网站识别模块，适于利用训练好的图神经网络，对网站是否为欺诈网站进行识别。

29、根据本专利技术的又一方面，提供了一种电子设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

30、所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行上述欺诈网站识别方法对应的操作。

31、根据本专利技术的再一方面，提供了一种计算机存储介质，所述存储介质中存储有至少一可执行指令，所述可执行指令使处理器执行如上述欺诈网站识别方法对应的操作。

32、根据本专利技术的欺诈网站识别方案，利用节点图模型引入了多源外部数据，分别选用注意力等学习模型进行特征融合，极大地提升了模型性能和稳定性，同时能够将现有欺诈网址知识与可识别的欺诈网址样本相关联，解决了网络反欺诈中网址的跳转、引用等前置链接的欺诈特征不明显问题。

33、上述说明仅是本专利技术技术方案的概述，为了能够更清楚了解本专利技术的技术手段，而可依照说明书的内容予以实施，并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂，以下特举本专利技术的具体实施方式。

本文档来自技高网...

【技术保护点】

1.一种欺诈网站识别方法，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述节点的类型包括如下的至少一项：站点、域名或互联网协议地址，所述节点图中各边表征的关系包括如下的至少一项：归属关系、跳转关系、引用关系或下载关系。

3.根据权利要求1所述的方法，其特征在于，对所述节点进行数据拼接融合，得到表征各节点的节点向量包括：

4.根据权利要求1所述的方法，其特征在于，对所述节点进行数据拼接融合，得到表征各节点的节点向量之后，还包括：

5.根据权利要求1-4中任一项所述的方法，其特征在于，基于所述节点图得到源节点、边和目标节点，并通过注意力模型，得到权重向量之后，还包括：

6.根据权利要求1所述的方法，其特征在于，以所述节点向量为输入，结合所述权重向量，训练图神经网络包括：

7.根据权利要求1所述的方法，其特征在于，利用训练好的图神经网络，对网站是否为欺诈网站进行识别包括：

8.一种欺诈网站识别装置，所述装置包括：

9.一种计算设备，包括：处理器、存储器、通信接口和通信总线，所述

10.一种计算机存储介质，所述存储介质中存储有至少一可执行指令，所述可执行指令使处理器执行根据权利要求1-7中任一项所述的欺诈网站识别方法对应的操作。

...

【技术特征摘要】

1.一种欺诈网站识别方法，所述方法包括：

3.根据权利要求1所述的方法，其特征在于，对所述节点进行数据拼接融合，得到表征各节点的节点向量包括：

4.根据权利要求1所述的方法，其特征在于，对所述节点进行数据拼接融合，得到表征各节点的节点向量之后，还包括：

5.根据权利要求1-4中任一项所述的方法，其特征在于，基于所述节点图得到源节点、边和目标节点，并通过注意力模型，得到权...

【专利技术属性】
技术研发人员：胡泽远，罗琼，李海传，蒋健，
申请(专利权)人：中国移动通信集团浙江有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人