一种诈骗应用程序识别方法、装置、设备及存储介质制造方法及图纸

技术编号：40991356 阅读：2 留言：0更新日期：2024-04-18 21:33

本发明专利技术公开了一种诈骗应用程序识别方法、装置、设备及存储介质，涉及互联网安全技术领域。所述方法是一方面解析得到目标应用程序的静态元数据及动态元数据，并构建得到相应的静态特征及动态特征，另一方面还网络爬取目标应用程序的程序舆情信息及识别程序界面图片中的文本内容，并拼接得到程序综合文本，然后将静态特征、动态特征及程序综合文本输入不同的应用程序分类模型，得到不同的且将目标应用程序分类为诈骗应用程序类的三个置信度，最后根据这三个置信度融合确定目标应用程序属于诈骗应用程序类的概率，得到最终识别结果，如此通过增加更多特征维度以及融合多种模型分类结果，可以有效提高识别准确度，便于实际应用和推广。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于互联网安全，具体涉及一种诈骗应用程序识别方法、装置、设备及存储介质。

技术介绍

1、在移动互联网普及的当下，app(应用程序，application的缩写，一般指手机软件)已成为电信网络诈骗的“高发地”。据统计，有60％的电信网络诈骗案件是利用app来实施诈骗的，各类虚假交友、刷单和购物等诈骗app已经成为电信网络诈骗犯罪链中不可或缺的环节。由此可见，诈骗app正在迅速成为社会的严重威胁。

2、诈骗应用程序具有制作成本低和更新快的特点，面对海量app，仅依靠人工识别是无法应对的。现有应对方案主要是先筛选出欺诈可能性较高的app，再进行人工验证。前期筛选的方法有：通过构建敏感词库，并通过命中敏感词来筛选；或者通过沙盒运行来提取安装包信息进行判别分析，但受限于特征维度较少，识别准确度不高。

技术实现思路

1、本专利技术的目的是提供一种诈骗应用程序识别方法、装置、计算机设备及计算机可读存储介质，用以解决现有诈骗应用程序筛选方案存在因受限于特征维度较少而导致识别准确度不高的问题。

2、为了实现上述目的，本专利技术采用以下技术方案：

3、第一方面，提供了一种诈骗应用程序识别方法，包括：

4、获取目标应用程序的安装包文件；

5、静态解析所述安装包文件，得到所述目标应用程序的静态元数据；

6、根据所述静态元数据构建得到静态特征；

7、网络爬取所述目标应用程序的程序舆情信息，并利用自然语言处理技术对所

8、动态解析所述安装包文件，得到所述目标应用程序的动态元数据，其中，所述动态元数据包含有程序界面图片；

9、根据所述动态元数据构建得到动态特征；

10、采用ocr技术识别所述程序界面图片中的文本内容，并利用所述自然语言处理技术对所述文本内容进行预处理，得到程序界面文本；

11、拼接所述程序舆情文本和所述程序界面文本，得到程序综合文本；

12、将所述静态特征输入基于第一机器学习算法的且已预训练的第一应用程序分类模型，输出得到将所述目标应用程序分类为诈骗应用程序类的第一置信度，以及将所述动态特征输入基于第二机器学习算法的且已预训练的第二应用程序分类模型，输出得到将所述目标应用程序分类为诈骗应用程序类的第二置信度，以及还将所述程序综合文本输入基于第三机器学习算法的且已预训练的第三应用程序分类模型，输出得到将所述目标应用程序分类为诈骗应用程序类的第三置信度；

13、根据所述第一置信度、所述第二置信度和所述第三置信度，确定所述目标应用程序属于诈骗应用程序类的概率；

14、当所述目标应用程序分类属于诈骗应用程序类的概率超过预设概率阈值时，针对所述目标应用程序输出诈骗标签。

15、基于上述
技术实现思路
，提供了一种基于动静态元数据、程序舆情信息以及程序界面图片进行诈骗应用程序分类识别的新方案，即一方面解析得到目标应用程序的静态元数据及动态元数据，并构建得到相应的静态特征及动态特征，另一方面还网络爬取目标应用程序的程序舆情信息及识别程序界面图片中的文本内容，并拼接得到程序综合文本，然后将静态特征、动态特征及程序综合文本输入不同的应用程序分类模型，得到不同的且将目标应用程序分类为诈骗应用程序类的三个置信度，最后根据这三个置信度融合确定目标应用程序属于诈骗应用程序类的概率，得到最终识别结果，如此通过增加更多特征维度以及融合多种模型分类结果，可以有效提高识别准确度，便于实际应用和推广。

16、在一个可能的设计中，当所述静态元数据包含有程序名称和/或md5值时，在根据所述静态元数据构建得到静态特征之前，所述方法还包括：

17、将所述程序名称和/或md5值作为所述目标应用程序的唯一标识，在预先得到的诈骗应用程序黑名单中查找是否存在该唯一标识；

18、若存在，则针对所述目标应用程序直接输出诈骗标签。

19、在一个可能的设计中，在得到程序综合文本之后，所述方法还包括：

20、针对在诈骗文本库中的各个诈骗文本，计算得到对应文本与所述程序综合文本的文本相似度；

21、判断是否存在某个诈骗文本与所述程序综合文本的文本相似度超过预设相似度阈值；

22、若存在，则针对所述目标应用程序直接输出诈骗标签。

23、在一个可能的设计中，针对在诈骗文本库中的各个诈骗文本，计算得到对应文本与所述程序综合文本的文本相似度，包括：

24、针对在诈骗文本库中的某个诈骗文本，按照如下公式计算得到对应文本与所述程序综合文本的杰卡德相似度jaccardk和余弦相似度cosk：

25、

26、式中，text表示所述程序综合文本，textk表示所述某个诈骗文本，set()表示文本分词所得集合，vec表示基于所述程序综合文本所得的词向量，veck表示基于所述某个诈骗文本所得的词向量；

27、按照如下公式计算得到所述某个诈骗文本与所述程序综合文本的文本相似度simk：

28、simk＝α×jaccardk+β×cosk

29、式中，α和β分别表示预设权重系数，并有α+β＝1。

30、在一个可能的设计中，根据所述第一置信度、所述第二置信度和所述第三置信度，确定所述目标应用程序属于诈骗应用程序类的概率，包括：

31、将所述第一置信度、所述第二置信度和所述第三置信度导入已预训练的逻辑回归模型中，输出得到所述目标应用程序属于诈骗应用程序类的概率，其中，所述逻辑回归模型用如下公式表示：

32、prob＝ω0+ω1×prob1+ω2×prob2+ω3×prob3

33、式中，prob表示所述目标应用程序属于诈骗应用程序类的概率，prob1表示所述第一置信度，prob2表示所述第二置信度，prob3表示所述第三置信度，ω0、ω1、ω2和ω3分别表示所述逻辑回归模型的且已训练得到的模型参数。

34、在一个可能的设计中，所述第一机器学习算法采用逻辑回归算法或xgboost算法，所述第二机器学习算法采用逻辑回归算法或xgboost算法，所述第三机器学习算法采用xgboost算法。

35、在一个可能的设计中，将所述程序综合文本输入基于第三机器学习算法的且已预训练的第三应用程序分类模型，输出得到将所述目标应用程序分类为诈骗应用程序类的第三置信度，包括：

36、对所述程序综合文本进行分词处理，得到多个单词；

37、获取所述多个单词中的各个单词的词重要性指标值；

38、根据所述词重要性指标值，对所述多个单词进行从重要到不重要的排序，得到一个单词序列；

39、选取所述单词序列中的前n个单词作为特征词输入基于第三机器学习算法的且已预训练的第三应用程序分类模型，输出得到将所述目标应用程序分类为诈骗应用程序类的第三置信度，其中，n表示本文档来自技高网...

【技术保护点】

1.一种诈骗应用程序识别方法，其特征在于，包括：

2.根据权利要求1所述的诈骗应用程序识别方法，其特征在于，当所述静态元数据包含有程序名称和/或MD5值时，在根据所述静态元数据构建得到静态特征之前，所述方法还包括：

3.根据权利要求1所述的诈骗应用程序识别方法，其特征在于，在得到程序综合文本之后，所述方法还包括：

4.根据权利要求1所述的诈骗应用程序识别方法，其特征在于，针对在诈骗文本库中的各个诈骗文本，计算得到对应文本与所述程序综合文本的文本相似度，包括：

5.根据权利要求1所述的诈骗应用程序识别方法，其特征在于，根据所述第一置信度、所述第二置信度和所述第三置信度，确定所述目标应用程序属于诈骗应用程序类的概率，包括：

6.根据权利要求1所述的诈骗应用程序识别方法，其特征在于，所述第一机器学习算法采用逻辑回归算法或Xgboost算法，所述第二机器学习算法采用逻辑回归算法或Xgboost算法，所述第三机器学习算法采用Xgboost算法。

7.根据权利要求1所述的诈骗应用程序识别方法，其特征在于，将所述程序综合文

8.一种诈骗应用程序识别装置，其特征在于，包括有程序文件获取模块、文件静态解析模块、静态特征构建模块、舆情文本获取模块、文件动态解析模块、动态特征构建模块、界面文本获取模块、综合文本拼接模块、分类模型应用模块、诈骗概率确定模块和识别结果输出模块；

9.一种计算机设备，其特征在于，包括有依次通信连接的存储器、处理器和收发器，其中，所述存储器用于存储计算机程序，所述收发器用于收发消息，所述处理器用于读取所述计算机程序，执行如权利要求1～7中任意一项所述的诈骗应用程序识别方法。

10.一种计算机可读存储介质，其特征在于,所述计算机可读存储介质上存储有指令，当所述指令在计算机上运行时，执行如权利要求1～7中任意一项所述的诈骗应用程序识别方法。

...

【技术特征摘要】

1.一种诈骗应用程序识别方法，其特征在于，包括：

2.根据权利要求1所述的诈骗应用程序识别方法，其特征在于，当所述静态元数据包含有程序名称和/或md5值时，在根据所述静态元数据构建得到静态特征之前，所述方法还包括：

3.根据权利要求1所述的诈骗应用程序识别方法，其特征在于，在得到程序综合文本之后，所述方法还包括：

6.根据权利要求1所述的诈骗应用程序识别方法，其特征在于，所述第一机器学习算法采用逻辑回归算法或xgboost算法，所述第二机器学习算法采用逻辑回归算法或xgboost算法，所述第三机器学习算法采用xgboost算...

【专利技术属性】
技术研发人员：顾凌云，周轩，王妍，郭志攀，
申请(专利权)人：南京冰鉴信息科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人