System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及信息安全检测,尤其涉及一种基于大规模语言模型的app敏感特征检测方法及系统。
技术介绍
1、近年来,个人信息保护的新型问题引起了国家的广泛关注,作为与app权限相关的敏感信息,隐私策略披露了如何以及为什么收集、共享、使用和存储用户的敏感数据。然而,由于隐私策略法律和技术术语的复杂性,文档过于冗杂且来源路径复杂,用户难以在app运行阶段快速捕获和理解敏感数据所涉及和收集的隐私信息,而快速操作下的“无察觉”的授权行为严重威胁隐私信息安全。因此,能够自动分析检测隐私策略的合规性并帮助用户理解应用程序的隐私访问行为对于用户的信息安全保护具有重要的意义。
2、在现有技术中例如申请号为“202311842713.8”名称为“一种移动应用中文隐私政策收集个人信息合规性检测方法”采用的是经典的bert对标注的移动应用隐私政策短句数据集进行模型训练,而在标注过程中则是根据一般的个人信息收集的基本要求中的内容来实施,然而此种数据集处理方法并没有考虑到不同的业务模式(如社交媒体、电子商务、游戏等)会涉及不同类型的数据收集和处理方式,以及如何针对不同类别app进行多粒度敏感特征的提取。因此,该合规性检测方法得到的检测结果并不能满足准确性要求。
技术实现思路
1、因此,本专利技术的目的在于提供一种基于大语言模型的app敏感特征分析与检测系统,该系统聚焦于与app权限相关的隐私策略,构建基于不同粒度的敏感特征约束模式和标注数据集,利用nlp技术、通用信息抽取统一框架uie和基于大规模
2、为了实现上述目的,本专利技术提供了一种基于大规模语言模型的app敏感特征检测方法,包括以下步骤:
3、s1、爬取与应用程序敏感资源文件相关的页面,从所爬取页面的html数据中解析并提取出多种类型元素信息,并按照不同的等级分别保存在相应类型的元素里;
4、s2、对保存的元素信息进行预处理;
5、s3、基于主题信息提取、法律法规分析、应用市场要求三个层次,构建多维隐私策略敏感特征约束模式;基于多维隐私策略敏感特征约束模式构建标注语料库;
6、s4、构建基于大规模语言模型的敏感特征分类检测模型,采用标注语料库的数据对构建的基于大规模语言模型的敏感特征分类检测模型进行训练,并微调模型参数;
7、s5、采用微调后的基于大规模语言模型的敏感特征分类检测模型,对输入的app敏感特征数据进行检测。
8、进一步优选的,在s1中,所述多种类型元素信息包括网址信息、图片信息、文字信息、音频信息和视频信息。
9、进一步优选的,还包括通过应用程序的排名、下载量和类别覆盖采用多策略收集种子链接;根据获取的种子链接,创建不同的筛选标准筛选高质量敏感资源文档。
10、进一步优选的,在s2中,对保存的元素信息进行预处理,所述预处理包括如下步骤:
11、s201、对不同类型的元素信息进行自然语言处理;
12、s202、根据权限机制,将与敏感信息相关的危险权限映射到对应权限组。
13、进一步优选的,在s3中,所述基于主题信息提取、法律法规分析、应用市场要求三个层次,构建多维隐私策略敏感特征约束模式,包括根据主题信息提取、法律法规分析、应用市场要求三个层次按照以下15个主题特征分别构建隐私策略敏感特征约束模式;所述15个主题特征包括:隐私策略简介,隐私策略标题,开发者信息,动作目的,处理技术,数据分享,数据安全,用户权利,数据保留,国际数据传输,隐私策略的变化,法律依据,广告使用,儿童保护,链接有效性。
14、进一步优选的,在动作目的主题特征中,还包括按照主体、行为、敏感信息、条件和目的,五个维度生成敏感特征访问的细粒度检测模式;
15、所述主体为检测数据收集者,需清晰说明开发者或者运营者,或参与数据收集的第三方服务或机构;
16、所述条件为检测数据收集条件,隐私策略中是否说明在什么情况下会收集用户的数据;
17、所述行为是指检测app运行过程中涉及的三个基本行为:访问数据、收集数据、使用数据;
18、目的:检测数据获取的目的:开发者应清晰地列出数据的使用目的,例如提供特定服务、改善用户体验、个性化推荐等。在进行这些行为时,开发者需要遵守适用的隐私法规,并在隐私策略中明确告知用户,以建立信任并保护用户的隐私权。
19、所述敏感信息包括用户个人信息和危险权限;其中,个人信息包括健康数据信息、生物特征数据、性别、年龄、姓名、地址;
20、所述危险权限包括:用于与用户日历相关的运行时权限;用于与访问摄像头或从设备捕获图像/视频相关联的权限;用于与此设备上的联系人和配置文件相关的运行时权限;用于允许访问设备位置的权限;用于与从设备访问麦克风音频相关联的权限;用于与电话功能相关联的权限;用于与访问身体或环境传感器相关联的权限;用于与用户的短信消息相关的运行时权限;用于与共享外部存储相关的运行时权限。
21、进一步优选的,所述基于大规模语言模型的敏感特征分类检测模型包括:
22、采用uie模型对标注数据进行抽取,并进行整体框架建模;
23、采用verot5模型根据隐私策略文本的不同类别对整体框架进行嵌入,将编码器和解码器的位置编码采用旋转位置编码,所述旋转位置编码为对提取出的特征向量进行旋转,使旋转后的特征在自注意力机制中能自动感知相对位置信息,所述根据隐私策略文本的不同类别对整体框架进行嵌入包括根据隐私策略文本进行隐私策略识别、隐私策略标题识别、开发者信息识别、敏感数据动作与目的识别,根据识别结果进行嵌入;
24、所述敏感数据动作与目的识别包括采用相似度计算原则判断隐私标题所在位置,根据位置获取隐私内容,根据所述隐私内容获取敏感权限信息,并进行摘要信息提取。
25、本专利技术还提供一种基于大规模语言模型的app敏感特征检测系统,包括:
26、数据获取模块,用于爬取与应用程序敏感资源文件相关的页面,从所爬取页面的html数据中解析并提取出多种类型元素信息,并按照不同的等级分别保存在相应类型的元素里;
27、数据预处理模块,用于对保存的元素信息进行预处理;
28、模型构建模块,用于基于主题信息提取、法律法规分析、应用市场要求三个层次,构建多维隐私策略敏感特征约束模式;基于多维隐私策略敏感特征约束模式构建标注语料库;
29、模型训练模块,构建基于大规模语言模型的敏感特征分类检测模型,采用标注语料库的数据对构建的基于大规模语言模型的敏感特征分类检测模型进行训练,并微调模本文档来自技高网...
【技术保护点】
1.一种基于大规模语言模型的APP敏感特征检测方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于大规模语言模型的APP敏感特征检测方法,其特征在于,在S1中,所述多种类型元素信息包括网址信息、图片信息、文字信息、音频信息和视频信息。
3.根据权利要求1所述的基于大规模语言模型的APP敏感特征检测方法,其特征在于,还包括通过应用程序的排名、下载量和类别覆盖,多策略收集种子链接;根据获取的种子链接,创建不同的筛选标准筛选高质量敏感资源文档。
4.根据权利要求1所述的基于大规模语言模型的APP敏感特征检测方法,其特征在于,在S2中,对保存的元素信息进行预处理,所述预处理包括如下步骤:
5.根据权利要求1所述的基于大规模语言模型的APP敏感特征检测方法,其特征在于,在S3中,所述基于主题信息提取、法律法规分析、应用市场要求三个层次,构建多维隐私策略敏感特征约束模式,包括按照以下15个主题特征分别构建隐私策略敏感特征约束模式;所述15个主题特征包括:隐私策略简介,隐私策略标题,开发者信息,动作目的,处理技术,数据分享,数据安全,用
6.根据权利要求5所述的基于大规模语言模型的APP敏感特征检测方法,其特征在于,在动作目的主题特征中,还包括按照主体、行为、敏感信息、条件和目的,五个维度生成敏感特征访问的细粒度检测模式。
7.根据权利要求5所述的基于大规模语言模型的APP敏感特征检测方法,其特征在于,所述基于大规模语言模型的敏感特征分类检测模型包括:
8.一种基于大规模语言模型的APP敏感特征检测系统,其特征在于,包括:
9.一种电子设备,其特征在于,包括:
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储指令,当存储的指令在计算机上运行时,使得所述计算机执行如权利要求1至7中任一项所述基于大规模语言模型的APP敏感特征检测方法的步骤。
...【技术特征摘要】
1.一种基于大规模语言模型的app敏感特征检测方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于大规模语言模型的app敏感特征检测方法,其特征在于,在s1中,所述多种类型元素信息包括网址信息、图片信息、文字信息、音频信息和视频信息。
3.根据权利要求1所述的基于大规模语言模型的app敏感特征检测方法,其特征在于,还包括通过应用程序的排名、下载量和类别覆盖,多策略收集种子链接;根据获取的种子链接,创建不同的筛选标准筛选高质量敏感资源文档。
4.根据权利要求1所述的基于大规模语言模型的app敏感特征检测方法,其特征在于,在s2中,对保存的元素信息进行预处理,所述预处理包括如下步骤:
5.根据权利要求1所述的基于大规模语言模型的app敏感特征检测方法,其特征在于,在s3中,所述基于主题信息提取、法律法规分析、应用市场要求三个层次,构建多维隐私策略敏感特征约束模式,包括按照以下15个主题特征分别构建隐私策略敏感特征约束模式;所述...
【专利技术属性】
技术研发人员:高红灿,赵定松,马新如,郑舒心,刘恋,胡宛晴,
申请(专利权)人:天津商业大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。