System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本说明书一个或多个实施例涉及信息处理,尤其涉及一种场景识别模型训练方法、场景识别方法及装置。
技术介绍
1、随着互联网技术的发展,各类应用程序层出不穷,逐渐成为人们生活中不可或缺的一种服务方式,为人们的日常生活和工作提供便利。这些应用程序有些在移动终端的操作系统内独立运行,有些则基于前述独立运行的应用程序的开放接口实现、无需安装即可使用(即小程序)。这些应用程序在使用过程中通常需要收集、使用用户相关数据;目前很多应用程序在对用户数据进行收集或使用时存在违规情况,对用户数据的隐私安全造成严重威胁。然而,由于同一应用程序可能提供一种或一种以上服务场景,同时不同的应用程序提供的服务场景也相同,而不同的服务场景所需收集或使用的数据不尽相同;应用程序的页面样式众多且风格迥异,难以准确确定其对应的服务场景,也就无法进一步确定其对用户数据的收集、使用是否存在违规情况。
2、有鉴于此,需要提供一种对应用程序进行场景识别的方案,以快速、准确地确定任一应用程序所对应的服务场景。
技术实现思路
1、为了快速、准确地确定任一应用程序所对应的服务场景,本说明书一个或多个实施例提供了一种场景识别模型训练方法、场景识别方法及装置。
2、第一方面,本说明书一个或多个实施例提供了一种场景识别模型训练方法,包括:
3、分别对多个样本应用程序进行遍历,获取各个所述样本应用程序的至少一个样本页面;
4、根据所述样本页面的样本截图文件和样本布局文件中的至少一项,提取所述样本页
5、获取所述样本页面的对应的样本场景标签;
6、将同一所述样本页面对应的所述样本页面数据和样本场景标签作为一个训练样本,对预设识别模型进行训练,得到目标识别模型。
7、一种可能的实现方式中,所述分别对多个样本应用程序进行遍历,获取各个所述样本应用程序的至少一个样本页面,包括:
8、对每个所述样本应用程序,获取其导航栏控件;
9、根据所述导航栏控件遍历获取所述样本应用程序的各个样本页面。
10、一种可能的实现方式中,所述根据所述样本页面的样本截图文件和样本布局文件中的至少一项,提取所述样本页面的样本页面数据,包括:
11、获取所述样本页面的样本截图文件;
12、识别所述样本截图文件中的各个文字信息,及所述文字信息对应的中心点坐标,并记入第一一维数组;
13、将所述样本截图文件对应的各个所述第一一维数组合并为第一二维数组;
14、其中,所述样本页面数据包括所述第一二维数组。
15、一种可能的实现方式中,所述根据所述样本页面的样本截图文件和样本布局文件中的至少一项,提取所述样本页面的样本页面数据,包括:
16、获取所述样本页面的样本布局文件;
17、读取所述样本布局文件中的各个文本节点,并将每个所述文本节点所记录的文本字符串和所述文本字符串对应的起止点坐标记入第二一维数组;
18、将所述样本布局文件对应的各个所述第二一维数组合并为第二二维数组;
19、其中,所述样本页面数据包括所述第二二维数组。
20、一种可能的实现方式中,所述场景标签用于标记所述样本页面对应的预设场景类型;
21、所述预设场景类型包括以下至少一项:首页状态场景、注册登录场景、用户设置场景、功能服务场景、信息上传场景和其他综合场景。
22、一种可能的实现方式中,所述将同一所述样本页面对应的所述样本页面数据和样本场景标签作为一个训练样本,对预设识别模型进行训练,包括以下至少一项:
23、将所述样本页面数据的文本长度进行归一化处理;
24、将所述样本场景标签转换为1*n维的特征向量;其中,n为预设场景类型的总数量,每个所述预设场景类型对应所述特征向量中的一个维度;所述特征向量在所述样本场景标签所表示的预设场景类型对应的维度上的数值为1,在其余维度上数值为0。
25、第二方面,本说明书一个或多个实施例提供了一种场景识别方法,包括:
26、对待识别的目标应用程序进行遍历,获取所述目标应用程序的至少一个目标页面;
27、根据所述目标页面的目标截图文件和目标布局文件中的至少一项,提取所述目标页面的目标页面数据;
28、将所述目标页面数据输入目标识别模型,并通过所述目标识别模型根据所述目标页面数据对所述目标页面进行场景识别;
29、其中,所述目标识别模型为根据第一方面所述的方法训练得到的模型。
30、一种可能的实现方式中,所述场景识别方法还包括:
31、根据各个所述目标页面的场景识别结果确定所述目标应用程序对应的场景类型。
32、一种可能的实现方式中,所述根据所述目标页面的目标截图文件和目标布局文件中的至少一项,提取所述目标页面的目标页面数据,包括:
33、获取所述目标页面的目标截图文件;
34、识别所述目标截图文件中的各个目标文字信息,及所述目标文字信息对应的中心点坐标,并记入第三一维数组;
35、将所述目标截图文件对应的各个所述第三一维数组合并为第三二维数组;
36、其中,所述目标页面数据包括所述第三二维数组。
37、一种可能的实现方式中,所述根据所述目标页面的目标截图文件和目标布局文件中的至少一项,提取所述目标页面的目标页面数据,包括:
38、获取所述目标页面的目标布局文件;
39、读取所述目标布局文件中的各个目标文本节点,并将每个所述目标文本节点所记录的文本字符串和所述文本字符串对应的起止点坐标记入第四一维数组;
40、将所述目标布局文件对应的各个所述第四一维数组合并为第四二维数组;
41、其中,所述目标页面数据包括所述第四二维数组。
42、第三方面,本说明书一个或多个实施例提供了一种场景识别模型训练装置,包括:
43、遍历单元,用于分别对多个样本应用程序进行遍历,获取各个所述样本应用程序的至少一个样本页面;
44、预处理单元,用于根据所述样本页面的样本截图文件和样本布局文件中的至少一项,提取所述样本页面的样本页面数据;
45、获取单元,用于获取所述样本页面的对应的样本场景标签;
46、训练单元,用于将同一所述样本页面对应的所述样本页面数据和样本场景标签作为一个训练样本,对预设识别模型进行训练,得到目标识别模型。
47、一种可能的实现方式中,所述遍历单元用于分别对多个样本应用程序进行遍历,获取各个所述样本应用程序的至少一个样本页面,包括,所述遍历单元用于执行以下操作:
48、对每个所述样本应用程序,获取其导航栏控件;
49、根据所述导航栏控件遍历获取所述样本应用程序的各个样本页面。
50、一种可能的实现方式中,所述预本文档来自技高网...
【技术保护点】
1.一种场景识别模型训练方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述分别对多个样本应用程序进行遍历,获取各个所述样本应用程序的至少一个样本页面,包括:
3.根据权利要求1所述的方法,其特征在于,所述根据所述样本页面的样本截图文件和样本布局文件中的至少一项,提取所述样本页面的样本页面数据,包括:
4.根据权利要求1所述的方法,其特征在于,所述根据所述样本页面的样本截图文件和样本布局文件中的至少一项,提取所述样本页面的样本页面数据,包括:
5.根据权利要求1所述的方法,其特征在于,所述场景标签用于标记所述样本页面对应的预设场景类型;
6.根据权利要求1所述的方法,其特征在于,所述将同一所述样本页面对应的所述样本页面数据和样本场景标签作为一个训练样本,对预设识别模型进行训练,包括以下至少一项:
7.一种场景识别方法,其特征在于,包括:
8.根据权利要求7所述的方法,其特征在于,还包括:
9.根据权利要求7所述的方法,其特征在于,所述根据所述目标页面的目标截图文件和
10.根据权利要求7所述的方法,其特征在于,所述根据所述目标页面的目标截图文件和目标布局文件中的至少一项,提取所述目标页面的目标页面数据,包括:
11.一种场景识别模型训练装置,其特征在于,包括:
12.根据权利要求11所述的装置,其特征在于,所述遍历单元用于分别对多个样本应用程序进行遍历,获取各个所述样本应用程序的至少一个样本页面,包括,所述遍历单元用于执行以下操作:
13.根据权利要求11所述的装置,其特征在于,所述预处理单元包括第一预处理单元;所述第一预处理单元用于执行以下操作:
14.根据权利要求11所述的装置,其特征在于,所述预处理单元包括第二预处理单元;所述第二预处理单元用于执行以下操作:
15.根据权利要求11所述的装置,其特征在于,所述场景标签用于标记所述样本页面对应的预设场景类型;
16.根据权利要求11所述的装置,其特征在于,所述训练单元用于将同一所述样本页面对应的所述样本页面数据和样本场景标签作为一个训练样本,对预设识别模型进行训练,包括,所述训练单元用于执行以下至少一项:
17.一种场景识别装置,其特征在于,包括:
18.根据权利要求17所述的装置,其特征在于,还包括:
19.根据权利要求17所述的装置,其特征在于,所述预处理模块包括第一预处理模块;所述第一预处理模块用于执行以下操作:
20.根据权利要求17所述的装置,其特征在于,所述预处理模块包括第二预处理模块;所述第二预处理模块用于执行以下操作:
21.一种电子设备,其特征在于,所述电子设备包括:
22.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序指令,该计算机程序指令被执行时,实现上述权利要求1-10中任意一项所述的方法。
...【技术特征摘要】
1.一种场景识别模型训练方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述分别对多个样本应用程序进行遍历,获取各个所述样本应用程序的至少一个样本页面,包括:
3.根据权利要求1所述的方法,其特征在于,所述根据所述样本页面的样本截图文件和样本布局文件中的至少一项,提取所述样本页面的样本页面数据,包括:
4.根据权利要求1所述的方法,其特征在于,所述根据所述样本页面的样本截图文件和样本布局文件中的至少一项,提取所述样本页面的样本页面数据,包括:
5.根据权利要求1所述的方法,其特征在于,所述场景标签用于标记所述样本页面对应的预设场景类型;
6.根据权利要求1所述的方法,其特征在于,所述将同一所述样本页面对应的所述样本页面数据和样本场景标签作为一个训练样本,对预设识别模型进行训练,包括以下至少一项:
7.一种场景识别方法,其特征在于,包括:
8.根据权利要求7所述的方法,其特征在于,还包括:
9.根据权利要求7所述的方法,其特征在于,所述根据所述目标页面的目标截图文件和目标布局文件中的至少一项,提取所述目标页面的目标页面数据,包括:
10.根据权利要求7所述的方法,其特征在于,所述根据所述目标页面的目标截图文件和目标布局文件中的至少一项,提取所述目标页面的目标页面数据,包括:
11.一种场景识别模型训练装置,其特征在于,包括:
12.根据权利要求11所述的装置,其特征在于...
【专利技术属性】
技术研发人员:陈文波,李明洋,
申请(专利权)人:支付宝杭州信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。