System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种数据采集方法、装置、电子设备、芯片及介质制造方法及图纸_技高网

一种数据采集方法、装置、电子设备、芯片及介质制造方法及图纸

技术编号:40120881 阅读:5 留言:0更新日期:2024-01-23 20:38
本公开提供一种数据采集方法、装置、电子设备、芯片及介质,涉及计算机软件技术领域。该数据采集方法包括:获取所述终端中第一应用的第一界面,所述第一界面包括第一控件;通过解析所述第一界面的界面布局源文件,确定第一界面结构信息,所述第一界面结构信息用于确定所述第一控件的可信度;根据所述第一控件的可信度,从所述界面布局源文件中采集第一数据。通过本公开提供的技术方案,解决了相关技术在安卓应用页面中无法采集到有价值数据的问题,提高了数据采集的质量。

【技术实现步骤摘要】

本公开涉及大数据领域,尤其涉及一种数据采集方法、装置、电子设备、芯片及介质


技术介绍

1、当今,越来越多信息通过移动终端,尤其是安卓终端进行展示。其中包含了大量的数据可用于大数据分析和处理,有价值数据的采集显得非常重要。而相关技术中,通过应用(application,app)页面识别获取相应内容,该方法所采集的安卓应用页面的数据不准确、质量差。


技术实现思路

1、本公开提供一种数据采集方法、装置、电子设备、芯片及介质,以解决相关技术在安卓应用页面中无法采集到有价值数据的问题,通过终端中app页面识别出对应的页面结构;分析得到页面布局结构图;识别布局结构中的根节点下的内容,评估可靠度;可靠度较高节点下的信息进行采集。提升了页面信息的采集质量。

2、本公开的第一方面实施例提出了一种数据采集方法,应用于终端,终端具有第一运行环境,该方法包括:

3、获取终端中第一应用的第一界面,第一界面包括第一控件;

4、通过解析第一界面的界面布局源文件,确定第一界面结构信息,第一界面结构信息用于确定第一控件的可信度;

5、根据第一控件的可信度,从界面布局源文件中采集第一数据。

6、本公开的一种实施例中,通过解析第一界面的界面布局源文件,确定第一界面结构信息包括:

7、基于界面布局源文件,提取第一界面信息,第一界面信息包括第一控件的控件位置、大小、文本、图片、控件层级中的至少一项;

8、根据第一界面信息,确定第一界面结构信息。

9、本公开的一种实施例中,根据第一控件的可信度,从界面布局源文件中采集第一数据包括:

10、基于第一界面结构信息,通过递进式预处理策略,识别第一控件的第一属性信息,第一属性信息为第一界面信息中的部分信息;

11、根据第一控件的第一属性信息,确定第一控件的可信度;

12、若第一控件的可信度大于第一阈值,识别第二控件的第二属性信息,确定第二控件的可信度,第二控件为第一控件的子控件;

13、若第二控件的可信度大于或等于第二阈值,将第一属性信息以及第二属性信息中的文本和/或图像确定为第一数据;

14、若第二控件的可信度小于第二阈值,将第一属性信息中的文本和/或图像确定为第一数据。

15、本公开的一种实施例中,根据第一控件的第一属性信息,确定第一控件的可信度包括:

16、根据第一属性信息,确定第一控件的第一形状;

17、确定第一界面的中央位置;

18、判断第一控件的可视化程度是否达标;

19、若可视化程度达标,则根据第一形状和中央位置,确定第一控件的可信度。

20、本公开的一种实施例中,确定第一界面的中央位置包括:

21、若第一界面为静态页面,通过终端的屏幕尺寸和第一界面未在终端中显示的尺寸,确定中央位置;

22、若第一界面为动态页面,通过终端的屏幕尺寸、第一界面未在终端中显示的尺寸、以及第一界面中信息集中度的长宽调整系数,确定中央位置。

23、本公开的一种实施例中,判断第一控件的可视化程度是否达标包括:

24、确定第一控件中的字节数目在第一界面中所占的第一比例;

25、确定第一属性信息中的文本与第一控件的标签符号的第二比例;

26、若第一比例大于第三阈值且第二比例大于第四阈值,则第一控件的可视化程度达标。

27、本公开的一种实施例中,根据第一形状和中央位置,确定第一控件的可信度包括:

28、根据第一形状确定第一控件中第二控件的可视面积之和、第一控件的可视宽度;

29、根据中央位置确定屏幕可视面积、屏幕可视宽度、第二控件的类型数目;

30、基于第二控件的可视面积之和、第一控件的可视宽度、屏幕可视面积、屏幕可视宽度、第二控件的数目和第二控件的类型数目,确定第一控件的可信度。

31、本公开的一种实施例中,方法还包括:

32、基于第一属性信息,确定第一控件的可视面积;

33、若第一控件的可视面积大于或等于第五阈值,则根据第一界面结构中控件节点的可信度,从第一界面布局代码中采集第一数据。

34、本公开的第二方面实施例提出了一种数据采集装置,应用于终端,终端具有第一运行环境,该装置包括:

35、获取模块,用于获取终端中第一应用的第一界面,第一界面包括第一控件;

36、确定模块,用于通过解析第一界面的界面布局源文件,确定第一界面结构信息,第一界面结构信息用于确定第一控件的可信度;

37、采集模块,用于根据第一控件的可信度,从界面布局源文件中采集第一数据。

38、本公开的第三方面实施例提出了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行本公开第一方面实施例中任一项的方法。

39、本公开的第四方面实施例提出了一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,计算机指令用于使计算机执行本公开第一方面实施例中的方法。

40、本公开的第五方面实施例提出了一种计算机程序产品,其特征在于,包括计算机程序,计算机程序在被处理器执行时实现本公开第一方面实施例中任一项的方法。

41、本公开的第六方面实施例提出了一种芯片,包括至少一个处理器和通信接口;通信接口用于接收输入芯片的信号或从芯片输出的信号,处理器与通信接口通信且通过逻辑电路或执行代码指令实现本公开第一方面实施例中任一项的方法。

42、综上,根据本公开提出的数据采集方法,获取终端中第一应用的第一界面,第一界面包括第一控件,为数据采集提供了数据来源;通过解析第一界面的界面布局源文件,确定第一界面结构信息,第一界面结构信息用于确定第一控件的可信度,完成了对采集的数据质量的评估;根据第一控件的可信度,从界面布局源文件中采集第一数据,从而采集到有价值的数据,提高了数据采集的质量。

43、应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。

本文档来自技高网...

【技术保护点】

1.一种数据采集方法,其特征在于,应用于终端,所述终端具有第一运行环境,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述通过解析所述第一界面的界面布局源文件,确定第一界面结构信息包括:

3.根据权利要求1所述的方法,其特征在于,所述根据所述第一控件的可信度,从所述界面布局源文件中采集第一数据包括:

4.根据权利要求3所述的方法,其特征在于,所述根据所述第一控件的第一属性信息,确定所述第一控件的可信度包括:

5.根据权利要求4所述的方法,其特征在于,所述确定所述第一界面的中央位置包括:

6.根据权利要求4所述的方法,其特征在于,所述判断所述第一控件的可视化程度是否达标包括:

7.根据权利要求4所述的方法,其特征在于,所述根据所述第一形状和所述中央位置,确定所述第一控件的可信度包括:

8.根据权利要求3-7任一项所述的方法,其特征在于,所述方法还包括:

9.一种数据采集装置,应用于终端,所述终端具有第一运行环境,所述装置包括:

10.一种电子设备,其特征在于,包括

11.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行根据权利要求1-8中任一项所述的方法。

12.一种计算机程序产品,其特征在于,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-8中任一项所述的方法。

13.一种芯片,其特征在于,包括至少一个处理器和通信接口;所述通信接口用于接收输入所述芯片的信号或从所述芯片输出的信号,所述处理器与所述通信接口通信且通过逻辑电路或执行代码指令实现根据权利要求1-8中任一项所述的方法。

...

【技术特征摘要】

1.一种数据采集方法,其特征在于,应用于终端,所述终端具有第一运行环境,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述通过解析所述第一界面的界面布局源文件,确定第一界面结构信息包括:

3.根据权利要求1所述的方法,其特征在于,所述根据所述第一控件的可信度,从所述界面布局源文件中采集第一数据包括:

4.根据权利要求3所述的方法,其特征在于,所述根据所述第一控件的第一属性信息,确定所述第一控件的可信度包括:

5.根据权利要求4所述的方法,其特征在于,所述确定所述第一界面的中央位置包括:

6.根据权利要求4所述的方法,其特征在于,所述判断所述第一控件的可视化程度是否达标包括:

7.根据权利要求4所述的方法,其特征在于,所述根据所述第一形状和所述中央位置,确定所述第一控件...

【专利技术属性】
技术研发人员:王轶刘婷
申请(专利权)人:中移苏州软件技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1