应用程序页面文字的行业分类方法、存储介质及终端设备技术

技术编号:21061048 阅读:22 留言:0更新日期:2019-05-08 07:27
本发明专利技术公开了一种应用程序页面文字的行业分类方法、存储介质及终端设备,其特征在于,其包括:获取各应用程序的主页面,并提取各主页面携带的文字信息;根据各主页面携带文字信息确定各应用程序对应的应用主题;将所述应用主题与预设的行业类别进行映射,以对各应用程序进行行业分类。这样,通过获取到各应用程序主页面的文字信息,再对各应用程序主页面的文字信息建立主题,以对各应用程序进行分组,从而实现了应用程序的行业分类。

【技术实现步骤摘要】
应用程序页面文字的行业分类方法、存储介质及终端设备
本专利技术涉及智能终端
,特别涉及一种应用程序页面文字的行业分类方法、存储介质及终端设备。
技术介绍
目前APP(应用程序)市场上存在很多的APP,据不完全统计,APP的数据有接近500万款,在这些APP中,有些APP为关键行业APP,这些关键行业的APP里面包含着核心数据,有严格的行业以及国家标准要求,从国家层面有对其进行分行业监管的要求。要对APP进行监管,最基本的一个基础工作是要对APP应用市场上的APP进行行业分类,虽然各大APP应用市场上都对APP有一个分类,但存在分类与国家的行业分类不一致的问题,而应用商店的分类更偏向于功能分类,而不是行业分类。当前还需要人工一个个安装运行APP,然后再判定所属行业,效率极低。因而现有技术还有待改进和提高。
技术实现思路
本专利技术要解决的技术问题在于,针对现有技术的不足,提供一种应用程序页面文字的行业分类方法、存储介质及终端设备,以解决现有技术中仍需要人工安装运行各APP,然后再判定所属行业,效率低的问题。为了解决上述技术问题,本专利技术所采用的技术方案如下:一种应用程序页面文字的行业分类方法,其包括:获取各应用程序的主页面,并提取各主页面携带的文字信息;根据各主页面携带文字信息确定各应用程序对应的应用主题;将所述应用主题与预设的行业类别进行映射,以对各应用程序进行行业分类。所述应用程序页面文字的行业分类方法,其中,所述获取各应用程序的主页面,并提取各主页面携带的文字信息具体包括:获取各应用程序的主页面截图;通过文字识别技术对各主页面截图进行识别,以得到各主页面携带的文字信息。所述应用程序页面文字的行业分类方法,其中,所述通过文字识别技术对各主页面截图进行识别,以得到各主页面携带的文字信息具体包括:通过光学文字识别技术来识别各应用程序的主页面截图上的文字内容;筛选所述文字内容包含的中文字符,并将筛选到的中文字符作为各应用程序的各主页面携带的文字信息。所述应用程序页面文字的行业分类方法,其中,所述获取各应用程序的主页面截图具体包括:获取各应用程序的主页面截图以及各应用程序的包名;将各应用程序的主页面截图存储为jpeg文件,其中,所述jpeg文件以其对应的应用程序的包名为名称。所述应用程序页面文字的行业分类方法,其中,所述将所述应用程序的主题与预设的行业类别进行映射,以对所述应用程序进行行业分类之前还包括:预先设定应用程序的应用主题与行业类别之间的映射关系。所述应用程序页面文字的行业分类方法,其中,所述将所述应用主题与预设的行业类别进行映射,以对各应用程序进行行业分类具体包括:根据预先设定的映射关系将所述应用程序的应用主题与预设的行业类别进行映射;根据映射结果在所述应用程序数据库中为所述应用程序增设行业项,以对所述应用程序进行行业分类。所述应用程序页面文字的行业分类方法,其中,所述预先设定应用程序的应用主题与行业类别之间的映射关系具体包括:根据应用程序的应用主题确定所述应用程序的属性,并根据所述应用程序的属性确定所述应用程序所属的行业类别;将所述行业类别作为应用主题所属的行业类型,以建立应用主题与行业类别之间的映射关系。所述应用程序页面文字的行业分类方法,其中,所述根据各主页面携带文字信息确定各应用程序对应的应用主题具体包括:预先设置若干应用主题,并根据LDA算法以及应用程序主页面携带文字信息计算各应用程序在各应用主题下的分布概率;取各应用程序对应的最高分布概率,并将所述最高分布概率对应的应用主题设定为所述应用程序的应用主题。一种计算机可读存储介质,其中,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如上任意一项所述的应用程序页面文字的行业分类方法中的步骤。一种终端设备,其中,包括:处理器和存储器;所述存储器上存储有可被所述处理器执行的计算机可读程序;所述处理器执行所述计算机可读程序时实现如上任意一项所述的应用程序页面文字的行业分类方法中的步骤。有益效果:与现有技术相比,本专利技术提供了一种应用程序页面文字的行业分类方法、存储介质及终端设备,所述方法包括:获取各应用程序的主页面,并提取各主页面携带的文字信息;根据各主页面携带文字信息确定各应用程序对应的应用主题;将所述应用主题与预设的行业类别进行映射,以对各应用程序进行行业分类。这样,通过获取到各应用程序主页面的文字信息,再对各应用程序主页面的文字信息建立主题,以对各应用程序进行分组,从而实现了应用程序的行业分类。附图说明图1为本专利技术提供的一种应用程序页面文字的行业分类方法较佳实施例的流程图。图2为本专利技术提供的一种应用程序页面文字的行业分类方法中步骤S100的具体流程图。图3为本专利技术提供的一种应用程序页面文字的行业分类方法中步骤S200的具体流程图。图4为本专利技术提供的一种应用程序页面文字的行业分类方法中步骤S300较佳实施例的流程图。图5为本专利技术提供的终端设备较佳实施例的结构原理图。具体实施方式本专利技术提供一种应用程序页面文字的行业分类方法、存储介质及终端设备,为使本专利技术的目的、技术方案及效果更加清楚、明确,以下参照附图并举实施例对本专利技术进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本专利技术,并不用于限定本专利技术。本
技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本专利技术的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。本
技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本专利技术所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。应用程序页面中包含了应用程序的主要信息,人工分类也是通常在运行应用程序的过程中浏览应用程序的页面,通过页面文字信息来判断应用程序的功能以及所属行业,特别是主页面,包含了应用程序的绝大部分功能和信息,因此由主页面的文字信息也就基本能判断出应用程序的所属行业。因此,本专利技术通过将应用程序自动运行,获取应用程序的主页面,并提取各主页面携带的文字信息,再将这些文字信息作为机器学习的输入,从而可对应用程序的行业进行分类,极大的提高了应用程序行业分类的效率。下面结合附图,通过对实施例的描述,对
技术实现思路
作进一步说明。请参照图1,图1为本专利技术提供的一种应用程序页面文字的行业分类方法较佳实施例的流程图。所述方法包括:S100、获取各应用程序的主页面,并提取各主页面携带的文字信息。具体地,通过获取各应用程序的主页面所携带的文字信息,进而根据各应用程序的本文档来自技高网
...

【技术保护点】
1.一种应用程序页面文字的行业分类方法,其特征在于,其包括:获取各应用程序的主页面,并提取各主页面携带的文字信息;根据各主页面携带文字信息确定各应用程序对应的应用主题;将所述应用主题与预设的行业类别进行映射,以对各应用程序进行行业分类。

【技术特征摘要】
1.一种应用程序页面文字的行业分类方法,其特征在于,其包括:获取各应用程序的主页面,并提取各主页面携带的文字信息;根据各主页面携带文字信息确定各应用程序对应的应用主题;将所述应用主题与预设的行业类别进行映射,以对各应用程序进行行业分类。2.根据权利要求1所述应用程序页面文字的行业分类方法,其特征在于,所述获取各应用程序的主页面,并提取各主页面携带的文字信息具体包括:获取各应用程序的主页面截图;通过文字识别技术对各主页面截图进行识别,以得到各主页面携带的文字信息。3.根据权利要求2所述应用程序页面文字的行业分类方法,其特征在于,所述通过文字识别技术对各主页面截图进行识别,以得到各主页面携带的文字信息具体包括:通过光学文字识别技术来识别各应用程序的主页面截图上的文字内容;筛选所述文字内容包含的中文字符,并将筛选到的中文字符作为各应用程序的各主页面携带的文字信息。4.根据权利要求1所述应用程序页面文字的行业分类方法,其特征在于,所述获取各应用程序的主页面截图具体包括:获取各应用程序的主页面截图以及各应用程序的包名;将各应用程序的主页面截图存储为jpeg文件,其中,所述jpeg文件以其对应的应用程序的包名为名称。5.根据权利要求1所述应用程序页面文字的行业分类方法,其特征在于,所述将所述应用程序的主题与预设的行业类别进行映射,以对所述应用程序进行行业分类之前还包括:预先设定应用程序的应用主题与行业类别之间的映射关系。6.根据权利要求5所述应用程序页面文字的行业分类方法,其特征在于,所述将所述应...

【专利技术属性】
技术研发人员:廖兴龙
申请(专利权)人:北京智游网安科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1