当前位置: 首页 > 专利查询>深圳大学专利>正文

一种基于OCR和迁移学习的APP违规监测方法技术

技术编号:26764487 阅读:13 留言:0更新日期:2020-12-18 23:39
本发明专利技术公开了一种基于OCR和迁移学习的APP违规监测方法,所述方法包括:定期更新APK,根据更新后的APK进行对应APP的数据采集,所述数据采集包括数据抓包和页面截图;基于OCR算法对截图进行文字识别及提取;对识别后的文字内容,通过关键字及正则表达式进行样本集构建,并进行人工标注;将人工标注后的样本集输入预训练的深度学习模型进行模型调整,通过划分业务场景实现不同场景下文本的违规判别;根据所述深度学习模型输出的判别结果,对不同APP的得分进行统计,得出APP的违规得分。本发明专利技术通过对APP的数据进行采集和分析,有效、快速检测出APP的违规使用情况。

【技术实现步骤摘要】
一种基于OCR和迁移学习的APP违规监测方法
本专利技术涉及数据监控
,尤其涉及一种基于OCR和迁移学习的APP违规监测方法。
技术介绍
通过对海量网络舆论信息进行实时的自动舆情采集,舆情分析,舆情汇总,舆情监视,并识别其中的关键舆情信息,及时通知到相关人员,从而第一时间应急响应,为正确舆论导向及收集网友意见提供直接支持的一套信息化平台。但是,只针对舆情数据进行采集,无法针对特殊的内容进行检测;并且一般只针对网站数据进行检测,没有对移动端数据进行检测。根据用户自定义的任务配置,批量而精确地抽取因特网目标网页中的半结构化与非结构化数据,转化为结构化的记录,保存在本地数据库中,用于内部使用或外网发布,快速实现外部信息的获取。但是,一般只针对网络数据进行采集,没有办法采集移动端APP的数据;并且网站具有其不同的复杂性及反爬措施,数据爬取的成功率无法保证。短文本分类模型指的是不超过200字的文本形式,如微博、聊天信息、新闻主题、观点评论、问题文本、手机短信、文献摘要等。短文本分类任务的目的是自动对用户输入的短文本进行处理,得到有价值的分类输出。但是,短文本分类模型为有监督学习,往往需要海量的数据作为支撑,需要大量的人工标注工作量。也就是说,现有技术中无法快速、有效获取目标信息,例如某种信息违规监测所需的数据无从获取;若APP具备一定的反爬措施,将无法使用爬虫进行数据爬取;目标信息宣传包含大量图片,无法对图片格式的数据进行处理;某种信息违规监测的数据样本不足,即使获取了网络数据,也需要大量人工标注;有监督的深度学习模型需要海量的训练数据,想要获得良好的效果,还需要大量的机器资源进行训练;对某种信息违规监测缺乏数据查看与比较的平台。因此,现有技术还有待于改进和发展。
技术实现思路
本专利技术的主要目的在于提供一种基于OCR和迁移学习的APP违规监测方法,旨在解决现有技术中无法快速、有效获取目标信息的问题。为实现上述目的,本专利技术提供一种基于OCR和迁移学习的APP违规监测方法,所述基于OCR和迁移学习的APP违规监测方法包括如下步骤:定期更新APK,根据更新后的APK进行对应APP的数据采集,所述数据采集包括数据抓包和页面截图;基于OCR算法对截图进行文字识别及提取;对识别后的文字内容,通过关键字及正则表达式进行样本集构建,并进行人工标注;将人工标注后的样本集输入预训练的深度学习模型进行模型调整,通过划分业务场景实现不同场景下文本的违规判别;根据所述深度学习模型输出的判别结果,对不同APP的得分进行统计,得出APP的违规得分。可选地,所述的基于OCR和迁移学习的APP违规监测方法,其中,所述定期更新APK,根据更新后的APK进行对应APP的数据采,具体包括:基于Java并借助Jsoup库爬取各应用的APK,并对应用商店APK进行定期更新,依据更新后的APK进行对应APP的数据采集。可选地,所述的基于OCR和迁移学习的APP违规监测方法,其中,所述数据采集的方式具体包括:使用爬虫直接进行宣传数据抓包和使用Appium脚本进行页面自动化截图。可选地,所述的基于OCR和迁移学习的APP违规监测方法,其中,所述将人工标注后的样本集输入预训练的深度学习模型进行模型调整,通过划分业务场景实现不同场景下文本的违规判别,之前还包括:构建用于监督所述深度学习模型的训练的语料库。可选地,所述的基于OCR和迁移学习的APP违规监测方法,其中,所述语料库的构建过程包括:获取多个关键词,对所述关键词进行匹配;构建基于关键词的训练语料,并人工进行标签标注,用于生成所述语料库。可选地,所述的基于OCR和迁移学习的APP违规监测方法,其中,所述对不同APP的得分进行统计,得出APP的违规得分,具体包括:所述APP的违规得分通过加权平均数得出:其中,表示加权平均数,f1~fk为每个维度违规项配置的权重,x1~xk为实际每个维度违规项的质检结果异常数,n表示维度总个数,不同维度表示不同违规场景。可选地,所述的基于OCR和迁移学习的APP违规监测方法,其中,所述根据所述深度学习模型输出的判别结果,对不同APP的得分进行统计,得出APP的违规得分,之后还包括:对所有任务设定定时启动任务。可选地,所述的基于OCR和迁移学习的APP违规监测方法,其中,所述任务包括:APP爬取定时任务、APP截图定时任务以及违规监测定时任务。此外,为实现上述目的,本专利技术还提供一种智能终端,其中,所述智能终端包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于OCR和迁移学习的APP违规监测程序,所述基于OCR和迁移学习的APP违规监测程序被所述处理器执行时实现如上所述的基于OCR和迁移学习的APP违规监测方法的步骤。此外,为实现上述目的,本专利技术还提供一种存储介质,其中,所述存储介质存储有基于OCR和迁移学习的APP违规监测程序,所述基于OCR和迁移学习的APP违规监测程序被处理器执行时实现如上所述的基于OCR和迁移学习的APP违规监测方法的步骤。本专利技术通过定期更新APK,根据更新后的APK进行对应APP的数据采集,所述数据采集包括数据抓包和页面截图;基于OCR算法对截图进行文字识别及提取;对识别后的文字内容,通过关键字及正则表达式进行样本集构建,并进行人工标注;将人工标注后的样本集输入预训练的深度学习模型进行模型调整,通过划分业务场景实现不同场景下文本的违规判别;根据所述深度学习模型输出的判别结果,对不同APP的得分进行统计,得出APP的违规得分。本专利技术通过对APP的数据进行采集和分析,有效、快速检测出APP的违规使用情况。附图说明图1是基于Client/Server架构的跨平台、多语言的移动端自动化测试框架的示意图;图2是预训练模型管理和迁移学习工具中PaddleHub架构的示意图;图3是CTPN算法流程图;图4是基于OCR和迁移学习的移动端的监控系统的框架示意图;图5是微服务架构的示意图;图6是本专利技术基于OCR和迁移学习的APP违规监测方法的较佳实施例的流程图;图7是本专利技术基于OCR和迁移学习的APP违规监测方法的较佳实施例的执行过程的示意图;图8是本专利技术基于OCR和迁移学习的APP违规监测方法的较佳实施例中进行截图时形成的配置路径表结构的示意图;图9是本专利技术基于OCR和迁移学习的APP违规监测方法的较佳实施例中实时监测APP宣传数据的监控功能的示意图;图10为本专利技术智能终端的较佳实施例的运行环境示意图。具体实施方式为使本专利技术的目的、技术方案及优点更加清楚、明确,以下参照附图并举实施例对本专利技术进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。Appium是一个基于Client/Server架构的跨平台、本文档来自技高网
...

【技术保护点】
1.一种基于OCR和迁移学习的APP违规监测方法,其特征在于,所述基于OCR和迁移学习的APP违规监测方法包括:/n定期更新APK,根据更新后的APK进行对应APP的数据采集,所述数据采集包括数据抓包和页面截图;/n基于OCR算法对截图进行文字识别及提取;/n对识别后的文字内容,通过关键字及正则表达式进行样本集构建,并进行人工标注;/n将人工标注后的样本集输入预训练的深度学习模型进行模型调整,通过划分业务场景实现不同场景下文本的违规判别;/n根据所述深度学习模型输出的判别结果,对不同APP的得分进行统计,得出APP的违规得分。/n

【技术特征摘要】
1.一种基于OCR和迁移学习的APP违规监测方法,其特征在于,所述基于OCR和迁移学习的APP违规监测方法包括:
定期更新APK,根据更新后的APK进行对应APP的数据采集,所述数据采集包括数据抓包和页面截图;
基于OCR算法对截图进行文字识别及提取;
对识别后的文字内容,通过关键字及正则表达式进行样本集构建,并进行人工标注;
将人工标注后的样本集输入预训练的深度学习模型进行模型调整,通过划分业务场景实现不同场景下文本的违规判别;
根据所述深度学习模型输出的判别结果,对不同APP的得分进行统计,得出APP的违规得分。


2.根据权利要求1所述的基于OCR和迁移学习的APP违规监测方法,其特征在于,所述定期更新APK,根据更新后的APK进行对应APP的数据采,具体包括:
基于Java并借助Jsoup库爬取各应用的APK,并对应用商店APK进行定期更新,依据更新后的APK进行对应APP的数据采集。


3.根据权利要求1所述的基于OCR和迁移学习的APP违规监测方法,其特征在于,所述数据采集的方式具体包括:使用爬虫直接进行宣传数据抓包和使用Appium脚本进行页面自动化截图。


4.根据权利要求1所述的基于OCR和迁移学习的APP违规监测方法,其特征在于,所述将人工标注后的样本集输入预训练的深度学习模型进行模型调整,通过划分业务场景实现不同场景下文本的违规判别,之前还包括:
构建用于监督所述深度学习模型的训练的语料库。


5.根据权利要求4所述的基于OCR和迁移学习的APP违规监测方法,其特征在于,所述语料库的构建过程包括:
获取多个关键...

【专利技术属性】
技术研发人员:蔡树彬明仲林旭恒吴东阳
申请(专利权)人:深圳大学
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1