页面隐藏文案识别方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:28321036 阅读:14 留言:0更新日期:2021-05-04 13:01
本申请涉及一种页面隐藏文案识别方法、装置、计算机设备和存储介质,所述方法包括:获取待识别页面;根据待识别页面的源代码,获得待识别页面包含的全量文案;对待识别页面的展示内容进行图像化处理,获得对应的展示图片;对展示图片进行文字识别,获得待识别页面包含的展示文案;基于全量文案与展示文案的差异,确定待识别页面是否包含隐藏文案。本申请提供的方案可以提高页面隐藏文案的识别效率和准确率。

【技术实现步骤摘要】
页面隐藏文案识别方法、装置、计算机设备和存储介质
本申请涉及计算机
,特别是涉及一种页面隐藏文案识别方法、装置、计算机设备和存储介质。
技术介绍
网络上的页面资源,除了包含通过页面展示出来的内容之外,可能还包含未展示的隐藏内容,这些隐藏内容在某些特定的情况下会显示出来,因此在引用页面资源时,有必要先识别出其中包含的隐藏内容。然而,目前通过人工识别页面隐藏内容的方式,存在效率低下、准确率不高的问题。
技术实现思路
基于此,有必要针对目前通过人工识别页面隐藏内容存在的效率低下、准确率不高的技术问题,提供一种页面隐藏文案识别方法、装置、计算机设备和存储介质。一种页面隐藏文案识别方法,所述方法包括:获取待识别页面;根据所述待识别页面的源代码,获得所述待识别页面包含的全量文案;对所述待识别页面的展示内容进行图像化处理,获得对应的展示图片;对所述展示图片进行文字识别,获得所述待识别页面包含的展示文案;基于所述全量文案与所述展示文案的差异,确定所述待识别页面是否包含隐藏文案。一种页面隐藏文案识别装置,所述装置包括:获取模块,用于获取待识别页面;源代码处理模块,用于根据所述待识别页面的源代码,获得所述待识别页面包含的全量文案;图像化处理模块,用于对所述待识别页面的展示内容进行图像化处理,获得对应的展示图片;文字识别模块,用于对所述展示图片进行文字识别,获得所述待识别页面包含的展示文案;确定模块,用于基于所述全量文案与所述展示文案的差异,确定所述待识别页面是否包含隐藏文案。一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行以下步骤:获取待识别页面;根据所述待识别页面的源代码,获得所述待识别页面包含的全量文案;对所述待识别页面的展示内容进行图像化处理,获得对应的展示图片;对所述展示图片进行文字识别,获得所述待识别页面包含的展示文案;基于所述全量文案与所述展示文案的差异,确定所述待识别页面是否包含隐藏文案。一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行以下步骤:获取待识别页面;根据所述待识别页面的源代码,获得所述待识别页面包含的全量文案;对所述待识别页面的展示内容进行图像化处理,获得对应的展示图片;对所述展示图片进行文字识别,获得所述待识别页面包含的展示文案;基于所述全量文案与所述展示文案的差异,确定所述待识别页面是否包含隐藏文案。上述页面隐藏文案识别方法、装置、计算机设备和计算机可读存储介质,对待识别页面的展示内容进行图像化处理,再对图像化处理后得到的图片进行文字识别,获得页面展示出来的展示文案,通过图片文字识别的方式可以批量快速地获得展示文案,然后根据展示文案与全量文案的差异,确定页面是否包含隐藏文案,无需人工一步步根据文档结构查看页面是否有未显示的内容,从而可以减少人为工作量以及人为失误引起的问题,提高页面隐藏文案的识别效率和准确率。附图说明图1为一个实施例中页面隐藏文案识别方法的应用环境图;图2为一个实施例中页面隐藏文案识别方法的流程示意图;图3为一个实施例中页面隐藏文案识别方法的流程示意图;图4为一个实施例中页面隐藏文案识别装置的结构框图;图5为一个实施例中计算机设备的结构框图;图6为一个实施例中计算机设备的结构框图。具体实施方式为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。图1为一个实施例中页面隐藏文案识别方法的应用环境图。如图1所示,该应用环境涉及用户终端110和服务器120,用户终端110和服务器120通过网络连接。用户可以通过用户终端110访问内容分享平台,服务器120可以是该内容分享平台所在的服务器。终端110或者服务器120,可以获取网络上的页面资源,并识别页面中是否包含隐藏文案。终端110具体可以是台式终端或移动终端,移动终端具体可以手机、平板电脑、笔记本电脑等中的至少一种。服务器120可以用独立的服务器或者是多个服务器组成的服务器集群来实现。如图2所示,在一个实施例中,提供了一种页面隐藏文案识别方法。本实施例主要以该方法应用于上述图1中的终端110或者服务器120来举例说明。参照图2,该页面隐藏文案识别方法具体包括如下步骤S202至步骤S210。S202,获取待识别页面。其中,待识别页面可以是HTML(超级文本标记语言)页面,HTML页面包含的隐藏内容可以通过CSS(层叠样式表)隐藏起来。具体地,可以通过待识别页面的网络地址,例如URL(统一资源定位符),获取待识别页面。S204,根据待识别页面的源代码,获得待识别页面包含的全量文案。其中,待识别页面的源代码记载了待识别页面包含的所有内容。具体地,可以使用innerText获得源代码中记载的所有文本内容,即获得待识别页面包含的全量文案,这里的全量文案不仅包括待识别页面展示出来的文案,在待识别页面有隐藏文案的情况下,还包括隐藏的文案。S206,对待识别页面的展示内容进行图像化处理,获得对应的展示图片。其中,待识别页面的展示内容可以是通过网页浏览器打开待识别页面后,显示出来的能够被直接看到的内容。展示图片是图片格式的展示内容,包含展示内容相应的信息。具体地,可以采用任何可能的方式进行图像化处理,例如网页截图,在此不做限定。S208,对展示图片进行文字识别,获得待识别页面包含的展示文案。其中,展示文案对应展示图片中的文字内容,即对应待识别页面的展示内容中的文字展示内容。具体地,可以采用任何可能的方式进行图片文字识别,例如OCR(光学字符识别),在此不做限定。S210,基于全量文案与展示文案的差异,确定待识别页面是否包含隐藏文案。具体地,全量文案对应待识别页面的全部文案,展示文案对应待识别页面展示出来的文案,全量文案与展示文案的差异,可以用来作为判断待识别页面是否包含隐藏文案的依据。上述页面隐藏文案识别方法,对待识别页面的展示内容进行图像化处理,再对图像化处理后得到的图片进行文字识别,获得页面展示出来的展示文案,通过图片文字识别的方式可以批量快速地获得展示文案,然后根据展示文案与全量文案的差异,确定页面是否包含隐藏文案,无需人工一步步根据文档结构查看页面是否有未显示的内容,从而可以减少人为工作量以及人为失误引起的问题,提高页面隐藏文案的识别效率和准确率。在一个实施例中,对待识别页面的展示内容进行截图,获得对应的展示图片。具体地,可以采用开源的项目puppeteer,直接展示待识别页面并截图,如果页面是可滚动页面,截图截取的不仅仅是页面当前可视内容,本文档来自技高网...

【技术保护点】
1.一种页面隐藏文案识别方法,包括:/n获取待识别页面;/n根据所述待识别页面的源代码,获得所述待识别页面包含的全量文案;/n对所述待识别页面的展示内容进行图像化处理,获得对应的展示图片;/n对所述展示图片进行文字识别,获得所述待识别页面包含的展示文案;/n基于所述全量文案与所述展示文案的差异,确定所述待识别页面是否包含隐藏文案。/n

【技术特征摘要】
1.一种页面隐藏文案识别方法,包括:
获取待识别页面;
根据所述待识别页面的源代码,获得所述待识别页面包含的全量文案;
对所述待识别页面的展示内容进行图像化处理,获得对应的展示图片;
对所述展示图片进行文字识别,获得所述待识别页面包含的展示文案;
基于所述全量文案与所述展示文案的差异,确定所述待识别页面是否包含隐藏文案。


2.根据权利要求1所述的方法,其特征在于,所述对所述待识别页面的展示内容进行图像化处理,获得对应的展示图片,包括:
对所述待识别页面的展示内容进行截图,获得对应的展示图片。


3.根据权利要求2所述的方法,其特征在于,所述对所述待识别页面的展示内容进行截图,获得对应的展示图片,包括:
对所述待识别页面的展示内容中包含的非文字展示内容进行过滤,得到文字展示内容;
对所述文字展示内容进行截图,获得对应的展示图片。


4.根据权利要求1至3中任一项所述的方法,其特征在于,所述基于所述全量文案与所述展示文案的差异,确定所述待识别页面是否包含隐藏文案,包括:
比较所述全量文案和所述展示文案,获得差异化文案;
根据所述差异化文案,确定所述待识别页面是否包含隐藏文案。


5.根据权利要求4所述的方法,其特征在于,所述根据所述差异化文案,确定所述待识别页面是否包含隐藏文案,包括:
对所述差异化文案中包含的标点符号进行剔除,得到清理后的差异化文案;
根据所述清理后的差异化文案、以及所述展示文案,确定所述待识别页面是否包含隐藏文案。


6.根据权利要求5所述的方法,其特征在于...

【专利技术属性】
技术研发人员:何桃
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1