页面隐藏文案识别方法、装置、计算机设备和存储介质制造方法及图纸

技术编号：28321036 阅读：14 留言：0更新日期：2021-05-04 13:01

本申请涉及一种页面隐藏文案识别方法、装置、计算机设备和存储介质，所述方法包括：获取待识别页面；根据待识别页面的源代码，获得待识别页面包含的全量文案；对待识别页面的展示内容进行图像化处理，获得对应的展示图片；对展示图片进行文字识别，获得待识别页面包含的展示文案；基于全量文案与展示文案的差异，确定待识别页面是否包含隐藏文案。本申请提供的方案可以提高页面隐藏文案的识别效率和准确率。

全部详细技术资料下载

【技术实现步骤摘要】
页面隐藏文案识别方法、装置、计算机设备和存储介质
本申请涉及计算机
，特别是涉及一种页面隐藏文案识别方法、装置、计算机设备和存储介质。
技术介绍
网络上的页面资源，除了包含通过页面展示出来的内容之外，可能还包含未展示的隐藏内容，这些隐藏内容在某些特定的情况下会显示出来，因此在引用页面资源时，有必要先识别出其中包含的隐藏内容。然而，目前通过人工识别页面隐藏内容的方式，存在效率低下、准确率不高的问题。
技术实现思路
基于此，有必要针对目前通过人工识别页面隐藏内容存在的效率低下、准确率不高的技术问题，提供一种页面隐藏文案识别方法、装置、计算机设备和存储介质。一种页面隐藏文案识别方法，所述方法包括：获取待识别页面；根据所述待识别页面的源代码，获得所述待识别页面包含的全量文案；对所述待识别页面的展示内容进行图像化处理，获得对应的展示图片；对所述展示图片进行文字识别，获得所述待识别页面包含的展示文案；基于所述全量文案与所述展示文案的差异，确定所述待识别页面是否包含隐藏文案。一种页面隐藏文案识别装置，所述装置包括：获取模块，用于获取待识别页面；源代码处理模块，用于根据所述待识别页面的源代码，获得所述待识别页面包含的全量文案；图像化处理模块，用于对所述待识别页面的展示内容进行图像化处理，获得对应的展示图片；文字识别模块，用于对所述展示图片进行文字识别，获得所述待识别页面包含的展示文案；确定模块，用于基于所...

【技术保护点】
1.一种页面隐藏文案识别方法，包括：/n获取待识别页面；/n根据所述待识别页面的源代码，获得所述待识别页面包含的全量文案；/n对所述待识别页面的展示内容进行图像化处理，获得对应的展示图片；/n对所述展示图片进行文字识别，获得所述待识别页面包含的展示文案；/n基于所述全量文案与所述展示文案的差异，确定所述待识别页面是否包含隐藏文案。/n

【技术特征摘要】
1.一种页面隐藏文案识别方法，包括：
获取待识别页面；
根据所述待识别页面的源代码，获得所述待识别页面包含的全量文案；
对所述待识别页面的展示内容进行图像化处理，获得对应的展示图片；
对所述展示图片进行文字识别，获得所述待识别页面包含的展示文案；
基于所述全量文案与所述展示文案的差异，确定所述待识别页面是否包含隐藏文案。

2.根据权利要求1所述的方法，其特征在于，所述对所述待识别页面的展示内容进行图像化处理，获得对应的展示图片，包括：
对所述待识别页面的展示内容进行截图，获得对应的展示图片。

3.根据权利要求2所述的方法，其特征在于，所述对所述待识别页面的展示内容进行截图，获得对应的展示图片，包括：
对所述待识别页面的展示内容中包含的非文字展示内容进行过滤，得到文字展示内容；
对所述文字展示内容进行截图，获得对应的展示图片。

4.根据权利要求1至3中任一项所述的方法，其特征在于，所述基于所述全量文案与所述展示文案的差异，确定所述待识别页面是否包含隐藏文案，包括：
比较所述全量文案和所述展示文案，获得差异化文案；
根据所述差异化文案，确定所述待识别页面是否包含隐藏文案。

5.根据权利要求4所述的方法，其特征在于，所述根据所述差异化文案，确定所述待识别页面是否包含隐藏文案，包括：
对所述差异化文案中包含的标点符号进行剔除，得到清理后的差异化文案；
根据所述清理后的差异化文案、以及所述展示文案，确定所述待识别页面是否包含隐藏文案。

6.根据权利要求5所述的方法，其特征在于...

【专利技术属性】
技术研发人员：何桃，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人