一种基于DOM树的全类型文本替换方法、系统、装置及存储介质制造方法及图纸

技术编号：23288644 阅读：27 留言：0更新日期：2020-02-08 18:33

本发明专利技术提供了一种基于DOM树的全类型文本替换方法、系统、装置及存储介质，该方法包括：扫描网站的DOM树，获取网站的静态文件以及图片，由网站的静态文件中得到字体映射关系文件；将字体文件中每个字体单元进行转换为图片；对字体文件转换后的图片进行图像识别，获取图片内实际的文字，建立网站文字与实际文字的映射关系以及提取网站图片的内容；获取网站内的源码，将源码内的文字根据映射关系转换为实际文字，将网站图片进行预筛选，对网站的数据图片进行文本识别，提取图片内有效信息，从而做到全文本替换。本发明专利技术的有益效果是：本发明专利技术通过多线程将每个字体转换为图片格式，通过图像识别建立真实文字与源码文字的映射关系，进行大量训练文字识别模型，可以精确地获取网站显示的内容。

A method, system, device and storage medium of full type text replacement based on DOM tree

全部详细技术资料下载

【技术实现步骤摘要】
一种基于DOM树的全类型文本替换方法、系统、装置及存储介质
本专利技术涉及网络
，尤其涉及一种基于DOM树的全类型文本替换方法、系统、装置及存储介质。
技术介绍
随着科技的进步，网络已成为人们生活和工作的一部分，网站上图片中的文字等内容难于被提取，从而影响了数据的采集，给用户带来了很大的烦恼，亟待解决。目前，网站通过调用自定义的字体文件来渲染网页中的文字，而网页源码文字是相应的字体编码，通过获取网站源码的手段无法获取真实的数据，同时网站将文字转为图片，同时加设水印等干扰，增加数据采集难度。
技术实现思路
本专利技术提供了一种基于DOM树的全类型文本替换方法，包括如下步骤：步骤1：扫描网站的DOM树，获取网站的静态文件以及图片，由网站的静态文件中得到字体映射关系文件；步骤2：将字体文件中每个字体单元进行转换为图片；步骤3：对字体文件转换后的图片进行图像识别，获取图片内实际的文字，建立网站文字与实际文字的映射关系以及提取网站图片的内容；步骤4：获取网站内的源码，将源码内的文字根据步骤3的映射关系转换为实际文字，将网站图片进行预筛选，过滤网站无用的图片，对网站的数据图片进行文本识别，提取图片内有效信息，从而做到全文本替换。作为本专利技术的进一步改进，在所述步骤1中，扫描网站的DOM树，获取网站的静态文件以及图片，由网站的静态文件中得到svg格式的字体映射关系文件；在所述步骤2中，将字体文件中每个字体单元进行转换为png格式图片。>作为本专利技术的进一步改进，在所述步骤4中，获取网站内的源码，将源码内的文字根据步骤3的映射关系转换为实际文字，将网站图片进行预筛选，通过图像模糊搜索过滤网站无用的图片，对网站的数据图片进行文本识别，提取图片内有效信息，从而做到全文本替换；在所述步骤3中，通过对字体文件转换后的图片进行预处理，利用深度学习识别出图像文件对应字体库的文字，获取相似度最高的文字，再进行多轮学习优化，从而获取图片内实际的文字，建立网站文字与实际文字的映射关系以及提取网站图片的内容；在所述步骤4中，对网站的数据图片进行文本识别，提取图片内有效信息的实现方式为：对网站图片进行预处理，通过对网站的图片进行文本识别，当该图片内文字与图片大小之比超过设定阈值，那么判断该图片为数据图片，通过对数据图片进行预处理，去除存在的无关元素，对数据图片的文字进行分析，若该文字透明度与平均文字透明度之比超过设定阈值，那么判断该文字是非重要文字，过滤掉该文字。作为本专利技术的进一步改进，该全类型文本替换方法还包括步骤5：设置定时器，定时执行步骤1；在所述步骤1中，将静态文件和字体映射关系文件传输保存至OSS服务器；在所述步骤3中，所述无关元素包括水印以及干扰线条；在所述步骤3中，对字体文件转换后的图片的预处理包括对图像文字进行提取文字区域、灰度化、降噪、二值化、字符切分以及归一化处理；在所述步骤4中，对网站图片的预处理包括：步骤4.1：对文字图片进行图像颜色融合，将彩色图片变成灰度图，在文字图片的RGB模型中，根据相关性及其它指标，将R、G、B三个分量以不同的权值进行加权平均；步骤4.2：利用OTSU最大类间方差法进行平滑图像；步骤4.3：对图像进行降维处理，消除图像的上的噪声；步骤4.4：字体进行倾斜矫正；步骤4.5：对黏连字体进行切割，对断字进行拼接；步骤4.5的实现方式为：对字符图像送入卷积网络提取特征值，得到n个向量，然后把n个向量送入到LSTM网络中；得到m维向量，通过一个优化的softmax函数来计算对应位置字体；优化的函数是指在softmax函数后乘以一个滤波器Ω。本专利技术还公开了一种基于DOM树的全类型文本替换系统，包括：扫描模块：用于扫描网站的DOM树，获取网站的静态文件以及图片，由网站的静态文件中得到字体映射关系文件；转换模块：用于将字体文件中每个字体单元进行转换为图片；识别模块：用于对字体文件转换后的图片进行图像识别，获取图片内实际的文字，建立网站文字与实际文字的映射关系以及提取网站图片的内容；处理模块：用于获取网站内的源码，将源码内的文字根据识别模块的映射关系转换为实际文字，将网站图片进行预筛选，过滤网站无用的图片，对网站的数据图片进行文本识别，提取图片内有效信息，从而做到全文本替换。作为本专利技术的进一步改进，在所述扫描模块中，扫描网站的DOM树，获取网站的静态文件以及图片，由网站的静态文件中得到svg格式的字体映射关系文件；在所述转换模块中，将字体文件中每个字体单元进行转换为png格式图片。作为本专利技术的进一步改进，在所述处理模块中，获取网站内的源码，将源码内的文字根据识别模块的映射关系转换为实际文字，将网站图片进行预筛选，通过图像模糊搜索过滤网站无用的图片，对网站的数据图片进行文本识别，提取图片内有效信息，从而做到全文本替换；在所述识别模块中，通过对字体文件转换后的图片进行预处理，利用深度学习识别出图像文件对应字体库的文字，获取相似度最高的文字，再进行多轮学习优化，从而获取图片内实际的文字，建立网站文字与实际文字的映射关系以及提取网站图片的内容；在所述处理模块中，对网站的数据图片进行文本识别，提取图片内有效信息的实现方式为：对网站图片进行预处理，通过对网站的图片进行文本识别，当该图片内文字与图片大小之比超过设定阈值，那么判断该图片为数据图片，通过对数据图片进行预处理，去除存在的无关元素，对数据图片的文字进行分析，若该文字透明度与平均文字透明度之比超过设定阈值，那么判断该文字是非重要文字，过滤掉该文字。作为本专利技术的进一步改进，该全类型文本替换系统还包括定时模块：用于设置定时器，定时执行扫描模块1；将所述扫描模块中的静态文件和字体映射关系文件传输保存至OSS服务器；在所述识别模块中，所述无关元素包括水印以及干扰线条；在所述识别模块中，对字体文件转换后的图片的预处理包括对图像文字进行提取文字区域、灰度化、降噪、二值化、字符切分以及归一化处理；在所述处理模块中，通过第一处理模块至第五处理模块对网站图片的预处理，第一处理模块：用于对文字图片进行图像颜色融合，将彩色图片变成灰度图，在文字图片的RGB模型中，根据相关性及其它指标，将R、G、B三个分量以不同的权值进行加权平均；第二处理模块：用于利用OTSU最大类间方差法进行平滑图像；第三处理模块：用于对图像进行降维处理，消除图像的上的噪声；第四处理模块：用于字体进行倾斜矫正；第五处理模块：用于对黏连字体进行切割，对断字进行拼接；其中，第五处理模块的实现方式为：对字符图像送入卷积网络提取特征值，得到n个向量，然后把n个向量送入到LSTM网络中；得到m维向量，通过一个优化的softmax函数来计算对应位置字体；优化的函数是指在softmax函数后乘以一个滤波器Ω。本专利技术还提供本文档来自技高网...

【技术保护点】
1.一种基于DOM树的全类型文本替换方法，其特征在于，包括如下步骤：/n步骤1：扫描网站的DOM树，获取网站的静态文件以及图片，由网站的静态文件中得到字体映射关系文件；/n步骤2：将字体文件中每个字体单元进行转换为图片；/n步骤3：对字体文件转换后的图片进行图像识别，获取图片内实际的文字，建立网站文字与实际文字的映射关系以及提取网站图片的内容；/n步骤4：获取网站内的源码，将源码内的文字根据步骤3的映射关系转换为实际文字，将网站图片进行预筛选，过滤网站无用的图片，对网站的数据图片进行文本识别，提取图片内有效信息，从而做到全文本替换。/n

【技术特征摘要】
1.一种基于DOM树的全类型文本替换方法，其特征在于，包括如下步骤：
步骤1：扫描网站的DOM树，获取网站的静态文件以及图片，由网站的静态文件中得到字体映射关系文件；
步骤2：将字体文件中每个字体单元进行转换为图片；
步骤3：对字体文件转换后的图片进行图像识别，获取图片内实际的文字，建立网站文字与实际文字的映射关系以及提取网站图片的内容；
步骤4：获取网站内的源码，将源码内的文字根据步骤3的映射关系转换为实际文字，将网站图片进行预筛选，过滤网站无用的图片，对网站的数据图片进行文本识别，提取图片内有效信息，从而做到全文本替换。

2.根据权利要求1所述的全类型文本替换方法，其特征在于：
在所述步骤1中，扫描网站的DOM树，获取网站的静态文件以及图片，由网站的静态文件中得到svg格式的字体映射关系文件；
在所述步骤2中，将字体文件中每个字体单元进行转换为png格式图片。

3.根据权利要求1所述的全类型文本替换方法，其特征在于，在所述步骤4中，获取网站内的源码，将源码内的文字根据步骤3的映射关系转换为实际文字，将网站图片进行预筛选，通过图像模糊搜索过滤网站无用的图片，对网站的数据图片进行文本识别，提取图片内有效信息，从而做到全文本替换；
在所述步骤3中，通过对字体文件转换后的图片进行预处理，利用深度学习识别出图像文件对应字体库的文字，获取相似度最高的文字，再进行多轮学习优化，从而获取图片内实际的文字，建立网站文字与实际文字的映射关系以及提取网站图片的内容；
在所述步骤4中，对网站的数据图片进行文本识别，提取图片内有效信息的实现方式为：对网站图片进行预处理，通过对网站的图片进行文本识别，当该图片内文字与图片大小之比超过设定阈值，那么判断该图片为数据图片，通过对数据图片进行预处理，去除存在的无关元素，对数据图片的文字进行分析，若该文字透明度与平均文字透明度之比超过设定阈值，那么判断该文字是非重要文字，过滤掉该文字。

4.根据权利要求3所述的全类型文本替换方法，其特征在于，该全类型文本替换方法还包括步骤5：设置定时器，定时执行步骤1；
在所述步骤1中，将静态文件和字体映射关系文件传输保存至OSS服务器；
在所述步骤3中，所述无关元素包括水印以及干扰线条；
在所述步骤3中，对字体文件转换后的图片的预处理包括对图像文字进行提取文字区域、灰度化、降噪、二值化、字符切分以及归一化处理；
在所述步骤4中，对网站图片的预处理包括：
步骤4.1：对文字图片进行图像颜色融合，将彩色图片变成灰度图，在文字图片的RGB模型中，根据相关性及其它指标，将R、G、B三个分量以不同的权值进行加权平均；
步骤4.2：利用OTSU最大类间方差法进行平滑图像；
步骤4.3：对图像进行降维处理，消除图像的上的噪声；
步骤4.4：字体进行倾斜矫正；
步骤4.5：对黏连字体进行切割，对断字进行拼接；
步骤4.5的实现方式为：对字符图像送入卷积网络提取特征值，得到n个向量，然后把n个向量送入到LSTM网络中；得到m维向量，通过一个优化的softmax函数来计算对应位置字体；优化的函数是指在softmax函数后乘以一个滤波器Ω。

5.一种基于DOM树的全类型文本替换系统，其特征在于，包括：
扫描模块：用于扫描网站的DOM树，获取网站的静态文件以及图片，由网站的静态文件中得到字体映射关系文件；
转换模块：用于将字体文件中每个字体单元进行转换为图片；
识别模块：用于对...

【专利技术属性】
技术研发人员：杜卫红，谢立欧，蒋立民，郑永乐，詹锦州，
申请(专利权)人：深圳市比一比网络科技有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人