一种基于自然语言语义分析的文本识别方法技术

技术编号：25523127 阅读：52 留言：0更新日期：2020-09-04 17:13

本发明专利技术公开了一种基于自然语言语义分析的文本识别方法，该方法包括：采集待识别的文本；获取目标检测及识别网络，其中，所述目标检测及识别网络能够执行文本检测和文本识别任务；通过所述目标检测及识别网络对所述待识别文本进行文本检测及基于自然语言语义分析的文本识别。通过本发明专利技术的技术方案，能够将文本检测和文本识别结合起来，进而有效的降低文本识别时计算的消耗。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于自然语言语义分析的文本识别方法
本专利技术涉及文本识别
，特别涉及一种基于自然语言语义分析的文本识别方法。
技术介绍
文本识别主要是分为两个阶段，第一阶段是文本检测，首先利用文本检测技术定位到图片中文本所在的位置，然后框出文本，剪裁出文本区域；第二阶段是文本识别，对通过文本检测方法所剪裁好的文本区域进行识别，即得到识别文本框中所包含的文本。目前，对于文本识别中文本检测和文本识别之间的关联度很高，但是还没有很好的方式同时完成文本检测和文本识别，计算的消耗比较大。
技术实现思路
本专利技术提供一种基于自然语言语义分析的文本识别方法，所述技术方案如下：采集待识别的文本；获取目标检测及识别网络，其中，所述目标检测及识别网络能够执行文本检测和文本识别任务；通过所述目标检测及识别网络对所述待识别文本进行文本检测及基于自然语言语义分析的文本识别。在一个实施例中，所述采集待识别的文本，包括：利用预设工具获取目标图片；根据所述目标图片的图片格式进行格式转换，以得到格式转换后的目标图片；对所述格式转换后的目标图片进行句子提取，得到若干条语句；根据所述若干条语句判断所述目标图片是否满足预设需求，当所述目标图片满足预设需求时，根据所述目标图片确定所述待识别的文本。在一个实施例中，在所述根据所述目标图片的图片格式进行格式转换，以得到格式转换后的目标图片之前，还包括：对所述目标图片进行降噪处理；降噪处理完成后...

【技术保护点】
1.一种基于自然语言语义分析的文本识别方法，其特征在于，包括：/n采集待识别的文本；/n获取目标检测及识别网络，其中，所述目标检测及识别网络能够执行文本检测和文本识别任务；/n通过所述目标检测及识别网络对所述待识别文本进行文本检测及基于自然语言语义分析的文本识别。/n

【技术特征摘要】
1.一种基于自然语言语义分析的文本识别方法，其特征在于，包括：
采集待识别的文本；
获取目标检测及识别网络，其中，所述目标检测及识别网络能够执行文本检测和文本识别任务；
通过所述目标检测及识别网络对所述待识别文本进行文本检测及基于自然语言语义分析的文本识别。

2.如权利要求1所述的方法，其特征在于，所述采集待识别的文本，包括：
利用预设工具获取目标图片；
根据所述目标图片的图片格式进行格式转换，以得到格式转换后的目标图片；
对所述格式转换后的目标图片进行句子提取，得到若干条语句；
根据所述若干条语句判断所述目标图片是否满足预设需求，
当所述目标图片满足预设需求时，根据所述目标图片确定所述待识别的文本。

3.如权利要求2所述的方法，其特征在于，在所述根据所述目标图片的图片格式进行格式转换，以得到格式转换后的目标图片之前，还包括：
对所述目标图片进行降噪处理；
降噪处理完成后，根据目标图片本身的属性进行归一化处理，其中，所述目标图片本身的属性包括分辨率、像素深度、真/伪彩色中的任意一种或多种。

4.如权利要求3所述的方法，其特征在于，对目标图片进行降噪处理，其步骤如下：
步骤A1，根据以下公式计算目标图片的像素值的均值：

其中，ΔT表示目标图片像素值的平均值；n,m衡量目标图片像素值的个数，n代表横坐标，m代表纵坐标，x(i,j)代表横坐标为i纵坐标为j的目标图片像素值大小；
步骤A2，根据以下公式求出衡量正常像素点与噪声点的阈值：

其中，p(i,j)代表目标图片临近区域内的像素值的均值，s(i,j)代表目标图片像素值标准方差，L代表标准方差的动态范围内选取的数值，s(i,j)≤L≤s(i,j)+1，q(i,j)代表衡量正常像素点与噪声点的阈值，k是定义的一个修正参数，0＜k＜1；
步骤A3，根据下述公式对目标图片的噪声点进行处理；

其中，q(i,j)代表衡量正常像素点与噪声点的阈值，ΔT代表目标图片像素的平均值，x(i,j)代表横坐标为i纵坐标为j的去噪前目标图片像素值大小，r(i,j)代表去...

【专利技术属性】
技术研发人员：刘如君，刘志杰，陈乔，尚雪松，
申请(专利权)人：北京微智信业科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人