一种脱机手写体文本的行结构分析方法技术

技术编号：18351143 阅读：27 留言：0更新日期：2018-07-02 00:50

本发明专利技术公开了一种脱机手写体文本的行结构分析方法，包括字符高度估计单元、字符重心聚类单元、字符文本行拟合单元和字符高度优化单元；所述字符高度估计单元用于通过随机方式选择多个字符笔迹像素点，并计算他们对应的字符高度，为后续行结构分析提供准确的字符高度估值；所述字符重心聚类单元用于利用了聚类方法的类内紧凑而类间分离的基本思想，将同一文本行的字符重心聚为一类，不同文本行的字符重心聚到不同类别中；该脱机手写体文本的行结构分析方法，通过随机方式选择多个字符笔迹像素点，并计算他们对应的字符高度，为后续行结构分析提供准确的字符高度估值。

全部详细技术资料下载

【技术实现步骤摘要】
一种脱机手写体文本的行结构分析方法
本专利技术涉及倾斜文本行分析
，具体为一种脱机手写体文本的行结构分析方法。
技术介绍
在倾斜文本行、不规则文本行片段以及行片段组合等条件下,行结构分析准确与否将严重制约脱机手写体文本识别的效率，现有的脱机手写体文本研究主要集中于提升字符识别准确率以及降低字符识别的时间复杂度和空间复杂度。相比较而言，研究脱机手写体文本预处理的文献则更少，其原因可以在已有公开的汉字识别数据库找到，如HIT-MW、CASIA-HWDB和HCL2000等，这些数据库中的文本图像具有整行整段的数据结构，缺乏现实情况下的零散字符片段的数据。
技术实现思路
针对现有技术的不足，本专利技术提供了一种脱机手写体文本的行结构分析方法，解决了
技术介绍
中提出的困难问题。为实现以上目的，本专利技术通过以下技术方案予以实现：一种脱机手写体文本的行结构分析方法，包括字符高度估计单元、字符重心聚类单元、字符文本行拟合单元和字符高度优化单元；所述字符高度估计单元用于通过随机方式选择多个字符笔迹像素点，并计算他们对应的字符高度，为后续行结构分析提供准确的字符高度估值；所述字符重心聚类单元用于利用了聚类方法的类内紧凑而类间分离的基本思想，将同一文本行的字符重心聚为一类，不同文本行的字符重心聚到不同类别中；所述字符文本行拟合单元主要运用最小二乘法多项式曲线拟合，根据给定的m个点，并不要求这条曲线精确地经过这些点，而是曲线y＝f(x)的近似曲线y＝Φ(x)；其优点是过滤噪声字符重心以得出这些字符重心所对应字符所在的真实的行信息；利用最小二乘法多项式实现字符文本行拟合的原理：给...
一种脱机手写体文本的行结构分析方法

【技术保护点】
1.一种脱机手写体文本的行结构分析方法，其特征在于，包括字符高度估计单元、字符重心聚类单元、字符文本行拟合单元和字符高度优化单元；所述字符高度估计单元用于通过随机方式选择多个字符笔迹像素点，并计算他们对应的字符高度，为后续行结构分析提供准确的字符高度估值；所述字符重心聚类单元用于利用了聚类方法的类内紧凑而类间分离的基本思想，将同一文本行的字符重心聚为一类，不同文本行的字符重心聚到不同类别中；所述字符文本行拟合单元主要运用最小二乘法多项式曲线拟合，根据给定的m个点，并不要求这条曲线精确地经过这些点，而是曲线y＝f(x)的近似曲线y＝Φ(x)；其优点是过滤噪声字符重心以得出这些字符重心所对应字符所在的真实的行信息；利用最小二乘法多项式实现字符文本行拟合的原理：给定字符重心簇中的字符重心pi＝(xi,yi)，i＝1,2,…,m；求近似曲线y＝Φ(x)，并且使得近似曲线与y＝f(x)的偏差最小；近似曲线在点pi处的偏差δi＝Φ(xi)‑y，i＝1,2,…,m，其中最小偏差平方和的表达式为

【技术特征摘要】
1.一种脱机手写体文本的行结构分析方法，其特征在于，包括字符高度估计单元、字符重心聚类单元、字符文本行拟合单元和字符高度优化单元；所述字符高度估计单元用于通过随机方式选择多个字符笔迹像素点，并计算他们对应的字符高度，为后续行结构分析提供准确的字符高度估值；所述字符重心聚类单元用于利用了聚类方法的类内紧凑而类间分离的基本思想，将同一文本行的字符重心聚为一类，不同文本行的字符重心聚到不同类别中；所述字符文本行拟合单元主要运用最小二乘法多项式曲线拟合，根据给定的m个点，并不要求这条曲线精确地经过这些点，而是曲线y＝f(x)的近似曲线y＝Φ(x)；其优点是过滤噪声字符重心以得出这些字符重心所对应字符所在的真实的行信息；利用最小二乘法多项式实现字符文本行拟合的原理：给定字符重心簇中的字符重心pi＝(xi,yi)，...

【专利技术属性】
技术研发人员：王寅同，刘维周，王小正，
申请(专利权)人：南京晓庄学院，
类型：发明
国别省市：江苏,32

全部详细技术资料下载我是这个专利的主人