System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种文本无关、用户无关的中文手写字迹鉴别系统及方法技术方案_技高网

一种文本无关、用户无关的中文手写字迹鉴别系统及方法技术方案

技术编号:40966480 阅读:2 留言:0更新日期:2024-04-18 20:46
本发明专利技术公开了一种文本无关、用户无关的中文手写字迹鉴别系统及方法,涉及字迹鉴别技术领域内领域,本发明专利技术将手写中文字迹鉴别过程系统化,主要目的为解决用户相关算法产生的高计算开销问题、用户无关算法中需要字迹相关信息的不足,同时解决底库无当前需要鉴别的文字无法鉴别,用户撰写时形成行间交错、同行多字连笔等难于鉴别,连笔字迹难以单字分割输入字数较少时,无法充分利用字迹信息,样本数据较少而无法鉴别等问题并填充当前手写中文字迹鉴别系统化案例空白,提高字迹鉴别的准确率等。

【技术实现步骤摘要】

本专利技术涉及字迹鉴别内领域,尤其涉及一种文本无关、用户无关的中文手写字迹鉴别系统及方法


技术介绍

1、随着国内社会的飞速发展,计算机视觉、自然语言识别等人工智能技术,更为频繁出现在人们生产生活中,普遍成为人们生产生活的一大助力,在此之前手写字迹如签名、承诺书、借条、合同真伪鉴别,都是由手写字迹鉴别专家对字迹进行鉴别。近年借助计算机对中文手写字迹进行鉴别的方法逐渐增多,融合多种人工智能方法将中文手写字迹鉴别系统化的更如雨后春笋。

2、在手写字迹鉴别领域,现有人工智能算法解决方案大多致力于解决字迹分类归属问题,即对输入的字迹图像结合深度学习、图像处理等经典方法对静态字迹图像进行分类,寻找到其归属用户。在手写字迹子领域签名认证中,现有技术通常采用分割单字并进行底库模板匹配,通过鉴别或提取字迹特征使用额外的分类器进行分类鉴别。现有技术能有效解决字迹分类的难题,将需要人工进行字迹鉴别的工作采用来计算机进行鉴别,取得了一定的效果。然而,这些方法输入的静态字迹需要底库已包含相关用户字迹信息,其根据用户相关的训练方式难以拓展到用户无关的场景中。当新输入字迹为不参加训练的用户字迹信息时,其方案需要重新训练与构造,造成较大的计算开销与其他开销。

3、在现有处理用户无关的字迹鉴别领域内,大都是使用计算机视觉技术对手写中文字迹进行特征上的处理后采用诸如模板匹配等既定的规则逻辑对字迹进行鉴别。但这些方法是与文本相关的算法,极度依赖于设定的字迹分布模板,当出现模板中没有的字迹时,这些方法效率将受到影响。


<b>技术实现思路

1、本专利技术所要解决的技术问题是针对
技术介绍
的不足提供一种文本无关、用户无关的中文手写字迹鉴别系统及方法,将手写中文字迹鉴别过程系统化,为解决用户相关算法产生的高计算开销问题、用户无关算法中需要字迹相关信息的不足,同时解决底库无当前需要鉴别的文字无法鉴别,用户撰写时形成行间交错、同行多字连笔等难于鉴别,连笔字迹难以单字分割输入字数较少时,无法充分利用字迹信息,样本数据较少而无法鉴别等问题并填充当前手写中文字迹鉴别系统化案例空白,提高字迹鉴别的准确率等。

2、本专利技术为解决上述技术问题采用以下技术方案:

3、一种文本无关、用户无关的中文手写字迹鉴别系统,包含设备管理模块、ai算法能力模块和算法处理模块;

4、其中,设备管理模块,具体包含如下步骤:

5、步骤a1,输入各手写中文字迹采集设备信息,以设备id-设备名称-设备位置-rtsp流地址”的结构,存储于hive集群中;

6、步骤a2,抽取采集设备即写字板写入的中文字迹,并以书写者的人员编号命名,以图形图像的形式存储于分布式系统存储ceph集群中;

7、步骤a3,建立并嵌入一套基于写字板的自有信息的初级数据信息库,当有设备新增时,ceph图像库及hive设备信息库将同步更新;

8、ai算法能力模块,具体包含如下步骤:

9、步骤b1,获取数据库中存储含有人员编号的图像;

10、步骤b2,调用算法处理模块,对数据图像进行处理,cnn算法字迹特征提取;

11、步骤b3,调用ai算法能力中的算法训练能力,新增底库数据能力、新增对比底库数据能力、底库数据分类能力、算法模块替换能力进行底库数据新增、分类等能力的优化;

12、算法处理模块,具体包含如下步骤:

13、步骤c1,处理需要鉴别的手写中文图像,包括图像二值化、基于抽象字迹信息的字迹行切割、字迹列切割,用户无关、字迹无关的cnn训练架构,cnn算法字迹特征提取;

14、步骤c2,将提取的特征调用ai算法能力的底库分类能力与底库中数据进行对比鉴别,鉴别完成使用科学阈值筛选,输出预测标签。

15、作为本专利技术一种文本无关、用户无关的中文手写字迹鉴别系统的进一步优选方案,在步骤a1中,设备位置格式采用省-市-县-区-乡-商店/街道。

16、作为本专利技术一种文本无关、用户无关的中文手写字迹鉴别系统的进一步优选方案,对数据图像进行处理包括图像二值化、字迹行切割、字迹列切割。

17、一种基于文本无关、用户无关的中文手写字迹鉴别系统的识别方法,具体包含如下步骤;

18、步骤一,数据预处理:

19、步骤1,数据输入:输出带有人员详细的手写字迹图像;

20、步骤2,字迹图像旋转二值化:将库中带有人员信息的图像旋转让字处于正向,同时进行二值化处理;

21、步骤3,数据行列切割:获取步骤2中字迹旋转、二值化后的图像,根据处理后的图像像素值分布状态,对每个纵坐标轴上的行,统计非连续像素值的个数,提取穿过的抽象笔画个数,形成基于笔画信息的数量分布图;

22、步骤二、模型训练:

23、步骤4、new-s-bert模型训练:将基于nlp领域中的s-bert算法,将其改进为适用处理图像的算法架构,将其命名为new-s-bert;

24、步骤三、模型推理:模型推理过程中,分层条件过滤策略流程如下:

25、步骤5、前向计算数据处理

26、输入需要鉴别的字迹图像,执行步骤2、步骤3,将带有标签的单字切分出来后存入数据库;

27、步骤6、手写中文字迹对比:在判断输入特征相似度的过程中,保留更多的相似度值信息,将所有相似度值信息以统计量的关系保存下来,通过设置两种阈值,增加对离群单字信息偏差产生的干扰,让相似度统计量值指导字迹鉴别的分类;

28、调用new-s-bert模型对比底库字迹计算字迹向量组{consine(u,v)_单字,id},其中,向量组由单个字迹相似度consine(u,v)_单字、人员编号id构成;

29、步骤7、构建top1{consine(u,v)_单字,id,f}向量组:

30、步骤8、多字id过滤:根据步骤7中构建的top1{consine(u,v)_单字,id,f}向量组,判断f是否大于α,剔除f小于α的向量,并判断top1{consine(u,v)_单字,id,f}向量组是否为空,当top1{consine(u,v)_单字,id,f}向量组为空,输出当前字迹不在库中,流程结束;当top1{consine(u,v)_单字,id,f}向量组不为空,输出当前字迹在库中,流程结束。

31、作为本专利技术文本无关、用户无关的中文手写字迹鉴别系统的识别方法的进一步优选方案,在步骤1中,带有人员详细的手写字迹图像包含人员编号_手写中文字迹。

32、作为本专利技术文本无关、用户无关的中文手写字迹鉴别系统的识别方法的进一步优选方案,所述步骤3具体如下,在分布图上,

33、步骤3.1,使用卷积滤波,过滤抽象字迹信息的震荡分布;

34、步骤3.2,使用傅里叶分解,将高频的信息过滤,保留平滑的穿过字迹点数分布图;

35、步骤3.3,通过设计波峰波谷的判别方式分本文档来自技高网...

【技术保护点】

1.一种文本无关、用户无关的中文手写字迹鉴别系统,其特征在于:包含设备管理模块、AI算法能力模块和算法处理模块;

2.根据权利要求1所述的一种文本无关、用户无关的中文手写字迹鉴别系统,其特征在于:在步骤A1中,设备位置格式采用省-市-县-区-乡-商店/街道。

3.根据权利要求1所述的一种文本无关、用户无关的中文手写字迹鉴别系统,其特征在于:对数据图像进行处理包括图像二值化、字迹行切割、字迹列切割。

4.一种基于权利要求1至3任一项所述的文本无关、用户无关的中文手写字迹鉴别系统的识别方法,其特征在于:具体包含如下步骤;

5.根据权利要求4所述的文本无关、用户无关的中文手写字迹鉴别系统的识别方法,其特征在于:在步骤1中,带有人员详细的手写字迹图像包含人员编号_手写中文字迹。

6.根据权利要求4所述的文本无关、用户无关的中文手写字迹鉴别系统的识别方法,其特征在于:所述步骤3具体如下,在分布图上,

7.根据权利要求4所述的文本无关、用户无关的中文手写字迹鉴别系统的识别方法,其特征在于:在步骤4中,使用该模型来对单字向量化处理、及单字之间的匹配相似度计算。

8.根据权利要求7所述的文本无关、用户无关的中文手写字迹鉴别系统的识别方法,其特征在于:在S-Bert架构的基础上,将输入信息由抽象特征改为图像,将backbone改为基于残差神经网络的ResNet架构,设置三元组标签匹配对进行0、1标签的分类;当输入的字迹为同一人时标签为1,当输入的字迹不为同一人时标签为0,以此构造标签匹配对训练模型。

9.根据权利要求4所述的文本无关、用户无关的中文手写字迹鉴别系统的识别方法,其特征在于:在步骤7中,构建TOP1{consine(u,v)_单字,ID,F}向量组,具体如下:

10.根据权利要求9所述的文本无关、用户无关的中文手写字迹鉴别系统的识别方法,其特征在于:在步骤7中,T=0.8由训练数据计算得。

...

【技术特征摘要】

1.一种文本无关、用户无关的中文手写字迹鉴别系统,其特征在于:包含设备管理模块、ai算法能力模块和算法处理模块;

2.根据权利要求1所述的一种文本无关、用户无关的中文手写字迹鉴别系统,其特征在于:在步骤a1中,设备位置格式采用省-市-县-区-乡-商店/街道。

3.根据权利要求1所述的一种文本无关、用户无关的中文手写字迹鉴别系统,其特征在于:对数据图像进行处理包括图像二值化、字迹行切割、字迹列切割。

4.一种基于权利要求1至3任一项所述的文本无关、用户无关的中文手写字迹鉴别系统的识别方法,其特征在于:具体包含如下步骤;

5.根据权利要求4所述的文本无关、用户无关的中文手写字迹鉴别系统的识别方法,其特征在于:在步骤1中,带有人员详细的手写字迹图像包含人员编号_手写中文字迹。

6.根据权利要求4所述的文本无关、用户无关的中文手写字迹鉴别系统的识别方法,其特征在于:所述步骤3具体如下,在分布图上,...

【专利技术属性】
技术研发人员:陈希秦梦瑶徐兴文刘芳瑜唐珊
申请(专利权)人:天翼云科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1