【技术实现步骤摘要】
一种基于声音信号的手写文本识别方法及系统
[0001]本专利技术涉及手写文本识别领域,尤其是涉及一种基于声音信号的手写文本识别方法及系统。
技术介绍
[0002]近年来,随着消费升级及AI、VR、AR等技术的逐渐普及,智能设备的功能越来越多样化,智能手表、智能腕带等穿戴式智能设备因其便携实用的特点受到众多用户的喜爱。然而,智能手表或其他智能穿戴设备受限于交互界面较小、互动接口数目较少,使得其与用户的交互性较差,用户想要打字或者进行文本输入时不够方便,手写文本输入容易被误识别,导致一部分智能穿戴设备的可用性大大降低。为了解决这种困境,很多设备厂商将手表屏幕设计得更大来提供更多空间,以方便用户通过按键或触摸屏输入文本,然而屏幕的大小是有限的,这种做法也使得设备的便携性变低。一些智能手表附带了点击笔以方便用户的操作,但是这种额外的硬件也使得设备使用不方便。
[0003]为了使用户可以在设备上进行文本输入,不少设备添加了语音识别功能,将声音信号转化成文字,用户通过语音交互进行文本输入,可以无需接触设备而直接与设备交互,然而, ...
【技术保护点】
【技术特征摘要】
1.一种基于声音信号的手写文本识别方法,其特征在于,包括以下步骤:S1:设置文本识别范围W,所述文本识别范围W包括M(M>0)个不同的文字,W={w1、w2、
…
、w
M
};分别生成文字w1、w2、
…
、w
M
的初步识别集:I
w1
、I
w2
、
…
I
wM
,其中,I
wi
(i>1)中存放:表征文字w
i
是否被稳定识别的标签、特征声音信号、与特征声音信号一一对应的分类数据集,所述特征声音信号的初步识别结果为w
i
;将M个初步识别集均初始化为空集,其中,标签均被初始化为不能被稳定识别;S2:获取文本图片集,所述文本图片集包括M个手写文字图片集:H
w1
、H
w2
、
…
H
wM
,其中,H
wi
(i>1)中为文字w
i
的手写文字图片,每一个手写文字图片集中包括N(N>2)个不同用户的手写文字图片;将M个手写文字图片集中的每一张手写文字图片分别转换为声音信号,得到M个声音信号集:Y
w1
、Y
w2
、
…
Y
wM
,分别对应文字w1、w2、
…
、w
M
;基于M个声音信号集,构建随机森林模型,所述随机森林模型的输入为声音信号,输出为多个模型识别结果;进入初始化阶段;S3:采集用户在手写文本输入时的原始声音信号,并对其进行预处理得到特征声音信号,所述特征声音信号为时间
‑
距离序列;如果文本识别范围W内的所有文字均能被稳定识别,则初始化阶段结束,进入使用阶段,执行步骤S7,否则,继续初始化阶段,执行步骤S4;S4:将特征声音信号输入随机森林模型得到多个模型识别结果,用户自多个模型识别结果中确认特征声音信号所对应的初步识别结果m(m∈W);获取文字m的初步识别集I
m
,根据初步识别集I
m
中的标签判断文字m是否被稳定识别,若为是,则输出初步识别结果m,执行步骤S3;若为否,则执行步骤S5;S5:将特征声音信号写入初步识别集I
m
;根据初步识别集I
m
中的所有特征声音信号计算得到特征声音向量S
user
,获取对应文字m的声音信号集Y
m
,分别计算特征声音向量S
user
与声音信号集Y
m
中所有声音信号之间的综合相似度,选取声音信号集Y
m
中综合相似度最大的L(L>1)个声音信号作为文字m的最新分类数据集,将所述最新分类数据集写入初步识别集I
m
中并与特征声音信号相对应;S6:判断初步识别集I
m
是否达到稳定状态,如果达到稳定状态,则将初步识别集I
m
的标签更新为能被稳定识别,即文字m能够被稳定识别,将最新分类数据集作为文字m的增强识别集,输出初步识别结果m,执行步骤S3;如果没有达到稳定状态,则直接输出初步识别结果m,执行步骤S3;S7:获取文字w1、w2、
…
、w
M
的增强识别集,基于KNN分类算法得到M个增强识别集中与特征声音信号最接近的声音信号作为相似声音信号,将相似声音信号的对应文字作为识别结果;S8:重复步骤S3,直至结束手写文本识别,对得到的所有识别结果进行纠错处理并得到最终识别文字。2.根据权利要求1所述的一种基于声音信号的手写文本识别方法,其特征在于,所述步骤S2包括以下步骤:S21:获取一个用户的多张手写文字图片,对其进行拉伸操作和放缩操作,统一手写文字图片的规格,并将每一张手写文字图片中的文字作为该手写文字图片的对应文字;S22:遍历该用户的所有手写文字图片,将对应文字为w1的手写文字图片放入文字w1的手写文字图片集H
w1
、将对应文字为w2的手写文字图片放入文字w2的手写文字图片集H
w2
、
…
、
将对应文字为w
M
的手写文字图片放入文字w
M
的手写文字图片集H
wM
;S23:重复步骤S21,直至每一个手写文字图片集中分别存放N个不同用户的手写文字图片,得到包括M个手写文字图片集的文本图片集;S24:自文本图片集中选择一个手写文字图片集,通过粒子群算法将该手写文字图片集中的每一张手写文字图片转换为声音信号,得到该手写文字图片集转换的声音信号集;S25:重复步骤S24,直至所有手写文字图片集均转换为声音信号集,得到M个声音信号集:Y
w1
、Y
w2
、
…
Y
wM
,分别对应文字w1、w2、
…
、w
M
;S26:基于M个声音信号集构建随机森林模型,所述随机森林模型的输入为声音信号,输出为多个模型识别结果;S27:进入初始化阶段。3.根据权利要求2所述的一种基于声音信号的手写文本识别方法,其特征在于,所述步骤S24包括以下步骤:S241:自文本图片集中选择一个手写文字图片集;S242:自该手写文字图片集中获取一张手写文字图片,将该手写文字图片进行骨架化操作并进行遍历,得到该手写文字图片中文字笔画的范围、初始点、结束点和笔画数;S243:生成粒子群,粒子群中每个粒子的初始位置为文字笔画的初始点,根据文字笔画的范围和笔画数,获取下一阶段的方向范围,在方向范围内随机生成各个粒子的方向属性,随机生成各个粒子的速度属性,粒子运动,次数加1;S244:更新粒子的位置,如果一个粒子的位置不在文字笔画的范围内,则自粒子群中移除该粒子,根据文字笔画的范围和笔画数,获取下一阶段的方向范围,在方向范围内随机生成各个粒子的方向属性,随机生成各个粒子的速度属...
【专利技术属性】
技术研发人员:薛广涛,叶琦,陈奕超,张文毅,
申请(专利权)人:上海交通大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。