【技术实现步骤摘要】
一种基于数据处理的点读笔信息识别与管理方法及系统
[0001]本专利技术涉及点读笔信息处理
,尤其涉及一种基于数据处理的点读笔信息识别与管理方法及系统。
技术介绍
[0002]点读笔是采用国际最新光学图像识别技术和先进的数码语音技术开发而成的新一代智能阅读和学习工具,点读笔通过孩子参与各种针对性的游戏和活动,不断刺激触觉、视觉、听觉等感官来丰富他们的体验,增长他们的兴趣,开发他们的脑神经。点读笔小巧方便,非常便携,可随时、随处使用,即点即发音,它将声音加于枯燥的文字之上,使图书内容更丰富,使阅读和学习更有趣,可充分实现寓教于乐。
[0003]随着图像识别算法的进步,现有的点读笔足以识别大多数内容,但是,其识别过程需要消耗大量的计算资源,识别效率不高;因此,如何在现有的成熟的点读笔识别技术上,提高识别速度,优化使用体验是点读笔领域的关键问题。
技术实现思路
[0004]本专利技术克服了现有技术的不足,提供了一种基于数据处理的点读笔信息识别与管理方法及系统。
[0005]为达到上述目的本专利 ...
【技术保护点】
【技术特征摘要】
1.一种基于数据处理的点读笔信息识别与管理方法,其特征在于,包括以下步骤:通过大数据网络获取大量的文字模型及其对应的语音特性数据信息,构建文本语音模型,并将所述文字模型及其对应的语音特性数据信息导入所述文本语音模型中进行训练,得到最终训练参数,基于所述最终训练参数得到初始文本语音特性数据库;提取所述初始文本语音特性数据库中各文本关联性语音包所对应的文字模型,并将各文本关联性语音包所对应的文字模型进行汇聚,得到文字模型合集,对所述文字模型合集中各个文字模型进行分类,得到分类后的文本语音特性数据库;获取所述分类后的文本语音特性数据库中各文字模型子合集所对应的文字模型,对所述文字模型子合集所对应的文字模型进行特征提取,得到若干个所述文字模型对应的特征点,基于所述特征点将各文字模型子合集的文字模型配对筛选,得到最终文本语音特性数据库;获取待识别文字图像信息,并对所述待识别文字图像信息进行处理,得到处理后文字图像信息,基于所述处理后文字图像信息得到与待识别文字相对应的语音特性数据信息,并将所述语音特性数据信息输出。2.根据权利要求1所述的一种基于数据处理的点读笔信息识别与管理方法,其特征在于,通过大数据网络获取大量的文字模型及其对应的语音特性数据信息,构建文本语音模型,并将所述文字模型及其对应的语音特性数据信息导入所述文本语音模型中进行训练,得到最终训练参数,基于所述最终训练参数得到初始文本语音特性数据库,具体为:通过大数据网络获取大量的文字模型及其对应的语音特性数据信息,并分别对各文字模型及其对应的语音特性数据信息进行捆绑,捆绑得到若干文本关联性语音包,将若干文本关联性语音包进行汇聚,得到文本关联性语音包数据集;基于卷积神经网络构建文本语音模型,将所述文本关联性语音包数据集分为训练本与测试本,将所述训练本导入所述文本语音模型中,通过交叉熵定位损失函数采用相加权的方式对训练本中的各文本关联性语音包进行反向演播训练,并获取每一次训练后的训练参数,当各文本关联性语包的训练参数均满足预设要求后,保存训练后的训练参数;基于所述测试本中的预设测试参数构建评测指标体系,并将所述训练后的训练参数导入所述评测指标体中,并通过层次分析法获取所述训练后的训练参数的权重值,判断所述权重值是否大于预设权重值;若不大于,则再次将所述训练本导入文本语音模型中进行训练,直至所述权重值大于预设权重值;若大于,则将所述训练后的训练参数作为最终训练参数,构建数据库,并将所述最终训练参数导入所述数据库中,得到初始文本语音特性数据库。3.根据权利要求1所述的一种基于数据处理的点读笔信息识别与管理方法,其特征在于,提取所述初始文本语音特性数据库中各文本关联性语音包所对应的文字模型,并将各文本关联性语音包所对应的文字模型进行汇聚,得到文字模型合集,对所述文字模型合集中各个文字模型进行分类,得到分类后的文本语音特性数据库,具体为:提取所述初始文本语音特性数据库中各文本关联性语音包所对应的文字模型,并将各文本关联性语音包所对应的文字模型进行汇聚,得到文字模型合集;通过局部敏感哈希算法计算所述文字模型合集中各文字模型之间的相似度,预设若干个相似度范围;
基于所述各文字模型之间的相似度与所述相似度范围对所述文字模型合集中各文字模型进行聚类并整合,得到若干个分类后的文字模型子合集;将若干个分类后的文字模型子合集分别映射到所述初始文本语音特性数据库的不同空间中,得到分类后的文本语音特性数据库。4.根据权利要求1所述的一种基于数据处理的点读笔信息识别与管理方法,其特征在于,获取所述分类后的文本语音特性数据库中各文字模型子合集所对应的文字模型,对所述文字模型子合集所对应的文字模型进行特征提取,得到若干个所述文字模型对应的特征点,基于所述特征点将各文字模型子合集的文字模型配对筛选,得到最终文本语音特性数据库,具体为:获取所述分类后的文本语音特性数据库中各文字模型子合集所对应的文字模型,对所述文字模型子合集所对应的文字模型进行特征提取,得到若干个所述文字模型对应的特征点;构建空间坐标系,将所述文字模型对应的特征点导入所述空间坐标系中,得到各个特征点对应的坐标值,基于所述坐标值获取得到各个特征点对应的向量值;获取每一文字模型的各个特征点对应的向量值,并对每一文字模型的各个特征点对应的向量值进行汇聚,得到每一文字模型对应的向量合集;通过灰色关联分析法计算各文字模型子合集中任意两个文字模型对应的向量合集之间的配对率,并将所述配对率与预设配对率进行比较,得到配对率偏差值;判断所述配对率偏差值是否大于预设偏差值阈值,若大于,则将配对率偏差值大于预设偏差值阈值所对应的任意一个文字模型由所述文字模型子合集中剔除;若不大于,则将配对率偏差值不大于预设偏差值阈值所对应的两个文字模型均由所述文字模型子合集中保留;重复上述步骤,直至各文字模型子合集中任意一个文字模型均与其余文字模型配对完毕,得到筛选后的文字模型子合集,并基于所述筛选后的文字模型子合集得到最终文本语音特性数据库。5.根据权利要求1所述的一种基于数据处理的点读笔信息识别与管理方法,其特征在于,获取待识别文字图像信息,并对所述待识别文字图像信息进行处理,得到处理后文字图像信息,基于所述处理后文字图像信息得到与待识别文字相对应的语音特性数据信息,并将所述语音特性数据信息输出,具体为:获取待识别文字图像信息,并对所述待识别文字图像信息进行处理,得到处理后文字图像信息;基于特征匹配算法对所述处理后文字图像信息进行特征提取,得到待识别文字的边缘特征,并对所述边缘特征进行疏化处理,得到若干疏化匹配点;选取任一疏化匹配点作为构建基准点,基于所述构建基准点构建虚拟坐标系,在所述虚拟坐标系中获取各个疏化匹配点对应的坐标信息,基于所述坐标信息构建得到待识别文字的平面模型;在所述最终文本语音特性数据库的各文字模型子合集中均任意抽取一个文字模型,将所述待识别文字的平面模型与抽取得到的文字模型进行一一匹配,得到若干个文字模型匹配度,并在若干个文字模型匹配度中提取出最大的文字模型匹配度,基于所述最大的文字模型匹配度确定出待识别文字的所属文字模型子合集;将所述待识别文字与其所属文字模型子合集中所有的文字模型进行一一匹配,得到若
干个文字模型匹配率,并在若干个所述文字模型匹配率中提取出最大的文字模型匹配率,基于所述最大的文字模型匹配率确定出与待识别文字相匹配的文字模型,并获取与待识别文字相匹配...
【专利技术属性】
技术研发人员:颜榅辉,陈许忠,徐柏勇,
申请(专利权)人:深圳市小彼恩文教科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。