【技术实现步骤摘要】
基于深度神经网络的古文字检测、识别和检索系统
本专利技术属于古文字检测、识别领域,尤其是涉及一种基于深度神经网络的古文字检测、识别和检索系统。
技术介绍
古文字是随着历史的变迁而产生的古代文字,例如在中国古代曾出现过甲骨文、金文等等,这些文字由于距今年代较远,对专家考证和大众识别都带来了一些困难和挑战。为了弥合古文字与现代人理解力的鸿沟,为科学研究提供方便,基于机器学习和计算机视觉的古文字检测、分类和识别工作变得越来越重要;同时,建立在检测、分类和识别工作之上的古文字检索系统将对古籍数字化、有序化产生重要推动作用。然而,现在大多数基于机器学习的古文字研究工作大多集中在识别领域,即对人工切分好的古文字图像块进行识别,而这种切分工作需要有一定古文字功底的人耗费大量地经历完成。另外,大多数古文字的识别工作限定在一定的字体之内,如甲骨文识别、金文识别等,而对于多种字体混合的识别任务中(例如旁边带有现代文注释的甲骨文或金文图片),则难以同时保证准确率和高效性。
技术实现思路
有鉴于此,本专利 ...
【技术保护点】
1.基于深度神经网络的古文字检测、识别和检索系统,其特征在于,包括:/n开发者模块群,用于建立古文字数据库,以及对标签数据和样本数据进行训练;/n使用者模块群,用于输入待识别数据,输出识别结果;/n演示控制模块,用于控制系统功能模块的执行顺序。/n
【技术特征摘要】
1.基于深度神经网络的古文字检测、识别和检索系统,其特征在于,包括:
开发者模块群,用于建立古文字数据库,以及对标签数据和样本数据进行训练;
使用者模块群,用于输入待识别数据,输出识别结果;
演示控制模块,用于控制系统功能模块的执行顺序。
2.根据权利要求1所述的基于深度神经网络的古文字检测、识别和检索系统,其特征在于,所述开发者模块群包括:
基于预检测的框标注模块,用于在包含古文字形的图像中,对其中的样本区域位置和标签区域位置、以及他们之间的对应关系分别进行机器自动提取,并通过人工修正完成检测框标准数据的获取;
基于预识别的识别标注模块,用于根据提取出的标签位置,获取所有标签位置对应的图片块,并通过预识别系统对这些图像块进行初步识别,然后通过人工校正,得到标签图像块的机器码;
数据库存储模块,用于将所有的标签图片和样本图像以及它们的对应关系,通过表的形式存储在后台数据库中;
检测器和识别器训练模块,用于根据框标注模块获取的检测框对检测器进行训练,根据识别标注模块获取的标签机器码和框标注模块获取的样本图像,以及和这些标签的对应关系,对分类器进行训练。
3.根据权利要求1所述的基于深度神经网络的古文字检测、识别和检索系统,其特征在于,所述使用者模块群包括:
基于机器码的古文字检索模块,用于用户通过输入法等形式将待检索文字输入系统,模块返回在数据库中的检索结果;
基于手写的古文字检索模块,用于用户通过手写方式将待检索的现代文字写在界面上,模块进行手写体识别,翻译成机器码并返回该机器码在数据库中的检索结果;
基于图像内容的字形检索模块,用于用户向模块提供一张包含待检索文字的图像,模块通过对其识别,翻译成机器码并返回该机器码在数据库中的检索结果;
整图检测和识别模块,用户输入一张待检测和识别的图像,模块通过训练得到的检测器对该图片中所有古文字位置进行定位,然后对所有检测框内的文字用识别器进行识别,得到最终检测和识别结果,显示给用户。
4.根据权利要求2所述的基于深度神经网络的古文字检测、识别和检索系统,其特征在于:所述基于预检测的框标注模块包括框提取策略选择模块、特征预设模块、目标预定位模块、以及手动修正模块;
所述框提取策略选择模块包括:
预定位模块和连通分量提取模块,所述预定位模块包括深度神经网络预定位模块以及基于设计特征的预定位模块,所述连通分量提取模块包括基于极值区域树剪枝的连通分量提取模块和基于图片二值化和聚合策略的连通分量提取模块;
所述特征预设模块包括通过对样本图像块和标签图像块对应的连通分量在图像位置分布、亮度或颜色特征分布特征的预先设定来对样本和标签图像块进行预先判定、以及基于样本图像和标签图像的位置关系对它们之间的对应关系进行预判;
所述目标预定位模块包括:
如果选择基于深度神经网络预定位模块,则系统首先依据手动标注出来的少量框位置的样本和标签图像区域,对基于深度卷积网络的检测器进行训练;然后对于待自动标注的图像用此检测器进行预检测,输出结果分别为推荐的样本图像块的外接框和标签图像块的外接框;
如果选择基于设计特征的预定位模块,则系统对事先提取的连通分量,依据设计好的位置、尺度或颜色等特征对连通分量进行特征提取,并进行分类和基于尺度和位置关系进...
【专利技术属性】
技术研发人员:马晋,闫升,贾国福,杜鹏,樊文博,韩国民,
申请(专利权)人:天津恒达文博科技股份有限公司,西安文数保科技有限公司,
类型:发明
国别省市:天津;12
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。