【技术实现步骤摘要】
本公开实施例涉及人工智能,尤其涉及一种数据集构建、文字识别方法、装置、设备及介质。
技术介绍
1、深度学习模型在古籍的单字识别、机器翻译等方面已取得了突破性进展,成为基于人工智能的古文、古籍研究的首选方法,但是该方法需要大量数据来训练深度学习模型,因此构建大规模且规范化的数据集成为非常重要的任务。
2、经查阅国内外相关研究文献,一些古文、古籍或少数民族文字尚有未公开的单字数据集,部分公开的古文、古籍或少数民族文字的单字数据集均采用人工仿写的方式,由于人工仿写数据与真实古籍图像存在特征差异较大的问题,通过人工仿写所构建的数据集质量不高,还会导致在真实古籍图像上的识别效果不够理想,这严重制约了深度学习在单字识别和机器翻译研究领域的发展,因此构建古文、古籍真实单字数据集十分必要。
技术实现思路
1、本公开实施例提供了一种数据集构建、文字识别方法、装置、设备及介质,提高神经网络模型提取单字图像特征的准确性,从而构建高质量单字数据集。
2、第一方面,提供了一种数据集构建方法,
本文档来自技高网...
【技术保护点】
1.一种数据集构建方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述神经网络模型的训练过程包括:对于每个所述单字图像,
3.根据权利要求2所述的方法,其特征在于,根据所述对比学习损失函数的函数值以及所述聚类损失函数的函数值更新所述神经网络模型的参数和所述动量编码器的参数,包括:
4.根据权利要求1所述的方法,其特征在于,还包括:
5.根据权利要求1所述的方法,其特征在于,根据所述聚类结果构建所述设定语言的单字数据集,包括:
6.根据权利要求5所述的方法,其特征在于,根据所述单字图像的特征
...【技术特征摘要】
1.一种数据集构建方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述神经网络模型的训练过程包括:对于每个所述单字图像,
3.根据权利要求2所述的方法,其特征在于,根据所述对比学习损失函数的函数值以及所述聚类损失函数的函数值更新所述神经网络模型的参数和所述动量编码器的参数,包括:
4.根据权利要求1所述的方法,其特征在于,还包括:
5.根据权利要求1所述的方法,其特征在于,根据所述聚类结果构建所述设定语言的单字数据集,包括:
6.根据权利要求5所述的方法,其特征在于,根据所述单字图像的特征在单字图像库中检索相似度较高的设定数量的目标图像;包括:
7.根据权利要求...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。