一种基于强化学习的古籍文字精准检测方法技术

技术编号:25186538 阅读:81 留言:0更新日期:2020-08-07 21:14
本发明专利技术公开一种基于强化学习的古籍文字精准检测方法,包括步骤S1、数据获取,收集古籍文献的图像数据,并进行单字标注,形成古籍文献数据集;步骤S2、文字粗检测,采用基于深度神经网络的目标检测算法构建粗检测器,通过步骤S1得到的古籍文献数据集对粗检测器进行训练,基于训练后的粗检测器对古籍文献进行文字粗检测;步骤S3、文字精调,基于深度神经网络构建强化学习智能体,将文字粗检测结果作为强化学习智能体的输入,选取基于价值函数的方法,设计奖励函数来训练强化学习智能体,通过训练后的强化学习智能体进行古籍文献的文字检测。本发明专利技术通过强化学习来进一步提高文字检测精度,为古籍文字的研究提供了有力的帮助。

【技术实现步骤摘要】
一种基于强化学习的古籍文字精准检测方法
本专利技术涉及模式识别与人工智能
,特别是涉及一种基于强化学习的古籍文字精准检测方法。
技术介绍
古籍是我国非物质文化遗产,也是人类宝贵的物质文明。古籍的数量因为时间的侵蚀而慢慢减少,不可再生。我国现存的古籍约10余万种,其中残缺破损、氧化模糊占大多数,急需修复。在多媒体技术与计算机技术的辅助下,一种很好的缓解方法是数字化古籍,并进行后续存档建库等等。这样可以高效地对古籍进行检索利用,实现对其的再生性保护,而且还可以传承古籍文化知识,不再受时间年代的限制。对于单个文字级别的检测工作,大多是通过组合基于传统方法的独立技术模块。这些算法的不足之处是需要手工对模型的多个超参数做数据集的适应性调整,也就是说针对不同的数据集,需手工调整超参数来保证模型的检测效果。近年来,深度学习在古籍文献的文字检测和分割任务上的应用也如火如荼地广泛开展研究,但大多依赖于版面的排列整齐与一致性,有较大的局限性,在单字检测任务上难以达到高精度的要求。
技术实现思路
本专利技术的目的是提供一种基于强化学习的古籍文字精准检测方法,以解决上述现有技术存在的问题,检测精度高,能够实现对多种复杂古籍文献进行文字精确检测。为实现上述目的,本专利技术提供了如下方案:本专利技术提供一种基于强化学习的古籍文字精准检测方法,包括如下步骤:步骤S1、数据获取,收集古籍文献的图像数据,并进行篇幅级的单字标注,形成古籍文献数据集,并将古籍文献数据集分为训练集和测试集;步骤S2、文字粗检测,采用基于深度神经网络的目标检测算法构建粗检测器,通过步骤S1得到的训练集和测试集分别对粗检测器进行训练和测试,并基于训练后的粗检测器对古籍文献进行文字粗检测,得到文字边界框的粗检测结果;步骤S3、文字精调,基于深度神经网络构建强化学习智能体,将步骤S2得到的文字粗检测结果作为强化学习智能体的输入,选取强化学习中基于价值函数的方法,设计奖励函数来训练强化学习智能体,通过训练后的强化学习智能体对文字边界框进行精调,得到古籍文献的文字检测结果。优选地,所述步骤S2中采用单阶段目标检测算法YOLOv3或两阶段目标检测算法RFCN构建粗检测器。优选地,所述步骤S3包括如下步骤:S31、基于深度神经网络构建强化学习智能体;将步骤S2得到的文字粗检测结果作为强化学习智能体的输入,通过深度神经网络对文字边界框进行状态编码,强化学习智能体输出一个N维向量,N维向量代表强化学习智能体对文字边界框进行调整的N个动作的价值;S32、选取强化学习中基于价值函数的方法,设计奖励函数来训练强化学习智能体,通过训练后的强化学习智能体对文字边界框进行精调,完成古籍文字的检测。优选地,所述学习智能体包括一个主干网络和两个分支;所述主干网络包括两个残差模块,所述主干网络后展开两个分支,两个分支分别为动作优势支路和挡墙状态价值支路,所述动作优势支路和挡墙状态价值支路通过式1进行融合:其中,Q(s,a)、A(s,a)分别表示整个强化学习智能体的深度神经网络、动作优势支路在给定状态s和当前状态选定的动作a下的价值函数,a’表示下一状态选定的动作,θ表示主干网络的参数,α表示估计动作优势支路参数,V(s)和β分别表示当前状态价值支路的函数和参数,|A|表示动作优势支路的价值函数A(s,a′;θ,α)的向量维度。优选地,强化学习智能体的具体训练方法包括:基于步骤S2得到的文字粗检测结果,以一个文字作为一次情节对文字边界框进行调整;其中,当前状态为文字粗检测结果,通过神经网络输出的动作进行文字边界框的调整,到达下一个状态,根据步骤S1中标注的真实值给出奖励或惩罚,基于价值函数的方法,并结合奖励信号完成强化学习智能体的训练。优选地,所述步骤S32中,强化学习中基于价值函数的选取方法具体包括:基于价值函数的方法遵循马尔科夫模型,使用Q-learning的算法变体训练强化学习智能体;为减少Q-learning算法所导致的过度估计效应,引入DoubleDQN和比例优先的经验回放策略。本专利技术公开了以下技术效果:本专利技术基于深度神经网络构建强化学习智能体,选取强化学习中基于价值函数的方法,设计奖励函数来训练强化学习智能体,通过训练后的强化学习智能体对文字边界框进行精调,进一步提高基于深度学习的文字检测结果,得到精准的文字检测结果,为古籍文字的研究提供有力的帮助,方便考古学者进行回溯建库,文字识别、释文检索、修复古籍等相关研究,进而传承文化遗产,发扬民族精神。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术基于强化学习的古籍文字精准检测方法流程图;图2为本专利技术基于强化学习的古籍文字精准检测流程示意图;图3为本专利技术实施例中所采集的古籍文献数据集示例;图4为本专利技术文字精调流程示意图;图5为本专利技术强化学习智能体结构示意图;图6为本专利技术强化学习智能体对文字边界框进行调整的9个动作示意图;图7为本专利技术实施例中奖励函数示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。为使本专利技术的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本专利技术作进一步详细的说明。参照图1-7所示,本实施例提供一种基于强化学习的古籍文字精准检测方法,包括如下步骤:步骤S1、数据获取,收集古籍文献的图像数据,并进行篇幅级的单字标注,形成古籍文献数据集,并将古籍文献数据集分为训练集和测试集。本实施例从古籍文献TKH(TripitakaKoreanaintheHanlanguage,朝鲜语的大藏经)中选取1000张图片,每张图片版面规整,一致性高,共包括320,000个文字实例、23,000文本行;从古籍文献MTH(MultipleTripitakainHan,汉中的多藏经)中选取500张图片,相对于TKH,MTH版面复杂多变、无定型,共包括200,000个文字实例、17,000文本行;另外,再收集1200张属于MTH系列的藏经图片,共得到2700张古籍文献图片数据,将2700张古籍文献图片数据按4比1的比例划分训练集和测试集。图3是从2700张图片数据中随机抽取的样本示例图。步骤S2、文字粗检测,采用基于深度神经网络的目标检测算法构建粗检测器,通过步骤S1得到的训练集和测试集分别对粗检测器进行训练和测试,并基于训练后的粗检测器对古籍文本文档来自技高网...

【技术保护点】
1.一种基于强化学习的古籍文字精准检测方法,其特征在于,包括如下步骤:/n步骤S1、数据获取,收集古籍文献的图像数据,并进行篇幅级的单字标注,形成古籍文献数据集,并将古籍文献数据集分为训练集和测试集;/n步骤S2、文字粗检测,采用基于深度神经网络的目标检测算法构建粗检测器,通过步骤S1得到的训练集和测试集分别对粗检测器进行训练和测试,并基于训练后的粗检测器对古籍文献进行文字粗检测,得到文字边界框的粗检测结果;/n步骤S3、文字精调,基于深度神经网络构建强化学习智能体,将步骤S2得到的文字粗检测结果作为强化学习智能体的输入,选取强化学习中基于价值函数的方法,设计奖励函数来训练强化学习智能体,通过训练后的强化学习智能体对文字边界框进行精调,得到古籍文献的文字检测结果。/n

【技术特征摘要】
1.一种基于强化学习的古籍文字精准检测方法,其特征在于,包括如下步骤:
步骤S1、数据获取,收集古籍文献的图像数据,并进行篇幅级的单字标注,形成古籍文献数据集,并将古籍文献数据集分为训练集和测试集;
步骤S2、文字粗检测,采用基于深度神经网络的目标检测算法构建粗检测器,通过步骤S1得到的训练集和测试集分别对粗检测器进行训练和测试,并基于训练后的粗检测器对古籍文献进行文字粗检测,得到文字边界框的粗检测结果;
步骤S3、文字精调,基于深度神经网络构建强化学习智能体,将步骤S2得到的文字粗检测结果作为强化学习智能体的输入,选取强化学习中基于价值函数的方法,设计奖励函数来训练强化学习智能体,通过训练后的强化学习智能体对文字边界框进行精调,得到古籍文献的文字检测结果。


2.根据权利要求1所述的基于强化学习的古籍文字精准检测方法,其特征在于,所述步骤S2中采用单阶段目标检测算法YOLOv3或两阶段目标检测算法RFCN构建粗检测器。


3.根据权利要求1所述的基于强化学习的古籍文字精准检测方法,其特征在于,所述步骤S3包括如下步骤:
S31、基于深度神经网络构建强化学习智能体;
将步骤S2得到的文字粗检测结果作为强化学习智能体的输入,通过深度神经网络对文字边界框进行状态编码,强化学习智能体输出一个N维向量,N维向量代表强化学习智能体对文字边界框进行调整的N个动作的价值;
S32、选取强化学习中基于价值函数的方法,设计奖励函数来训练强化学习智能体,通过训练后的强化学习智能体对文字边界框进行精调,完成古籍文字的检测。

【专利技术属性】
技术研发人员:伍思航金连文汪嘉鹏马伟洪毛慧芸
申请(专利权)人:华南理工大学华南理工大学珠海现代产业创新研究院
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1