字体识别方法技术

技术编号:39662171 阅读:3 留言:0更新日期:2023-12-11 18:24
本发明专利技术实施例涉及一种字体识别方法

【技术实现步骤摘要】
字体识别方法、装置、电子设备及存储介质


[0001]本专利技术实施例涉及计算机领域,尤其涉及一种字体识别方法

装置

电子设备及存储介质


技术介绍

[0002]在一些应用场景中,用户在看到图片上的某种字体时,可能会想在自己的可编辑文档,例如
Word
文档
、PPT
文档上来应用该种字体

[0003]然而,若非专业人士,用户是无法直接通过视觉确定图片中文字所应用字体的,那么在无法知晓字体的情况下,用户也就无法使用该字体

[0004]对此,亟需一种能够识别图片中文字字体的技术方案


技术实现思路

[0005]鉴于此,为实现识别图片中文字的字体,本专利技术实施例提供一种字体识别方法

装置

电子设备及存储介质

[0006]第一方面,本专利技术实施例提供一种字体识别方法,包括:
[0007]确定待识别图片,所述待识别图片中包含多个文字;
[0008]从所述待识别图片中提取出多个单字图片,每个所述单字图片中包含一个所述文字;
[0009]确定每个所述单字图片中的所述文字对应的第一候选字体集;
[0010]基于每个所述单字图片中的所述文字对应的所述第一候选字体集,确定所述待识别图片中所述文字的字体

[0011]在一可能的实施方式中,所述确定每个所述单字图片中的所述文字对应的第一候选字体集,包括:
[0012]将每个所述单字图片分别输入至已训练的字体识别模型,得到每个所述单字图片对应的预测参数集,所述预测参数集中的预测参数包括字体以及所述单字图片中的文字应用所述字体的概率;
[0013]基于每个所述单字图片对应的所述预测参数集,确定每个所述单字图片中的所述文字对应的第一候选字体集

[0014]在一可能的实施方式中,所述基于每个所述单字图片对应的所述预测参数集,确定每个所述单字图片中的所述文字对应的第一候选字体集,包括:
[0015]针对每个所述单字图片执行以下处理:
[0016]按照对应的所述概率从大到小的顺序,对所述单字图片对应的所述预测参数集中多种所述字体进行排序,得到第二字体序列;
[0017]将所述第二字体序列中,排名前
N
位的所述字体作为候选字体,得到所述单字图片中的所述文字对应的第一候选字体集,所述
N
为正整数

[0018]在一可能的实施方式中,所述基于每个所述单字图片中的所述文字对应的所述第
一候选字体集,确定所述文字的字体,包括:
[0019]确定多个所述第一候选字体集的并集,并将所述并集确定为所述待识别图片对应的第二候选字体集;
[0020]按照预设的排序机制对所述第二候选字体集中包括的多种候选字体进行排序,得到第一字体序列;
[0021]基于所述第一字体序列确定所述待识别文字的字体

[0022]在一可能的实施方式中,所述按照预设的排序机制对所述第二候选字体集中包括的多种候选字体进行排序,得到第一字体序列,包括:
[0023]确定所述第二候选字体集中的每种所述候选字体在多个所述第一候选字体集中的出现次数;
[0024]若每种所述候选字体对应的所述出现次数各不相同,则按照对应的所述出现次数从大到小的顺序对所述第二候选字体集中的多种所述候选字体进行排序,得到第一字体序列;
[0025]或者,若每种所述候选字体对应的所述出现次数均相同,则基于每种所述候选字体对应的多个概率对所述第二候选字体集中的多种所述候选字体进行排序,得到第一字体序列,所述概率为多个所述单字图片中的所述文字应用所述候选字体的概率;
[0026]再或者,若存在两种或两种以上对应的所述出现次数相同的候选字体,则先按照对应的所述出现次数从大到小的顺序对所述第二候选字体集中的多种所述候选字体进行排序,再针对所述第二候选字体集中所述出现次数相同的两种或两种以上候选字体,基于每种所述候选字体对应的多个所述概率对所述两种或两种以上候选字体进行排序,得到第一字体序列

[0027]在一可能的实施方式中,所述基于每种所述候选字体对应的多个所述概率对所述第二候选字体集中的多种所述候选字体进行排序,得到第一字体序列,包括:
[0028]针对所述第二候选字体集中的每种所述候选字体,确定所述候选字体对应的多个所述概率的平均值;
[0029]按照对应的所述平均值从大到小的顺序,对所述第二候选字体集中的多种所述候选字体进行排序,得到第一字体序列

[0030]在一可能的实施方式中,所述方法还包括:
[0031]对每个所述单字图片分别进行文字识别,得到每个所述单字图片中的文字;
[0032]利用所述第一字体序列中的每种所述候选字体,分别对识别出的每个所述文字进行字形渲染,并展示渲染结果

[0033]在一可能的实施方式中,所述字体识别模型通过以下步骤训练得到:
[0034]针对预设字体库中的每种字体执行以下处理:
[0035]利用所述字体对预设文字集中的每一预设文字进行字形渲染,得到字形渲染图片;
[0036]基于所述字形渲染图片以及所述字体构建一条训练样本,并将所述训练样本归入训练样本集;
[0037]利用所述训练样本集对初始模型进行训练,得到已训练的字体识别模型

[0038]在一可能的实施方式中,在基于所述字形渲染图片以及所述字体构建一条训练样
本之前,所述方法还包括:
[0039]对所述字形渲染图片进行训练数据增强处理;
[0040]利用训练数据增强处理后的字形渲染图片执行基于所述字形渲染图片以及所述字体构建一条训练样本的步骤

[0041]第二方面,本专利技术实施例提供一种字体识别装置,包括:
[0042]第一确定模块,用于确定待识别图片,所述待识别图片中包含多个文字;
[0043]提取模块,用于从所述待识别图片中提取出多个单字图片,每个所述单字图片中包含一个所述文字;
[0044]第二确定模块,用于确定每个所述单字图片中的所述文字对应的第一候选字体集;
[0045]第三确定模块,用于基于每个所述单字图片中的所述文字对应的所述第一候选字体集,确定所述文字的字体

[0046]在一可能的实施方式中,所述第二确定模块包括:
[0047]预测单元,用于将每个所述单字图片分别输入至已训练的字体识别模型,得到每个所述单字图片对应的预测参数集,所述预测参数集中的预测参数包括字体以及所述单字图片中的文字应用所述字体的概率;
[0048]第一确定子单元,用于基于每个所述单字图片对应的所述预测参数集,确定每个所述单字图片中的所述文字对应的第一候选本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种字体识别方法,其特征在于,包括:确定待识别图片,所述待识别图片中包含多个文字;从所述待识别图片中提取出多个单字图片,每个所述单字图片中包含一个所述文字;确定每个所述单字图片中的所述文字对应的第一候选字体集;基于每个所述单字图片中的所述文字对应的所述第一候选字体集,确定所述待识别图片中所述文字的字体
。2.
根据权利要求1所述的方法,其特征在于,所述确定每个所述单字图片中的所述文字对应的第一候选字体集,包括:将每个所述单字图片分别输入至已训练的字体识别模型,得到每个所述单字图片对应的预测参数集,所述预测参数集中的预测参数包括字体以及所述单字图片中的文字应用所述字体的概率;基于每个所述单字图片对应的所述预测参数集,确定每个所述单字图片中的所述文字对应的第一候选字体集
。3.
根据权利要求2所述的方法,其特征在于,所述基于每个所述单字图片对应的所述预测参数集,确定每个所述单字图片中的所述文字对应的第一候选字体集,包括:针对每个所述单字图片执行以下处理:按照对应的所述概率从大到小的顺序,对所述单字图片对应的所述预测参数集中多种所述字体进行排序,得到第二字体序列;将所述第二字体序列中,排名前
N
位的所述字体作为候选字体,得到所述单字图片中的所述文字对应的第一候选字体集,所述
N
为正整数
。4.
根据权利要求1所述的方法,其特征在于,所述基于每个所述单字图片中的所述文字对应的所述第一候选字体集,确定所述文字的字体,包括:确定多个所述第一候选字体集的并集,并将所述并集确定为所述待识别图片对应的第二候选字体集;按照预设的排序机制对所述第二候选字体集中包括的多种候选字体进行排序,得到第一字体序列;基于所述第一字体序列确定所述待识别文字的字体
。5.
根据权利要求4所述的方法,其特征在于,所述按照预设的排序机制对所述第二候选字体集中包括的多种候选字体进行排序,得到第一字体序列,包括:确定所述第二候选字体集中的每种所述候选字体在多个所述第一候选字体集中的出现次数;若每种所述候选字体对应的所述出现次数各不相同,则按照对应的所述出现次数从大到小的顺序对所述第二候选字体集中的多种所述候选字体进行排序,得到第一字体序列;或者,若每种所述候选字体对应的所述出现次数均相同,则基于所述候选字体对应的多个概率对所述第二候选字体集中的多种...

【专利技术属性】
技术研发人员:林文松
申请(专利权)人:北京金山办公软件股份有限公司武汉金山办公软件有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1