少数类语言的图像处理方法、装置、设备和存储介质制造方法及图纸

技术编号:34595015 阅读:25 留言:0更新日期:2022-08-20 08:55
本公开提供了一种少数类语言的图像处理方法、装置、设备和存储介质,涉及人工智能技术领域,具体为自然语言处理、深度学习技术领域。具体实现方案为:获取少数类语言中的少数类字符元素;采用所述少数类字符元素构建少数类伪文本;将所述少数类伪文本转换为图像格式,并根据图像转换结果得到少数类语言图像。本公开实施例能够对少数类语言的处理效率。实施例能够对少数类语言的处理效率。实施例能够对少数类语言的处理效率。

【技术实现步骤摘要】
少数类语言的图像处理方法、装置、设备和存储介质


[0001]本公开涉及计算机
,尤其涉及自然语言处理、深度学习
,具体涉及一种少数类语言的图像处理方法、装置、电子设备和计算机可读存储介质。

技术介绍

[0002]互联网上的数据存在丰富的信息来源,视频,图像,语音,文字,网页等。其中视频图像中包含大量文字内容。世界现存文字包含近千种,主流语言十几种。除了主流语言之外的少数类语言,使用范围、普及度较低,因为对少数类语言的处理存在困难。

技术实现思路

[0003]本公开提供了一种用于少数类语言的图像处理方法、装置、设备和存储介质。
[0004]根据本公开的一方面,提供了一种少数类语言的图像生成方法,包括:
[0005]获取少数类语言中的少数类字符元素;
[0006]采用所述少数类字符元素构建少数类伪文本;
[0007]将所述少数类伪文本转换为图像格式,并根据图像转换结果得到少数类语言图像。
[0008]根据本公开的一方面,提供了一种少数类语言的图像处理方法,包括:
[0009]获取待处理的目标图像;
[0010]采用少数类语言检测模型,从所述目标图像中提取少数类语言区域,根据少数类语言区域确定检测结果,并根据检测结果确定目标图像所属的目标少数类语种;
[0011]其中,所述少数类语言检测模型的训练样本采用本公开任意实施例所提供的少数类语言的图像生成方法确定。
[0012]根据本公开的一方面,提供了一种少数类语言的图像生成装置,包括:
[0013]字符元素获取模块,用于获取少数类语言中的少数类字符元素;
[0014]伪文本构建模块,用于采用所述少数类字符元素构建少数类伪文本;
[0015]文本转换模块,用于将所述少数类伪文本转换为图像格式;
[0016]图像生成模块,用于根据图像转换结果得到少数类语言图像。
[0017]根据本公开的一方面,提供了一种少数类语言的图像处理装置,包括:
[0018]图像获取模块,用于获取待处理的目标图像;
[0019]图像检测模块,用于采用少数类语言检测模型,从所述目标图像中提取少数类语言区域,根据少数类语言区域确定检测结果;
[0020]目标语种确定模块,用于根据检测结果确定目标图像所属的目标少数类语种;
[0021]其中,所述少数类语言检测模型的训练样本由本公开任意实施例所提供的少数类语言的图像生成装置确定。
[0022]根据本公开的又一方面,提供了一种电子设备,包括:
[0023]至少一个处理器;以及
[0024]与所述至少一个处理器通信连接的存储器;其中,
[0025]所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本公开任意实施例所提供的少数类语言的图像生成方法或者少数类语言的图像处理方法。
[0026]根据本公开的又一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行本公开任意实施例所提供的少数类语言的图像生成方法或者少数类语言的图像处理方法。
[0027]根据本公开的又一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现本公开任意实施例所提供的少数类语言的图像生成方法或者少数类语言的图像处理方法。
[0028]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0029]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0030]图1a是根据本公开实施例提供的一种少数类语言的图像生成方法的示意图;
[0031]图1b是根据本公开实施例提供的一种图像转换结果的示意图;
[0032]图1c是根据本公开实施例提供的一种少数类语言图像的示意图;
[0033]图2a是根据本公开实施例提供的另一种少数类语言的图像生成方法的示意图;
[0034]图2b是根据本公开实施例提供的一种维文编码表的示意图;
[0035]图3是根据本公开实施例提供的又一种少数类语言的图像生成方法的示意图;
[0036]图4是根据本公开实施例提供的一种少数类语言的图像处理方法的示意图;
[0037]图5是根据本公开实施例提供的另一种少数类语言的图像处理方法的示意图;
[0038]图6是根据本公开实施例提供的一种少数类语言的图像生成装置的示意图;
[0039]图7是根据本公开实施例提供的一种少数类语言的图像处理装置的示意图;
[0040]图8是用来实现本公开实施例的少数类语言的图像生成方法或少数类语言的图像处理方法的电子设备的框图。
具体实施方式
[0041]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0042]以下结合附图,对本公开实施例提供的该方案进行详细说明。
[0043]图1a是根据本公开实施例提供的一种少数类语言的图像生成方法的示意图,本公开实施例可适用于构建少数类语言图像的情况。该方法可由一种少数类语言的图像生成装置来执行,该装置可采用硬件和/或软件的方式来实现,可配置于电子设备中。参考图1a,该方法具体包括如下:
[0044]S110、获取少数类语言中的少数类字符元素;
[0045]S120、采用所述少数类字符元素构建少数类伪文本;
[0046]S130、将所述少数类伪文本转换为图像格式,并根据图像转换结果得到少数类语言图像。
[0047]其中,少数类语言是指除主流语言之外的其他语言,少数类字符元素是指少数类语言中文字的基本组成单元,类似于中文中的偏旁部首、英文中的英文字母。少数类语言中的文字采用少数类字符元素组成。
[0048]其中,伪文本是指形式上具有文本的结构关系,但是可以没有实际语义。少数类语言伪文本可以通过对少数类字符元素进行排列、组合等处理得到,类似少数类语言文字,但没有可以实际语义。为了便于理解,英文伪文本可以通过对英文字母进行排列、组合得到,具有英文语句的形式结构,但是没有实际语义。通过生成少数类伪文本,而无需了解少数类伪文本的语义,甚至少数类伪文本没有实际语义,使得少数类伪文本的处理过程无需依赖先验知识。
[0049]在本公开实施例中,可以采用图像库,例如采用python的PIL库,将少数类伪文本转换为图像格式,得到图像转化结果。参考图1b,图像转化结果中可以包括少数类伪文本。并且,还可以将图像转化结果01添加到背景本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种少数类语言的图像生成方法,包括:获取少数类语言中的少数类字符元素;采用所述少数类字符元素构建少数类伪文本;将所述少数类伪文本转换为图像格式,并根据图像转换结果得到少数类语言图像。2.根据权利要求1所述的方法,其中,所述获取少数类语言中的少数类字符元素,包括:从支持少数类语言的编码库中,获取少数类语言中的少数类字符元素;所述将所述少数类伪文本转换为图像格式,得到图像转换结果,包括:基于所述编码库中少数类字符元素的编码信息,将少数类伪文本转换为图像格式得到图像转换结果。3.根据权利要求1所述的方法,其中,所述采用所述少数类字符元素构建少数类伪文本,包括:获取辅助语言的辅助文本;根据所述辅助文本中不同辅助字符元素之间的位置信息,对少数类字符元素进行排列,得到少数类伪文本。4.根据权利要求3所述的方法,其中,所述根据所述辅助文本中不同辅助字符元素之间的位置信息,对少数类字符元素进行排列,得到少数类伪文本,包括:基于少数类字符元素与辅助字符元素之间的关联关系,确定与辅助文本中的辅助字符元素所关联的少数类字符元素,并采用关联的少数类字符元素代替该辅助字符元素,得到少数类伪文本;所述少数类字符元素与辅助字符元素之间的关联关系随机确定。5.根据权利要求1所述的方法,其中,所述根据图像转换结果得到少数类语言图像,包括:获取背景图像,并从背景图像上选择随机位置信息;根据所述随机位置信息,将所述图像转换结果添加到所述背景图像上,得到少数类语言图像。6.一种少数类语言的图像处理方法,包括:获取待处理的目标图像;采用少数类语言检测模型,从所述目标图像中提取少数类语言区域,根据少数类语言区域确定检测结果,并根据检测结果确定目标图像所属的目标少数类语种;其中,所述少数类语言检测模型的训练样本采用如权利要求1

5中任一项所述的少数类语言的图像生成方法确定。7.根据权利要求6所述的方法,其中,所述根据检测结果确定目标图像所属的目标少数类语种,包括:若检测结果为目标图像属于第一少数类语种,且所述第一少数类语种的置信度大于第一置信度阈值,则将所述第一少数类语种作为所述目标少数类语种;若检测结果为目标图像属于第二少数类语种,且所述第二少数类语种的置信度大于第二置信度阈值,则采用少数类语种识别模型确定目标图像所属的目标少数类语种;其中,所述第一置信度阈值大于所述第二置信度阈值;所述少数类语言识别模型的训练样本采用如权利要求1

5中任一项所述的少数类语言的图像生成方法确定。
8.根据权利要求7所述的方法,其中,所述采用少数类语言识别模型确定目标图像所属的目标少数类语种,包括:将目标图像输入少数类语言识别模型,得到目标图像特征;将所述目标图像特征,与第二少数类语种的特征基准库进行匹配,得到第二少数类语种匹配度;将所述目标图像特征,与第二少数类语种的相似语种的特征基准库进行匹配,得到相似语种匹配度;若所述第二少数类语种匹配度大于所述相似语种匹配度,且所述第二少数类语种匹配度大于第三置信度阈值,则确定第二少数类语种为目标图像所属的目标少数类语种;所述第三置信度阈值大于所述第一置信度阈值。9.根据权利要求8所述的方法,所述还包括:采用少数类语言识别模型,对少数类语言图像进行特征提取得到少数类语种特征,并对少数类语种特征进行聚类得到少数类语种的特征基准库;采用少数类语言识别模型,对相似语言图像进行特征提取得到相似语种特征,并对相似语种特征进行聚类得到相似语种的特征基准库。10.一种少数类语言的图像生成装置,包括:字符元素获取模块,用于获取少数类语言中的少数类字符元素;伪文本构建模块,用于采用所述少数类字符元素构建少数类伪文本;文本转换模块,用于将所述少数类伪文本转换为图像格式;图像生成模块,用于根据图像转换结果得到少数类语言图像。11.根据权利要求10所述的装置,其中,所述字符元素获取模块,具体用于从支持少数类语言的编码库中,获取少数类语言中...

【专利技术属性】
技术研发人员:张素芳吕一邓天生于天宝贠挺林赛群
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1