【技术实现步骤摘要】
少数类语言的图像处理方法、装置、设备和存储介质
[0001]本公开涉及计算机
,尤其涉及自然语言处理、深度学习
,具体涉及一种少数类语言的图像处理方法、装置、电子设备和计算机可读存储介质。
技术介绍
[0002]互联网上的数据存在丰富的信息来源,视频,图像,语音,文字,网页等。其中视频图像中包含大量文字内容。世界现存文字包含近千种,主流语言十几种。除了主流语言之外的少数类语言,使用范围、普及度较低,因为对少数类语言的处理存在困难。
技术实现思路
[0003]本公开提供了一种用于少数类语言的图像处理方法、装置、设备和存储介质。
[0004]根据本公开的一方面,提供了一种少数类语言的图像生成方法,包括:
[0005]获取少数类语言中的少数类字符元素;
[0006]采用所述少数类字符元素构建少数类伪文本;
[0007]将所述少数类伪文本转换为图像格式,并根据图像转换结果得到少数类语言图像。
[0008]根据本公开的一方面,提供了一种少数类语言的图像处理方法,包括:
[0009]获取待处理的目标图像;
[0010]采用少数类语言检测模型,从所述目标图像中提取少数类语言区域,根据少数类语言区域确定检测结果,并根据检测结果确定目标图像所属的目标少数类语种;
[0011]其中,所述少数类语言检测模型的训练样本采用本公开任意实施例所提供的少数类语言的图像生成方法确定。
[0012]根据本公开的一方面,提供了一种少数类语言的图像生成装置 ...
【技术保护点】
【技术特征摘要】
1.一种少数类语言的图像生成方法,包括:获取少数类语言中的少数类字符元素;采用所述少数类字符元素构建少数类伪文本;将所述少数类伪文本转换为图像格式,并根据图像转换结果得到少数类语言图像。2.根据权利要求1所述的方法,其中,所述获取少数类语言中的少数类字符元素,包括:从支持少数类语言的编码库中,获取少数类语言中的少数类字符元素;所述将所述少数类伪文本转换为图像格式,得到图像转换结果,包括:基于所述编码库中少数类字符元素的编码信息,将少数类伪文本转换为图像格式得到图像转换结果。3.根据权利要求1所述的方法,其中,所述采用所述少数类字符元素构建少数类伪文本,包括:获取辅助语言的辅助文本;根据所述辅助文本中不同辅助字符元素之间的位置信息,对少数类字符元素进行排列,得到少数类伪文本。4.根据权利要求3所述的方法,其中,所述根据所述辅助文本中不同辅助字符元素之间的位置信息,对少数类字符元素进行排列,得到少数类伪文本,包括:基于少数类字符元素与辅助字符元素之间的关联关系,确定与辅助文本中的辅助字符元素所关联的少数类字符元素,并采用关联的少数类字符元素代替该辅助字符元素,得到少数类伪文本;所述少数类字符元素与辅助字符元素之间的关联关系随机确定。5.根据权利要求1所述的方法,其中,所述根据图像转换结果得到少数类语言图像,包括:获取背景图像,并从背景图像上选择随机位置信息;根据所述随机位置信息,将所述图像转换结果添加到所述背景图像上,得到少数类语言图像。6.一种少数类语言的图像处理方法,包括:获取待处理的目标图像;采用少数类语言检测模型,从所述目标图像中提取少数类语言区域,根据少数类语言区域确定检测结果,并根据检测结果确定目标图像所属的目标少数类语种;其中,所述少数类语言检测模型的训练样本采用如权利要求1
‑
5中任一项所述的少数类语言的图像生成方法确定。7.根据权利要求6所述的方法,其中,所述根据检测结果确定目标图像所属的目标少数类语种,包括:若检测结果为目标图像属于第一少数类语种,且所述第一少数类语种的置信度大于第一置信度阈值,则将所述第一少数类语种作为所述目标少数类语种;若检测结果为目标图像属于第二少数类语种,且所述第二少数类语种的置信度大于第二置信度阈值,则采用少数类语种识别模型确定目标图像所属的目标少数类语种;其中,所述第一置信度阈值大于所述第二置信度阈值;所述少数类语言识别模型的训练样本采用如权利要求1
‑
5中任一项所述的少数类语言的图像生成方法确定。
8.根据权利要求7所述的方法,其中,所述采用少数类语言识别模型确定目标图像所属的目标少数类语种,包括:将目标图像输入少数类语言识别模型,得到目标图像特征;将所述目标图像特征,与第二少数类语种的特征基准库进行匹配,得到第二少数类语种匹配度;将所述目标图像特征,与第二少数类语种的相似语种的特征基准库进行匹配,得到相似语种匹配度;若所述第二少数类语种匹配度大于所述相似语种匹配度,且所述第二少数类语种匹配度大于第三置信度阈值,则确定第二少数类语种为目标图像所属的目标少数类语种;所述第三置信度阈值大于所述第一置信度阈值。9.根据权利要求8所述的方法,所述还包括:采用少数类语言识别模型,对少数类语言图像进行特征提取得到少数类语种特征,并对少数类语种特征进行聚类得到少数类语种的特征基准库;采用少数类语言识别模型,对相似语言图像进行特征提取得到相似语种特征,并对相似语种特征进行聚类得到相似语种的特征基准库。10.一种少数类语言的图像生成装置,包括:字符元素获取模块,用于获取少数类语言中的少数类字符元素;伪文本构建模块,用于采用所述少数类字符元素构建少数类伪文本;文本转换模块,用于将所述少数类伪文本转换为图像格式;图像生成模块,用于根据图像转换结果得到少数类语言图像。11.根据权利要求10所述的装置,其中,所述字符元素获取模块,具体用于从支持少数类语言的编码库中,获取少数类语言中...
【专利技术属性】
技术研发人员:张素芳,吕一,邓天生,于天宝,贠挺,林赛群,
申请(专利权)人:百度在线网络技术北京有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。