多音字处理方法、装置、电子设备及存储介质制造方法及图纸

技术编号:29078598 阅读:14 留言:0更新日期:2021-06-30 09:37
本申请公开了一种多音字处理方法、装置、电子设备及存储介质,该方法包括:获取扫描图像,对所述扫描图像进行切行,得到目标图像,对所述目标图像进行识别,得到所述至少一个注音和所述多个文字,基于所述至少一个注音,从所述多个文字中确定所述每个注音对应的多音字。本申请通过扫描和识别文本中的注音来确定文本中的多音字,能够解决无法识别文本中的多音字注音的问题,提高文本的识别效果。提高文本的识别效果。提高文本的识别效果。

【技术实现步骤摘要】
多音字处理方法、装置、电子设备及存储介质


[0001]本申请涉及计算机
,尤其涉及一种多音字处理方法、装置、电子设备及存储介质。

技术介绍

[0002]随着电子技术的发展,电子设备的种类也越来越丰富。扫描笔又名微型扫描仪或手刮式扫描笔,是一种手持式的电子设备。将扫描笔的笔尖扫过书刊、报纸上的文字时,通过内置的光学字符识别(Optical Character Recognition,OCR)模块能够对书刊、报纸上的文字进行识别、存储、编辑等操作。对于识别到的文字,扫描笔通过内置的发音(Text To Speech,TTS)模块和翻译模块,能够将文字读出来并进行翻译。多音字,是指一个字有两个或两个以上的读音,不同的读音表义不同,用法不同,词性也往往不同。读音有区别词性和词义的作用;根据使用情况不同,读音也不同,读音有区别用法的作用。
[0003]在学生的课本和学习资料中,会存在大量标有注音的多音字,但是现有的扫描笔技术方案中,仅支持文字的扫描与识别,无法识别出待扫描文本中对多音字的注音。因而在这种情形中,扫描笔无法准确的实现语音的合成,无法正确理解语义,无法基于此进行准确的翻译。

技术实现思路

[0004]本申请实施例提出了一种多音字处理方法装置、电子设备及存储介质,能够支持注音的扫描和识别,从而提高文本的识别效果。
[0005]第一方面,本申请实施例提供一种多音字处理方法,所述方法包括:
[0006]获取扫描图像;
[0007]对所述扫描图像进行切行,得到目标图像;
[0008]对所述目标图像进行识别,得到所述至少一个注音和所述多个文字;
[0009]基于所述至少一个注音,从所述多个文字中确定所述每个注音对应的多音字。
[0010]第二方面,本申请实施例提供一种多音字处理装置,所述装置包括:
[0011]获取单元,用于获取扫描图像;
[0012]切行单元,用于对所述扫描图像进行切行,得到目标图像,所述目标图像中包括至少一个注音和多个文字;
[0013]识别单元,用于对所述目标图像进行识别,得到所述至少一个注音和所述多个文字;
[0014]确定单元,基于所述至少一个注音,从所述多个文字中确定所述每个注音对应的多音字
[0015]第三方面,本申请实施例提供一种电子设备,包括处理器、存储器、通信接口以及一个或多个程序,其中,上述一个或多个程序被存储在上述存储器中,并且被配置由上述处理器执行,上述程序包括用于执行本申请实施例第一方面的任一方法中的步骤的指令。
[0016]第四方面,本申请实施例提供了一种计算机可读存储介质,其中,上述计算机可读存储介质存储用于电子数据交换的计算机程序,其中,上述计算机程序使得计算机执行如本申请实施例第一方面的任一方法中所描述的部分或全部步骤。
[0017]第五方面,本申请实施例提供了一种计算机程序产品,其中,上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,上述计算机程序可操作来使计算机执行如本申请实施例第一方面的任一方法中所描述的部分或全部步骤。该计算机程序产品可以为一个软件安装包。
[0018]本申请实施例提供的多音字处理方法,获取扫描图像,对所述扫描图像进行切行,得到目标图像,对所述目标图像进行识别,得到所述至少一个注音和所述多个文字,基于所述至少一个注音,从所述多个文字中确定所述每个注音对应的多音字。本申请通过扫描和识别文本中的注音来确定文本中的多音字,能够解决无法识别文本中的多音字注音的问题,提高文本的识别效果。
附图说明
[0019]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0020]图1是本申请实施例提供的一种文本识别系统的结构架构图;
[0021]图2是本申请实施例提供的一种多音字处理方法的流程示意图;
[0022]图3a是本申请实施例提供的一种扫描图像的示意图;
[0023]图3b是本申请实施例提供的另一种扫描图像的示意图;
[0024]图4a是本申请实施例提供的一种中间图像的示意图;
[0025]图4b是本申请实施例提供的一种目标图像的示意图;
[0026]图4c是本申请实施例提供的另一种目标图像的示意图;
[0027]图5是本申请实施例提供的一种多音字处理装置的功能单元组成框图;
[0028]图6是本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
[0029]下面结合附图,对本申请实施例进行详细说明。
[0030]应理解,本申请实施例中涉及的“至少一个”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B的情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指的这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b,或c中的至少一项(个),可以表示:a,b,c,a

b,a

c,b

c,或a

b

c,其中a,b,c可以是单个,也可以是多个。
[0031]以及,除非有相反的说明,本申请实施例提及“第一”、“第二”等序数词是用于对多个对象进行区分,不用于限定多个对象的顺序、时序、优先级或者重要程度。例如,第一信息和第二信息,只是为了区分不同的信息,而并不是表示这两种信息的内容、优先级、发送顺
序或者重要程度等的不同。
[0032]应理解,本申请提供的多音字处理方法可以应用于电子设备中包含文本识别功能的系统,例如,电子扫描笔、点读笔、翻译笔等。具体地,文本识别系统可以运行与如图1所示的结构示意图中,如图1所示,如图1所示,该系统包括光学字符识别(Optical Character Recognition,ORC)模块、标注模块、发音(Text To Speech,TTS)模块和翻译模块。其中,ORC用于识别出电子设备采集的扫描图像中的文字和注音;标注模块用于将识别出的注音标注成识别出来的多音字的拼音;TTS模块用于将识别出来的包括标注了多音字拼音的文字转换成语音数据并播放;翻译模块用于将识别出来的包括标注了多音字拼音的文字进行语义理解并翻译。
[0033]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多音字处理方法,其特征在于,所述方法包括:获取扫描图像;对所述扫描图像进行切行,得到目标图像;对所述目标图像进行识别,得到所述至少一个注音和所述多个文字;基于所述至少一个注音,从所述多个文字中确定所述每个注音对应的多音字。2.根据权利要求1所述的方法,其特征在于,在所述至少一个注音与所述多个文字分别位于相邻行时;所述对所述扫描图像进行切行,得到目标图像,包括:对所述扫描图像进行切行,得到至少一个中间图像,每个中间图像包括文字行和注音行;对每个所述中间图像进行切行,得到至少一个目标图像,所述目标图像包括文字图像和注音图像。3.根据权利要求2所述的方法,其特征在于,所述基于所述至少一个注音,从所述多个文字中确定所述每个注音对应的多音字,包括:基于所述每个注音的起止坐标和所述每个文字的起止坐标,从所述多个文字中确定每个注音对应的至少一个候选文字;从所述每个注音对应的至少一个候选文字中确定每个注音对应的多音字。4.根据权利要求3所述的方法,其特征在于,所述对所述目标图像进行识别,得到所述至少一个注音和所述多个文字,包括:使用拼音识别模型对所述注音图像进行识别,得到所述注音图像中的多个拼音字母;将所述拼音字母之间的距离小于或等于阈值的连续相邻的至少一个拼音字母划分为一个注音,得到所述至少一个注音,并记录每个注音的所述起止坐标;使用文字识别模型对所述文字图像进行识别,得到所述多个文字,并记录每个所述文字的所述起止坐标。5.根据权利要求3或4所述的方法,其特征在于,所述注音的起止坐标与所述候选文字的起止坐标全部或部分重叠。6.根据权利要求1所述的方法,其特征在于,在所述至少一个注音与所述多个文字位于同一行时;所述对所述目标图像进行识别,得到所述至少一个注音和所述多个文字,包括:使用文字识别模型对所述目标图像从左到右进行识别,当在文字识别模型下识别出第一符号时,使用拼音识...

【专利技术属性】
技术研发人员:王田王晓斐高群
申请(专利权)人:安徽淘云科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1