盲文转换后文本的错别字检测方法、装置及相关设备制造方法及图纸

技术编号:36224265 阅读:10 留言:0更新日期:2023-01-04 12:23
本申请公开了一种盲文转换后文本的错别字检测方法、装置及相关设备,本申请提取待检测文本的文字模态特征,与待检测文本对应的盲文数据的盲文模态特征,将盲文模态特征和文字模态特征进行融合,基于融合特征确定盲文数据对应的真实文本,对比真实文本和待检测文本,以得到错别字检测结果。本申请在错别字检测时,在考虑了待检测文本的文字模态特征的基础上,进一步融合了对应盲文数据的盲文模态特征,使得预测结果更加准确,在此基础上,通过对比真实文本和待检测文本,确定错别字检测结果,大大提升了错别字检测的准确度。大大提升了错别字检测的准确度。大大提升了错别字检测的准确度。

【技术实现步骤摘要】
盲文转换后文本的错别字检测方法、装置及相关设备


[0001]本申请涉及自然语言处理
,更具体的说,是涉及一种盲文转换后文本的错别字检测方法、装置及相关设备。

技术介绍

[0002]盲文是专供盲人摸读书写的文字符号,是其接受教育、与人交流的重要工具。盲文的基本单位是“方”,一方由六个点组成,每个点有凸起和不凸起两种状态,这样一共可以组成64种不同的符号。不同国家根据本国文字特点,发展了自己的盲文文字,以中国的盲文为例,因为汉字数量繁多,盲方不能一一对应到汉字,所以盲文被设计成一种拼音文字,一个汉字通常用2

3方表示,分别对应汉语拼音中的声母、韵母和声调。
[0003]随着社会的进步与发展,盲人更多的融入社会,激发了盲人的创作需求,而盲人创作的盲文文本需要转为目标语种文字(目标语种文字为非盲文文字,示例如中文、英文等)后才能出版供普通人阅读、理解。盲人著作出版前需要经过校对,校对过程需要对转换后的文字和原始盲文进行对照,检出盲文转换为目标语种文字后出现的错别字。
[0004]目前盲人著作的出版校对都是由人工校对,而由于盲文作为点状文字,对普通人来说是另一种文字,这也在一定程度上增加了目标语种文字与盲文对应的校正难度,使得对这些文稿进行校对与纠错将耗费大量的人力与时间。

技术实现思路

[0005]鉴于上述问题,提出了本申请以便提供一种盲文转换后文本的错别字检测方法、装置及相关设备,以解决现有人工对盲文著作转换为目标语种文字后出现的错别字进行校对,容易出现耗费人力、时间的问题。
[0006]具体方案如下:
[0007]第一方面,提供了一种盲文转换后文本的错别字检测方法,包括:
[0008]获取待检测文本及对应的盲文数据;
[0009]提取所述盲文数据的盲文模态特征,以及,提取所述待检测文本的文字模态特征;
[0010]将所述盲文模态特征及所述文字模态特征进行融合,得到融合特征;
[0011]基于融合特征确定所述盲文数据对应的真实文本;
[0012]对比所述真实文本和所述待检测文本,得到待检测文本中的错别字检测结果。
[0013]第二方面,提供了一种盲文转换后文本的错别字检测装置,包括:
[0014]数据获取单元,用于获取待检测文本及对应的盲文数据;
[0015]特征提取单元,用于提取所述盲文数据的盲文模态特征,以及,提取所述待检测文本的文字模态特征;
[0016]特征融合单元,用于将所述盲文模态特征及所述文字模态特征进行融合,得到融合特征;
[0017]真实文本确定单元,用于基于融合特征确定所述盲文数据对应的真实文本;
[0018]错别字确定单元,用于对比所述真实文本和所述待检测文本,得到待检测文本中的错别字检测结果。
[0019]第三方面,提供了一种盲文转换后文本的错别字检测设备,包括:存储器和处理器;
[0020]所述存储器,用于存储程序;
[0021]所述处理器,用于执行所述程序,实现如上的盲文转换后文本的错别字检测方法的各个步骤。
[0022]第四方面,提供了一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现如上的盲文转换后文本的错别字检测方法的各个步骤。
[0023]借由上述技术方案,本申请获取待检测文本及对应的盲文数据,分别提取待检测文本的文字模态特征和盲文数据的盲文模态特征,将提取的两种模态特征进行融合,并基于融合特征确定盲文数据对应的真实文本,对比真实文本和待检测文本,以得到错别字检测结果。由此可见,本申请能够基于待检测文本和盲文数据自动进行错别字的检测,节省了人力且缩短了检测时间。
[0024]进一步地,本申请在对待检测文本中错别字进行检测时,在考虑了待检测文本的文字模态特征的基础上,进一步融合了与待检测文本对应的盲文数据的盲文模态特征,这里的盲文数据可以是盲文图片、盲文ASCII码,对应的盲文模态特征可以是盲文图片的图像视觉特征,或者是,盲文ASCII码的文字模态特征。由此可知,本申请充分利用了盲文数据的盲文模态特征辅助进行真实文本的预测,相比于单纯依据待检测文本的上下文进行真实文本的预测,使得预测结果更加准确,在此基础上,通过对比真实文本和待检测文本,确定错别字检测结果,大大提升了错别字检测的准确度。
附图说明
[0025]通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本申请的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
[0026]图1为本申请实施例提供的盲文转换后文本的错别字检测方法的一流程示意图;
[0027]图2示例了一种待检测文本错别字标记过程示意图;
[0028]图3示例了一种盲文文本识别模型的结构示意图;
[0029]图4示例了一种盲文图片处理模块的结构示意图;
[0030]图5示例了一种盲文ASCII码处理模块的结构示意图;
[0031]图6示例了一种文本处理模块的结构示意图;
[0032]图7示例了一种多模态融合模块的结构示意图;
[0033]图8示例了一种多模态融合模块的处理流程示意图;
[0034]图9为本申请实施例提供的一种盲文转换后文本的错别字检测装置结构示意图;
[0035]图10为本申请实施例提供的盲文转换后文本的错别字检测设备的结构示意图。
具体实施方式
[0036]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完
整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0037]本申请提供了一种盲文转换后文本的错别字检测方法,可以适用于对由盲文转换为目标语种文字后的待检测文本,进行错别字检测的任务,示例如,对于盲人著作的校对任务等。
[0038]本申请方案可以基于具备数据处理能力的终端实现,该终端可以是手机、电脑、服务器、云端等。
[0039]接下来,结合图1所述,本申请的盲文转换后文本的错别字检测方法可以包括如下步骤:
[0040]步骤S100、获取待检测文本及对应的盲文数据。
[0041]具体地,待检测文本为需要进行错别字检测的文本信息。待检测文本可以是对盲文著作转换为目标语种文字后的文本,如由盲文著作转换为汉语或英文等语种后的文本。待检测文本中包含的文本信息可以包括中文、非中文字符,如英文字母、特殊符号、数字等。
[0042]待检测文本对应的盲文数据可以是待检测文本转换前的原始盲文,如盲文图片(盲人作者手札盲文后的扫描图片)、盲文ASCII码(盲文编辑存储到电脑系统中的盲文ASCII码)中的一种或两种。
[0043]示例如图本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种盲文转换后文本的错别字检测方法,其特征在于,包括:获取待检测文本及对应的盲文数据;提取所述盲文数据的盲文模态特征,以及,提取所述待检测文本的文字模态特征;将所述盲文模态特征及所述文字模态特征进行融合,得到融合特征;基于融合特征确定所述盲文数据对应的真实文本;对比所述真实文本和所述待检测文本,得到待检测文本中的错别字检测结果。2.根据权利要求1所述的方法,其特征在于,若所述盲文数据为盲文图片,则提取所述盲文数据的盲文模态特征,包括:提取所述盲文图片的图像视觉特征,作为盲文模态特征;若所述盲文数据为盲文ASCII码,则提取所述盲文数据的盲文模态特征,包括:提取所述盲文ASCII码的文字模态特征,作为盲文模态特征;若所述盲文数据包括所述盲文图片和所述盲文ASCII码,则提取所述盲文数据的盲文模态特征,包括:提取所述盲文图片的图像视觉特征,以及,提取所述盲文ASCII码的文字模态特征;将所述图像视觉特征和所述盲文ASCII码的文字模态特征进行融合,得到盲文模态特征。3.根据权利要求1所述的方法,其特征在于,所述盲文模态特征和所述文字模态特征分别为向量形式;将所述盲文模态特征及所述文字模态特征进行融合,得到融合特征的过程,包括:采用门控融合方式,将向量形式的盲文模态特征及文字模态特征进行融合,得到融合特征。4.根据权利要求3所述的方法,其特征在于,在采用门控融合方式,将向量形式的盲文模态特征及文字模态特征进行融合之后,还包括:将融合特征与所述文字模态特征相加,得到残差融合特征,作为最终的融合特征。5.根据权利要求3所述的方法,其特征在于,在采用门控融合方式,将向量形式的盲文模态特征及文字模态特征进行融合之前,还包括:对所述盲文模态特征进行表示偏移及非线性变换,得到处理后盲文模态特征。6.根据权利要求1所述的方法,其特征在于,提取所述盲文模态特征及文字模态特征并对二者进行融合,基于融合特征确定盲文数据对应的真实文本的过程,通过预训练的盲文文本识别模型处理得到;所述盲文文本识别模型被配置为,提取输入盲文数据的盲文模态特征,提取输入的待检测文本的文字模态特征,并将盲文模态特征和文字模态特征进行融合,基于融合特征预测盲文数据对应的真实文本的内部状态表示。7.根据权利要求6所述的方法,其特征在于,所述盲文文本识别模型包括:盲文处理模块、文本处理模块、多模态融合模块及输出模块;其中,盲文处理模块,用于提取输入盲文数据的盲文模态特征;文本处理模块,用于提取待检测文本的文字模态特征;多模态融合模块,用于将所述盲文模态特征及所述文字模态特征进行融合,得到融合特征;
输出模块,用于基于所述融合特征确定盲文数据对应的真实文本。8.根据权利要求7所述的方法,其特征在于,所述多模态融合模块包括:特征编辑模块,用于对所述盲文模态特征进行表示偏移及非线性变换,得到处理后盲文模态特征;门控融合模块,用于采用门控融合方式,将所述处理后盲文模态特征及所述文字模态特征进行融合,得到融合特征;残差连接模块,用于将所述融合特征与所述文字模态特征相加,得到残差融合特征,作为最终的融合特征。9.根据权利要求7所述...

【专利技术属性】
技术研发人员:姚鑫徐梓航杨子清崔一鸣王士进
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1