【技术实现步骤摘要】
盲文转换后文本的错别字检测方法、装置及相关设备
[0001]本申请涉及自然语言处理
,更具体的说,是涉及一种盲文转换后文本的错别字检测方法、装置及相关设备。
技术介绍
[0002]盲文是专供盲人摸读书写的文字符号,是其接受教育、与人交流的重要工具。盲文的基本单位是“方”,一方由六个点组成,每个点有凸起和不凸起两种状态,这样一共可以组成64种不同的符号。不同国家根据本国文字特点,发展了自己的盲文文字,以中国的盲文为例,因为汉字数量繁多,盲方不能一一对应到汉字,所以盲文被设计成一种拼音文字,一个汉字通常用2
‑
3方表示,分别对应汉语拼音中的声母、韵母和声调。
[0003]随着社会的进步与发展,盲人更多的融入社会,激发了盲人的创作需求,而盲人创作的盲文文本需要转为目标语种文字(目标语种文字为非盲文文字,示例如中文、英文等)后才能出版供普通人阅读、理解。盲人著作出版前需要经过校对,校对过程需要对转换后的文字和原始盲文进行对照,检出盲文转换为目标语种文字后出现的错别字。
[0004]目前盲人著作的出版校对都是由人工校对,而由于盲文作为点状文字,对普通人来说是另一种文字,这也在一定程度上增加了目标语种文字与盲文对应的校正难度,使得对这些文稿进行校对与纠错将耗费大量的人力与时间。
技术实现思路
[0005]鉴于上述问题,提出了本申请以便提供一种盲文转换后文本的错别字检测方法、装置及相关设备,以解决现有人工对盲文著作转换为目标语种文字后出现的错别字进行校对,容易出现耗费人力、时 ...
【技术保护点】
【技术特征摘要】
1.一种盲文转换后文本的错别字检测方法,其特征在于,包括:获取待检测文本及对应的盲文数据;提取所述盲文数据的盲文模态特征,以及,提取所述待检测文本的文字模态特征;将所述盲文模态特征及所述文字模态特征进行融合,得到融合特征;基于融合特征确定所述盲文数据对应的真实文本;对比所述真实文本和所述待检测文本,得到待检测文本中的错别字检测结果。2.根据权利要求1所述的方法,其特征在于,若所述盲文数据为盲文图片,则提取所述盲文数据的盲文模态特征,包括:提取所述盲文图片的图像视觉特征,作为盲文模态特征;若所述盲文数据为盲文ASCII码,则提取所述盲文数据的盲文模态特征,包括:提取所述盲文ASCII码的文字模态特征,作为盲文模态特征;若所述盲文数据包括所述盲文图片和所述盲文ASCII码,则提取所述盲文数据的盲文模态特征,包括:提取所述盲文图片的图像视觉特征,以及,提取所述盲文ASCII码的文字模态特征;将所述图像视觉特征和所述盲文ASCII码的文字模态特征进行融合,得到盲文模态特征。3.根据权利要求1所述的方法,其特征在于,所述盲文模态特征和所述文字模态特征分别为向量形式;将所述盲文模态特征及所述文字模态特征进行融合,得到融合特征的过程,包括:采用门控融合方式,将向量形式的盲文模态特征及文字模态特征进行融合,得到融合特征。4.根据权利要求3所述的方法,其特征在于,在采用门控融合方式,将向量形式的盲文模态特征及文字模态特征进行融合之后,还包括:将融合特征与所述文字模态特征相加,得到残差融合特征,作为最终的融合特征。5.根据权利要求3所述的方法,其特征在于,在采用门控融合方式,将向量形式的盲文模态特征及文字模态特征进行融合之前,还包括:对所述盲文模态特征进行表示偏移及非线性变换,得到处理后盲文模态特征。6.根据权利要求1所述的方法,其特征在于,提取所述盲文模态特征及文字模态特征并对二者进行融合,基于融合特征确定盲文数据对应的真实文本的过程,通过预训练的盲文文本识别模型处理得到;所述盲文文本识别模型被配置为,提取输入盲文数据的盲文模态特征,提取输入的待检测文本的文字模态特征,并将盲文模态特征和文字模态特征进行融合,基于融合特征预测盲文数据对应的真实文本的内部状态表示。7.根据权利要求6所述的方法,其特征在于,所述盲文文本识别模型包括:盲文处理模块、文本处理模块、多模态融合模块及输出模块;其中,盲文处理模块,用于提取输入盲文数据的盲文模态特征;文本处理模块,用于提取待检测文本的文字模态特征;多模态融合模块,用于将所述盲文模态特征及所述文字模态特征进行融合,得到融合特征;
输出模块,用于基于所述融合特征确定盲文数据对应的真实文本。8.根据权利要求7所述的方法,其特征在于,所述多模态融合模块包括:特征编辑模块,用于对所述盲文模态特征进行表示偏移及非线性变换,得到处理后盲文模态特征;门控融合模块,用于采用门控融合方式,将所述处理后盲文模态特征及所述文字模态特征进行融合,得到融合特征;残差连接模块,用于将所述融合特征与所述文字模态特征相加,得到残差融合特征,作为最终的融合特征。9.根据权利要求7所述...
【专利技术属性】
技术研发人员:姚鑫,徐梓航,杨子清,崔一鸣,王士进,
申请(专利权)人:科大讯飞股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。