【技术实现步骤摘要】
音文平行数据中文本错别字检测方法、装置及相关设备
[0001]本申请涉及自然语言处理
,更具体的说,是涉及一种音频相关文本中错别字检测方法、装置、设备及存储介质。
技术介绍
[0002]随着信息技术的发展,媒介平台的不断涌现,以信息传递形式多元化、传递源多点化为特征的时代已经到来。除常规媒体单位推出的各类节目外,越来越多的普通个体加入到自媒体的行列,其中就有着大量出镜进行信息传播的自媒体人面对镜头传递专业知识或传播社会热点等。除公共媒体领域外,由于社会经济的不断发展、全国乃至世界各地的各类跨地区交流不断增多,视频会议等远程交流方式需求日趋增大,在线会议实时生成的字幕为提高交流效率起到了重要作用。
[0003]受限于字幕制作人员的粗心,或相关字幕生成技术的不成熟,在短视频平台中,大量视频字幕出现错别字;在视频会议软件实时生成的字幕中,也能时常看到错别字的身影。这一现象对信息传递的准确性和文化传播的广泛性都有着极其严重的危害。如果单纯依据人力对这些文本进行校对与纠错将耗费大量的人力与时间。
[0004]在人 ...
【技术保护点】
【技术特征摘要】
1.一种音文平行数据中文本错别字检测方法,其特征在于,包括:获取输入的音文平行数据,所述音文平行数据包括待检测文本及与所述待检测文本匹配的音频;提取所述音频的音频模态特征,以及,提取所述待检测文本的文字模态特征;将所述音频模态特征及所述文字模态特征进行融合,得到融合特征;基于融合特征确定所述音频对应的真实文本;对比所述真实文本和所述待检测文本,得到待检测文本中的错别字检测结果。2.根据权利要求1所述的方法,其特征在于,所述音频模态特征和所述文字模态特征分别为向量形式;将所述音频模态特征及所述文字模态特征进行融合,得到融合特征的过程,包括:采用门控融合方式,将向量形式的音频模态特征及文字模态特征进行融合,得到融合特征。3.根据权利要求2所述的方法,其特征在于,在采用门控融合方式,将向量形式的音频模态特征及文字模态特征进行融合之后,还包括:将融合特征与所述文字模态特征相加,得到残差融合特征,作为最终的融合特征。4.根据权利要求2所述的方法,其特征在于,在采用门控融合方式,将向量形式的音频模态特征及文字模态特征进行融合之前,还包括:对所述音频模态特征进行表示偏移及非线性变换,得到处理后音频模态特征。5.根据权利要求1所述的方法,其特征在于,在提取所述音频的音频模态特征,以及,提取所述待检测文本的文字模态特征之前,还包括:对所述待检测文本进行切分,得到文本片段序列;按照所述文本片段序列中每个文本片段的长度,对所述音频进行切分,得到与每个文本片段长度及语义匹配的音频片段;则提取所述音频的音频模态特征,以及,提取所述待检测文本的文字模态特征的过程,包括:对于每一文本片段和匹配的音频片段的组合,提取组合中音频片段的音频模态特征,以及,提取组合中文本片段的文字模态特征。6.根据权利要求1所述的方法,其特征在于,提取所述音频模态特征及文字模态特征并对二者进行融合,基于融合特征确定所述音频对应的真实文本的过程,通过预训练的音频文本识别模型处理得到;所述音频文本识别模型被配置为,提取输入音频的音频模态特征,提取输入的待检测文本的文字模态特征,并将音频模态特征和文字模态特征进行融合,基于融合特征预测输入音频对应的真实文本的内部状态表示。7.根据权利要求6所述的方法,其特征在于,所述音频文本识别模型包括:音频处理模块、文本处理模块、多模态融合模块及输出模块;其中,音频处理模块,用于提取输入音频的音频模态特征;文本处理模块,用于提取待检测文本的文字模态特征;多模态融合模块,用于将所述音频模态特征及所述文字模态特征进行融合,得到融合特征;
输出模块,用于基于所述融合特征确定输入音频对应的真实文本。8.根据权利要求7所述的方法,其特征在于,所述多模态融合模块包括:特征编辑模块,用于对所述音频模态特征进行表示偏移及非线性变换,得到处理后音频模态特征;门控融合模块,用于采用门控融合方式,将所述处理后音频模态特征及所述文字模态特征进行融合,得到融合特征;残差连接模块,用于将所...
【专利技术属性】
技术研发人员:徐梓航,杨子清,崔一鸣,王士进,
申请(专利权)人:科大讯飞股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。