一种数据处理方法、装置和用于数据处理的装置制造方法及图纸

技术编号:25552233 阅读:21 留言:0更新日期:2020-09-08 18:52
本发明专利技术实施例提供了一种数据处理方法、装置和用于数据处理的装置。其中的方法具体包括:获取用户针对预置文本发音的语音数据、以及所述预置文本对应的音素序列;根据预置声学模型,确定所述语音数据中的语音帧与所述音素序列中的音素之间的匹配度;其中,所述预置声学模型为根据至少两种语言类型的音素数据、以及所述至少两种语言类型的训练数据训练得到;若确定存在小于预设值的匹配度,则输出纠错信息。本发明专利技术实施例可以提高用户学习外语口语的发音准确率和效率。

【技术实现步骤摘要】
一种数据处理方法、装置和用于数据处理的装置
本专利技术涉及计算机
,尤其涉及一种数据处理方法、装置和用于数据处理的装置。
技术介绍
随着经济全球化的不断发展,外语学习得到更多的重视。目前市面上出现了很多口语评测类的电子产品(如点读机、学习电脑)以及移动终端上的口语评测类应用等,可以帮助用户纠正口语发音。然而,对于地方口音较重的用户,在外语学习过程中容易受到母语发音的影响,带有各种地方口音。例如,对于湖南人、福建人、广东人,受地方口音的影响,母语发音会出现平翘舌不分,前后鼻音不分的问题,此类用户在学习外语的过程中,会将母语中的不标准发音带入外语发音中,导致外语发音也不标准。目前的口语评测方法,无法识别用户发音中由于地方口音导致的错误发音,而此类用户的听辨能力对母语中地方口音导致的错误发音则不敏感,难以识别以及纠正自己的错误发音,导致用户学习外语口语的发音准确率和效率较低。
技术实现思路
本专利技术实施例提供一种数据处理方法、装置和用于数据处理的装置,可以提高用户学习外语口语的发音准确率和效率。为了解决上述问题,本专利技术实施例公开了一种数据处理方法,所述方法包括:获取用户针对预置文本发音的语音数据、以及所述预置文本对应的音素序列;根据预置声学模型,确定所述语音数据中的语音帧与所述音素序列中的音素之间的匹配度;其中,所述预置声学模型为根据至少两种语言类型的音素数据、以及所述至少两种语言类型的训练数据训练得到;若确定存在小于预设值的匹配度,则输出纠错信息。另一方面,本专利技术实施例公开了一种数据处理装置,所述装置包括:获取模块,用于获取用户针对预置文本发音的语音数据、以及所述预置文本对应的音素序列;匹配模块,用于根据预置声学模型,确定所述语音数据中的语音帧与所述音素序列中的音素之间的匹配度;其中,所述预置声学模型为根据至少两种语言类型的音素数据、以及所述至少两种语言类型的训练数据训练得到;纠错输出模块,用于若确定存在小于预设值的匹配度,则输出纠错信息。再一方面,本专利技术实施例公开了一种用于数据处理的装置,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:获取用户针对预置文本发音的语音数据、以及所述预置文本对应的音素序列;根据预置声学模型,确定所述语音数据中的语音帧与所述音素序列中的音素之间的匹配度;其中,所述预置声学模型为根据至少两种语言类型的音素数据、以及所述至少两种语言类型的训练数据训练得到;若确定存在小于预设值的匹配度,则输出纠错信息。又一方面,本专利技术实施例公开了一种机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得装置执行如前述一个或多个所述的数据处理方法。本专利技术实施例包括以下优点:本专利技术实施例可以获取用户针对预置文本发音的语音数据、以及所述预置文本对应的音素序列,并根据预置声学模型,确定所述语音数据中的语音帧与所述音素序列中的音素之间的匹配度,若确定存在小于预设值的匹配度,则可以输出纠错信息。由于所述预置声学模型为根据至少两种语言类型的音素数据、以及所述至少两种语言类型的训练数据训练得到,因此,所述预置声学模型能够同时学习至少两种语言的发音,通过所述预置声学模型,除了可以检测出用户跟读的外语发音中错误的发音音素之外,还可以检测出由于用户的母语类发音导致外语发音错误的错误音素,并且向用户输出纠错信息,以使用户可以根据纠错信息纠正自己的发音,进而可以提高用户学习外语口语的发音准确率和效率。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对本专利技术实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术的一种数据处理方法实施例的步骤流程图;图2是本专利技术的一种数据处理装置实施例的结构框图;图3是本专利技术的一种用于数据处理的装置800的框图;及图4是本专利技术的一些实施例中服务器的结构示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。方法实施例参照图1,示出了本专利技术的一种数据处理方法实施例的步骤流程图,具体可以包括如下步骤:步骤101、获取用户针对预置文本发音的语音数据、以及所述预置文本对应的音素序列;步骤102、根据预置声学模型,确定所述语音数据中的语音帧与所述音素序列中的音素之间的匹配度;其中,所述预置声学模型为根据至少两种语言类型的音素数据、以及所述至少两种语言类型的训练数据训练得到;步骤103、若确定存在小于预设值的匹配度,则输出纠错信息。本专利技术实施例的数据处理方法可用于对用户的发音进行评测及纠错,所述数据处理方法可应用于电子设备,所述电子设备包括但不限于:服务器、智能手机、平板电脑、电子书阅读器、MP3(动态影像专家压缩标准音频层面3,MovingPictureExpertsGroupAudioLayerIII)播放器、MP4(动态影像专家压缩标准音频层面4,MovingPictureExpertsGroupAudioLayerIV)播放器、膝上型便携计算机、车载电脑、台式计算机、机顶盒、智能电视机、可穿戴设备等等。音素(phone),是语音中的最小单位,依据音节里的发音动作来分析,一个动作构成一个音素。例如,英文单词“pleasure”包括如下音素:“p”、“l”、“eh”、“zh”、“ax”。本专利技术实施例对用户发音的评测可以精确到音素级别,以提高用户发音的精准度。具体地,本专利技术实施例可以通过所述电子设备接收用户针对预置文本发音的语音数据,由于所述预置文本已知,因此可以根据发音词典,确定所述预置文本对应的音素序列,进而可以根据预置声学模型,确定所述语音数据中的语音帧与所述音素序列中的音素之间的匹配度,若存在小于预设值的匹配度,说明所述语音数据中存在错误的发音音素,则可以输出纠错信息,以纠正用户的发音。可以理解,本专利技术实施例对用户针对预置文本发音的语音数据的获取方式不加以限制,例如,可以通过所述电子设备的收音装置实时录制得到所述语音数据,或者,所述电子设备可以通过有线连接方式或者无线连接的方式,从客户端或网络中获取所述语音数据,或者,还可以根据即时通讯应用中获取的即时通讯消息得到所述语音数据等。在本专利技术实施例中,可以根据预先设定的窗长和帧移,将用户的语音数据切分为多个语音帧,以对所述语音数据逐帧进行处理。如果用户的语音数据为模拟语音数据(例如用户通话的本文档来自技高网...

【技术保护点】
1.一种数据处理方法,其特征在于,所述方法包括:/n获取用户针对预置文本发音的语音数据、以及所述预置文本对应的音素序列;/n根据预置声学模型,确定所述语音数据中的语音帧与所述音素序列中的音素之间的匹配度;其中,所述预置声学模型为根据至少两种语言类型的音素数据、以及所述至少两种语言类型的训练数据训练得到;/n若确定存在小于预设值的匹配度,则输出纠错信息。/n

【技术特征摘要】
1.一种数据处理方法,其特征在于,所述方法包括:
获取用户针对预置文本发音的语音数据、以及所述预置文本对应的音素序列;
根据预置声学模型,确定所述语音数据中的语音帧与所述音素序列中的音素之间的匹配度;其中,所述预置声学模型为根据至少两种语言类型的音素数据、以及所述至少两种语言类型的训练数据训练得到;
若确定存在小于预设值的匹配度,则输出纠错信息。


2.根据权利要求1所述的方法,其特征在于,所述根据预置声学模型,确定所述语音数据中的语音帧与所述音素序列中的音素之间的匹配度,包括:
确定所述预置文本对应的音素序列;
根据所述预置声学模型以及所述预置文本构成的解码网络,对所述语音数据中语音帧对应的特征向量与所述音素序列中的音素进行对齐;
根据对齐后的特征向量与对应音素之间的似然度,确定所述语音数据中的语音帧与所述音素序列中的音素之间的匹配度。


3.根据权利要求2所述的方法,其特征在于,在确定存在小于预设值的匹配度之后,所述方法还包括:
将所述匹配度小于预设值的音素作为目标音素;
在所述至少两种语言类型的音素数据中,确定所述目标音素对应的易混淆音素;
输出所述易混淆音素。


4.根据权利要求3所述的方法,其特征在于,在确定所述目标音素对应的易混淆音素之后,所述方法还包括:
将所述音素序列中的目标音素替换为所述易混淆音素;
对替换后的音素序列中,所述易混淆音素对应的上下文三音子进行解码,以得到所述易混淆音素对应的似然度;
确定似然度最大的易混淆音素为所述语音数据中的错误音素。


5.根据权利要求1所述的方法,其特征在于,通过如下步骤训练所述预置声学模型:
对至少两种语言类型的音素数据进行标注;其中,不同语言类型中发音相同或满足近似条件的音素数据使用相同的标注符号,以及不同语言类型中发音不同的音素数据使用不同的标...

【专利技术属性】
技术研发人员:林国雯赵超
申请(专利权)人:北京搜狗科技发展有限公司搜狗杭州智能科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1