一种数据处理方法、装置和用于数据处理的装置制造方法及图纸

技术编号:21799345 阅读:17 留言:0更新日期:2019-08-07 10:33
本发明专利技术实施例提供了一种数据处理方法、装置和用于数据处理的装置。其中的方法具体包括:从多元文法模型的数据中确定第一数据和第二数据;所述第一数据包括:文法的回退权重、和/或、文法的回退位置对应的层数;所述第二数据包括:文法的词序列;将所述第一数据作为目标数据字段的高位进行存储,以及,将所述第二数据作为所述目标数据字段的低位进行存储。本发明专利技术实施例可以减小多元文法模型占用的内存空间,进而可以提高语音识别的速度。

A Data Processing Method, Device and Device for Data Processing

【技术实现步骤摘要】
一种数据处理方法、装置和用于数据处理的装置
本专利技术涉及语音识别
,尤其涉及一种数据处理方法、装置和用于数据处理的装置。
技术介绍
语音识别,是指将人类语音中的词汇内容转换为计算机可读的输入,例如将语音信号转换为文本等。随着语音识别技术的不断发展,语音识别技术的应用场景也更加广泛,例如上述应用场景可以包括:语音拨号、语音导航、室内设备控制、语音文档检索、简单的听写数据录入等。n-gram(n元文法)模型是语音识别中常用的一种语言模型,其中,n通常为大于1的正整数,且通常n越大则语言模型的性能越高,语音识别的结果也越准确。在线语音识别是指将语音识别所需要的语言模型等相关资源存储在服务器,用户通过网络访问服务器获取语音识别结果。为了使得识别结果更加准确,语言模型通常越大越好。然而,将语言模型全部放在服务器中,语言模型将占用较大的存储资源,例如可能占用几十G(千兆)字节,甚至上百G字节的内存资源,不仅影响识别速度,而且造成资源的极大浪费。
技术实现思路
本专利技术实施例提供一种数据处理方法、装置和用于数据处理的装置,以解决现有技术中在线语音识别内存占用过大的问题。为了解决上述问题,本专利技术实施例公开了一种数据处理方法,包括:从多元文法模型的数据中确定第一数据和第二数据;所述第一数据包括:文法的回退权重、和/或、文法的回退位置对应的层数;所述第二数据包括:文法的词序列;将所述第一数据作为目标数据字段的高位进行存储,以及,将所述第二数据作为所述目标数据字段的低位进行存储。可选地,所述目标数据字段包括:第一数据或者第二数据对应的字段。可选地,所述方法还包括:从所述多元文法模型的数据中确定第三数据;从所述多元文法模型的数据中删除所述第三数据。可选地,所述第三数据包括:以文法为前缀的下一层文法的起始位置。可选地,所述第三数据包括:最高层文法对应的回退权重。可选地,所述方法还包括:从所述多元文法模型的数据中确定第四数据对应的数据类型;按照所述数据类型,对所述第四数据进行存储。可选地,所述第四数据包括:文法的条件概率、和/或、文法的回退权重;所述数据类型包括:双字节整型。另一方面,本专利技术实施例公开了一种语音识别方法,包括:加载多元文法模型;所述多元文法模型中的第一数据存储在目标数据字段的高位,以及,第二数据存储在所述目标数据字段的低位;其中,所述第一数据包括:文法的回退位置、和/或、文法的回退位置对应的层数;所述第二数据包括:文法的词序列;根据所述多元文法模型对文法进行语音识别;其中,所述根据所述多元文法模型对文法进行语音识别,包括:从所述目标数据字段的高位获取第一数据,以及,从所述目标数据字段的低位获取第二数据。可选地,所述目标数据字段包括:第一数据或者第二数据对应的字段。可选地,所述多元文法模型不包括:以文法为前缀的下一层文法的起始位置;所述根据所述多元文法模型对文法进行语音识别,包括:根据与所述文法相邻的上一个文法的结束位置,确定所述以文法为前缀的下一层文法的起始位置。可选地,所述多元文法模型不包括:最高层文法对应的回退权重。可选地,所述多元文法模型包括:文法的条件概率、和/或、文法的回退权重;所述文法的条件概率、和/或、文法的回退权重对应的数据类型包括:双字节整型。又一方面,本专利技术实施例公开了一种数据处理装置,包括:第一确定模块,用于从多元文法模型的数据中确定第一数据和第二数据;所述第一数据包括:文法的回退权重、和/或、文法的回退位置对应的层数;所述第二数据包括:文法的词序列;第一存储模块,用于将所述第一数据作为目标数据字段的高位进行存储,以及,将所述第二数据作为所述目标数据字段的低位进行存储。可选地,所述目标数据字段包括:第一数据或者第二数据对应的字段。可选地,所述装置还包括:第二确定模块,用于从所述多元文法模型的数据中确定第三数据;数据删除模块,用于从所述多元文法模型的数据中删除所述第三数据。可选地,所述第三数据包括:以文法为前缀的下一层文法的起始位置。可选地,所述第三数据包括:最高层文法对应的回退权重。可选地,所述装置还包括:第三确定模块,用于从所述多元文法模型的数据中确定第四数据对应的数据类型;第二存储模块,用于按照所述数据类型,对所述第四数据进行存储。可选地,所述第四数据包括:文法的条件概率、和/或、文法的回退权重;所述数据类型包括:双字节整型。再一方面,本专利技术实施例公开了一种语音识别装置,包括:加载模块,用于加载多元文法模型;所述多元文法模型中的第一数据存储在目标数据字段的高位,以及,第二数据存储在所述目标数据字段的低位;其中,所述第一数据包括:文法的回退位置、和/或、文法的回退位置对应的层数;所述第二数据包括:文法的词序列;识别模块,用于根据所述多元文法模型对文法进行语音识别;其中,所述识别模块,包括:数据获取模块,用于从所述目标数据字段的高位获取第一数据,以及,从所述目标数据字段的低位获取第二数据。可选地,所述目标数据字段包括:第一数据或者第二数据对应的字段。可选地,所述多元文法模型不包括:以文法为前缀的下一层文法的起始位置;所述识别模块,包括:位置确定模块,用于根据与所述文法相邻的上一个文法的结束位置,确定所述以文法为前缀的下一层文法的起始位置。可选地,所述多元文法模型不包括:最高层文法对应的回退权重。可选地,所述多元文法模型包括:文法的条件概率、和/或、文法的回退权重;所述文法的条件概率、和/或、文法的回退权重对应的数据类型包括:双字节整型。再一方面,本专利技术实施例公开了一种用于数据处理的装置,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:从多元文法模型的数据中确定第一数据和第二数据;所述第一数据包括:文法的回退权重、和/或、文法的回退位置对应的层数;所述第二数据包括:文法的词序列;将所述第一数据作为目标数据字段的高位进行存储,以及,将所述第二数据作为所述目标数据字段的低位进行存储。可选地,所述目标数据字段包括:第一数据或者第二数据对应的字段。可选地,所述处理器还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:从所述多元文法模型的数据中确定第三数据;从所述多元文法模型的数据中删除所述第三数据。可选地,所述第三数据包括:以文法为前缀的下一层文法的起始位置。可选地,所述第三数据包括:最高层文法对应的回退权重。可选地,所述处理器还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:从所述多元文法模型的数据中确定第四数据对应的数据类型;按照所述数据类型,对所述第四数据进行存储。可选地,所述第四数据包括:文法的条件概率、和/或、文法的回退权重;所述数据类型包括:双字节整型。再一方面,本专利技术实施例公开了一种用于语音识别的装置,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:加载多元文法模型;所述多元文法模型中的第一数据存储在目标数据字段的高位,以及,第二数据存储在所述目标数据字段本文档来自技高网...

【技术保护点】
1.一种数据处理方法,其特征在于,所述方法包括:从多元文法模型的数据中确定第一数据和第二数据;所述第一数据包括:文法的回退权重、和/或、文法的回退位置对应的层数;所述第二数据包括:文法的词序列;将所述第一数据作为目标数据字段的高位进行存储,以及,将所述第二数据作为所述目标数据字段的低位进行存储。

【技术特征摘要】
1.一种数据处理方法,其特征在于,所述方法包括:从多元文法模型的数据中确定第一数据和第二数据;所述第一数据包括:文法的回退权重、和/或、文法的回退位置对应的层数;所述第二数据包括:文法的词序列;将所述第一数据作为目标数据字段的高位进行存储,以及,将所述第二数据作为所述目标数据字段的低位进行存储。2.根据权利要求1所述的方法,其特征在于,所述目标数据字段包括:第一数据或者第二数据对应的字段。3.根据权利要求1所述的方法,其特征在于,所述方法还包括:从所述多元文法模型的数据中确定第三数据;从所述多元文法模型的数据中删除所述第三数据。4.一种语音识别方法,其特征在于,所述方法包括:加载多元文法模型;所述多元文法模型中的第一数据存储在目标数据字段的高位,以及,第二数据存储在所述目标数据字段的低位;其中,所述第一数据包括:文法的回退位置、和/或、文法的回退位置对应的层数;所述第二数据包括:文法的词序列;根据所述多元文法模型对文法进行语音识别;其中,所述根据所述多元文法模型对文法进行语音识别,包括:从所述目标数据字段的高位获取第一数据,以及,从所述目标数据字段的低位获取第二数据。5.一种数据处理装置,其特征在于,所述装置包括:第一确定模块,用于从多元文法模型的数据中确定第一数据和第二数据;所述第一数据包括:文法的回退权重、和/或、文法的回退位置对应的层数;所述第二数据包括:文法的词序列;第一存储模块,用于将所述第一数据作为目标数据字段的高位进行存储,以及,将所述第二数据作为所述目标数据字段的低位进行存储。6.一种语音识别装置,其特征在于,所述装置包括:加载模块,用于加载多元文法模型;所述多元文法模型中的第一数据存储在目标数据字段的高位,以及,第二数据存储在所述目标数据字段的低位;其中,所述第一数据包括:文法的回退位置、和/或、文法...

【专利技术属性】
技术研发人员:姚光超
申请(专利权)人:北京搜狗科技发展有限公司搜狗杭州智能科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1