一种数据处理方法、装置和用于数据处理的装置制造方法及图纸

技术编号:21833206 阅读:27 留言:0更新日期:2019-08-10 18:12
本发明专利技术实施例提供了一种数据处理方法、装置和用于数据处理的装置。其中的方法具体包括:从多元文法模型的结构数据中确定第一目标结构数据;确定所述第一目标结构数据对应的目标数据类型;按照所述目标数据类型,对所述第一目标结构数据进行存储。本发明专利技术实施例可以极大地减小多元文法模型占用的内存空间,进而可以提高语音识别的速度。

A Data Processing Method, Device and Device for Data Processing

【技术实现步骤摘要】
一种数据处理方法、装置和用于数据处理的装置
本专利技术涉及语音识别
,尤其涉及一种数据处理方法、装置和用于数据处理的装置。
技术介绍
语音识别,是指将人类语音中的词汇内容转换为计算机可读的输入,例如将语音信号转换为文本等。随着语音识别技术的不断发展,语音识别技术的应用场景也更加广泛,例如上述应用场景可以包括:语音拨号、语音导航、室内设备控制、语音文档检索、简单的听写数据录入等。n-gram(n元文法)模型是语音识别中常用的一种语言模型,其中,n通常为大于1的正整数,且通常n越大则语言模型的性能越高,语音识别的结果也越准确。离线语音识别是指将语音识别所需要的语言模型等相关资源存储在客户端,由客户端在不联网的情况下完成语音识别的技术。然而,语言模型的数据量通常较大,将语言模型存储在客户端,会占用客户端大量的内存空间;上述内存空间的占用不仅会影响离线语音识别的运行速度,还会影响客户端中其它应用的运行。
技术实现思路
本专利技术实施例提供一种数据处理方法、装置和用于数据处理的装置,以解决现有技术中离线语音识别内存占用过大的问题。为了解决上述问题,本专利技术实施例公开了一种数据处理方法,包括:从多元文法模型的结构数据中确定第一目标结构数据;确定所述第一目标结构数据对应的目标数据类型;按照所述目标数据类型,对所述第一目标结构数据进行存储。可选地,所述第一目标结构数据包括:文法的条件概率、和/或、文法的回退权重;所述目标数据类型包括:单字节整型。可选地,所述第一目标结构数据包括:所述多元文法模型中文法的词序列;所述目标数据类型包括:无符号双字节整型。可选地,所述方法还包括:从所述多元文法模型的结构数据中确定第二目标结构数据;所述第二目标结构数据包括:文法的回退位置、和/或、文法的回退位置对应的层数;从所述多元文法模型的结构数据中删除所述第二目标结构数据,以得到压缩后的多元文法模型。可选地,所述第二目标结构数据还包括:以文法为前缀的下一层文法的起始位置。可选地,所述第二目标结构数据还包括:最高层文法对应的回退权重。可选地,所述方法还包括:从所述多元文法模型的数据中确定第一数据和第二数据;所述第一数据包括:文法的回退权重、和/或、文法的回退位置对应的层数;所述第二数据包括:文法的词序列;将所述第一数据作为目标数据字段的高位进行存储,以及,将所述第二数据作为所述目标数据字段的低位进行存储。可选地,所述目标数据字段包括:第一数据或者第二数据对应的字段。另一方面,本专利技术实施例公开了一种语音识别方法,包括:加载多元文法模型;所述多元文法模型的结构数据中包括:第一目标结构数据,且所述第一目标结构数据的类型为目标数据类型;根据所述多元文法模型对文法进行语音识别。可选地,所述第一目标结构数据包括:文法的条件概率、和/或、文法的回退权重;所述目标数据类型包括:单字节整型。可选地,所述第一目标结构数据包括:所述多元文法模型中文法的词序列;所述目标数据类型包括:无符号双字节整型。可选地,所述多元文法模型不包括:文法的回退位置、和/或、文法的回退位置对应的层数;所述多元文法模型包括:文法的存储位置、和/或、文法对应的层数和文法回退的层数;所述根据所述多元文法模型对文法进行语音识别,包括:根据所述文法对应的上层文法的存储位置,确定所述文法的回退位置;和/或,根据所述文法对应的层数、以及所述文法回退的层数,确定所述文法的回退位置对应的层数。可选地,所述多元文法模型不包括:以文法为前缀的下一层文法的起始位置;所述根据所述多元文法模型对文法进行语音识别,还包括:根据与所述文法相邻的上一个文法的结束位置,确定所述以文法为前缀的下一层文法的起始位置。可选地,所述多元文法模型不包括:最高层文法对应的回退权重。又一方面,本专利技术实施例公开了一种数据处理装置,包括:第一确定模块,用于从多元文法模型的结构数据中确定第一目标结构数据;类型确定模块,用于确定所述第一目标结构数据对应的目标数据类型;第一存储模块,用于按照所述目标数据类型,对所述第一目标结构数据进行存储。可选地,所述第一目标结构数据包括:文法的条件概率、和/或、文法的回退权重;所述目标数据类型包括:单字节整型。可选地,所述第一目标结构数据包括:所述多元文法模型中文法的词序列;所述目标数据类型包括:无符号双字节整型。可选地,所述装置还包括:第二确定模块,用于从所述多元文法模型的结构数据中确定第二目标结构数据;所述第二目标结构数据包括:文法的回退位置、和/或、文法的回退位置对应的层数;删除模块,用于从所述多元文法模型的结构数据中删除所述第二目标结构数据,以得到压缩后的多元文法模型。可选地,所述第二目标结构数据还包括:以文法为前缀的下一层文法的起始位置。可选地,所述第二目标结构数据还包括:最高层文法对应的回退权重。可选地,所述装置还包括:第三确定模块,用于从所述多元文法模型的数据中确定第一数据和第二数据;所述第一数据包括:文法的回退权重、和/或、文法的回退位置对应的层数;所述第二数据包括:文法的词序列;第二存储模块,用于将所述第一数据作为目标数据字段的高位进行存储,以及,将所述第二数据作为所述目标数据字段的低位进行存储。可选地,所述目标数据字段包括:第一数据或者第二数据对应的字段。再一方面,本专利技术实施例公开了语音识别装置,包括:加载模块,用于加载多元文法模型;所述多元文法模型的结构数据中包括:第一目标结构数据,且所述第一目标结构数据的类型为目标数据类型;识别模块,用于根据所述多元文法模型对文法进行语音识别。可选地,所述第一目标结构数据包括:文法的条件概率、和/或、文法的回退权重;所述目标数据类型包括:单字节整型。可选地,所述第一目标结构数据包括:所述多元文法模型中文法的词序列;所述目标数据类型包括:无符号双字节整型。可选地,所述多元文法模型不包括:文法的回退位置、和/或、文法的回退位置对应的层数;所述多元文法模型包括:文法的存储位置、和/或、文法对应的层数和文法回退的层数;所述识别模块,包括:第一确定子模块,用于根据所述文法对应的上层文法的存储位置,确定所述文法的回退位置;和/或,第二确定子模块,用于根据所述文法对应的层数、以及所述文法回退的层数,确定所述文法的回退位置对应的层数。可选地,所述多元文法模型不包括:以文法为前缀的下一层文法的起始位置;所述识别模块,还包括:第三确定子模块,用于根据与所述文法相邻的上一个文法的结束位置,确定所述以文法为前缀的下一层文法的起始位置。可选地,所述多元文法模型不包括:最高层文法对应的回退权重。再一方面,本专利技术实施例公开了一种用于数据处理的装置,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:从多元文法模型的结构数据中确定第一目标结构数据;确定所述第一目标结构数据对应的目标数据类型;按照所述目标数据类型,对所述第一目标结构数据进行存储。可选地,所述第一目标结构数据包括:文法的条件概率、和/或、文法的回退权重;所述目标数据类型包括:单字节整型。可选地,所述第一目标结构数据包括:所述多元文法模型中文法的词序列;所述目标数据类型包括:无符号双字节整型。可本文档来自技高网...

【技术保护点】
1.一种数据处理方法,其特征在于,所述方法包括:从多元文法模型的结构数据中确定第一目标结构数据;确定所述第一目标结构数据对应的目标数据类型;按照所述目标数据类型,对所述第一目标结构数据进行存储。

【技术特征摘要】
1.一种数据处理方法,其特征在于,所述方法包括:从多元文法模型的结构数据中确定第一目标结构数据;确定所述第一目标结构数据对应的目标数据类型;按照所述目标数据类型,对所述第一目标结构数据进行存储。2.根据权利要求1所述的方法,其特征在于,所述第一目标结构数据包括:文法的条件概率、和/或、文法的回退权重;所述目标数据类型包括:单字节整型。3.根据权利要求1所述的方法,其特征在于,所述第一目标结构数据包括:所述多元文法模型中文法的词序列;所述目标数据类型包括:无符号双字节整型。4.一种语音识别方法,其特征在于,所述方法包括:加载多元文法模型;所述多元文法模型的结构数据中包括:第一目标结构数据,且所述第一目标结构数据的类型为目标数据类型;根据所述多元文法模型对文法进行语音识别。5.一种数据处理装置,其特征在于,所述装置包括:第一确定模块,用于从多元文法模型的结构数据中确定第一目标结构数据;类型确定模块,用于确定所述第一目标结构数据对应的目标数据类型;第一存储模块,用于按照所述目标数据类型,对所述第一目标结构数据进行存储。6.一种语音识别装置,其特征在于,包括:加载模块,用于加载多元文法模型;所述多元文法模型的结构数据中包括:第一目标结构数据,且所...

【专利技术属性】
技术研发人员:姚光超
申请(专利权)人:北京搜狗科技发展有限公司搜狗杭州智能科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1