语音识别方法及装置制造方法及图纸

技术编号:12401993 阅读:66 留言:0更新日期:2015-11-28 16:48
本发明专利技术公开了一种语音识别方法及装置,其中所述方法包括:根据语音信息识别得到发音信息;根据所述查分树信息加载语言模型查分树,查询所述语言模型查分树确定与所述发音信息匹配的文字识别结果的概率得分;其中,所述查分树信息包括与文字对应的多个节点,每个节点至少包括当前节点与子节点之间的存储位置偏移量;根据所述概率得分选择文字识别结果,作为最终的识别结果。本发明专利技术实施例通过在启动时直接根据当前节点与子节点之间的存储位置偏移量加载语言模型查分树,这样大大的缩短了启动时间。

【技术实现步骤摘要】

本专利技术实施例涉及语音识别
,尤其涉及一种语音识别方法及装置
技术介绍
在嵌入式语音识别领域,语音识别结果由声学模型和语言模型两部分决定。而语 言模型有着十分重要的作用,例如,当"北戴河"和"被带河"发音相似,声学模型的得分相 差无几,这时就需要使用语言模型来进一步决定哪一个词是语言中会用到的。也就是说,语 言模型解决了语音识别中对自然语言顺序的评测问题。 如图1所示,为现有技术中提供的语音识别方法,主要包括以下步骤: S11、从硬盘上读取语言模型资源,资源以节点的方式存储; 其中,每个节点对应一个字,每个节点由节点信息(包括所对应的字或词、孩子信 息,例如孩子节点对应的字以及孩子数目),概率列表(ProbList)(存储概率),回退概率列 表(BackOff)三部分组成;即如下表一所示: 表一 S12、根据读取的语言模型资源构建多叉查分树; 构建查分树的过程,具体是:将语言模型资源加载到缓存之后,节点的存储地址发 生了变化,因此每个节点只知道自身的孩子节点是哪个字,而不知道其存储地址,因此需要 根据每个节点中记录的孩子节点信息,逐一查询其孩子节点的存储地址,并添加至父节点 中,从而建立查分树。 S13、加载声学模型和其他语音识别的资源; S14、接收输入的语音信息,使用维特比算法进行解码; S15、在解码的过程中,使用声学模型进行语音识别,得到发音信息,并根据发音信 息查询语言模型的多叉查分树进行查分; S16、获得语言模型的识别结果; S17、输出识别结果,释放资源。 但是,现有的语音识别方法在读取语言模型资源之后,需要对语言模型资源进行 动态的加载,构建多叉查分树,这个过程十分浪费时间,导致识别效率较低。
技术实现思路
本专利技术实施例提供一种语音识别方法及装置,能够大大的缩短启动时间。 第一方面,本专利技术实施例提供了一种语音识别方法,包括: 根据语音信息识别得到发音信息; 根据所述查分树信息加载语言模型查分树,查询所述语言模型查分树确定与所述 发音信息匹配的文字识别结果的概率得分;其中,所述查分树信息包括与文字对应的多个 节点,每个节点至少包括当前节点与子节点之间的存储位置偏移量; 根据所述概率得分选择文字识别结果,作为最终的识别结果。 第二方面,本专利技术实施例还提供一种语音识别装置,包括: 发音信息获取模块,用于根据语音信息识别得到发音信息; 概率得分查询模块,用于根据所述查分树信息加载语言模型查分树,查询所述语 言模型查分树确定与所述发音信息匹配的文字识别结果的概率得分;其中,所述查分树信 息包括与文字对应的多个节点,每个节点至少包括当前节点与子节点之间的存储位置偏移 量; 文字识别模块,用于根据所述概率得分选择文字识别结果,作为最终的识别结果。 本专利技术实施例的技术方案,直接根据当前节点与子节点之间的存储位置偏移量来 存储语言模型查分树,无需在启动时动态构建语言模型查分树,这样大大的缩短了启动时 间。【附图说明】 图1为现有技术提供的语音识别方法的流程示意图; 图2A为本专利技术实施例一提供的语音识别方法的流程示意图; 图2B为本专利技术实施例一提供的语音识别方法中的第一种查分子树结构示意图; 图2C为本专利技术实施例一提供的语音识别方法中的第二种查分子树结构示意图; 图2D为本专利技术实施例一提供的语音识别方法中的第三种查分子树结构示意图; 图2E为本专利技术实施例一提供的语音识别方法中的第四种查分子树结构示意图; 图3为本专利技术实施例二提供的语音识别装置的结构示意图。【具体实施方式】 下面结合附图和实施例对本专利技术作进一步的详细说明。可以理解的是,此处所描 述的具体实施例仅仅用于解释本专利技术,而非对本专利技术的限定。另外还需要说明的是,为了便 于描述,附图中仅示出了与本专利技术相关的部分而非全部结构。 本专利技术实施例提供的语音识别方法的执行主体,可为本专利技术实施例提供的语音识 别装置,或者集成了所述语音识别装置的终端设备(例如,智能手机、平板电脑等),该语音 识别装置可以采用硬件或软件实现。 实施例一 图2A为本专利技术实施例一提供的语音识别方法的流程示意图,如图2A所示,具体包 括: S21、根据语音信息识别得到发音信息; 具体的,用户可在本专利技术实施例提供的语音识别装置中输入语音信息,例如,可在 语音识别装置中的输入栏设置一个语音录音按钮,用户通过点击上述语音录音按钮,即可 启动录音功能,对用户说话进行录音,从而获取到所述语音信息。然后通过预先加载的声学 模型和语音识别资源对所述语音信息进行识别处理,即可得到需要的发音信息。例如,如果 用户想要输入的语音为"北戴河",则通过上述识别过程可获得的发音信息为"beidaihe"。 S22、根据所述查分树信息加载语言模型查分树,查询所述语言模型查分树确定与 所述发音信息匹配的文字识别结果的概率得分;其中,所述查分树信息包括与文字对应的 多个节点,每个节点至少包括当前节点与子节点之间的存储位置偏移量; 其中,所述查分树信息与语言模型资源类似,包括文字对应的多个节点,其中,每 个节点至少包括当前节点与子节点之间的存储位置偏移量。除此之外,所述查分树还可 以包括每个节点的存储概率(ProbLiSt,即当前节点出现的概率)、当前节点退回的概率 (BackOff)以及对应子节点的数目。子节点即孩子节点。父节点与子节点之间是会同时出 现的文字组合,例如,"北京","京"的节点即为"北"节点的父节点。存储位置偏移量具体是 节点与子节点各自存储位置之间的距离。 具体的,预先将语言模型的查分树信息直接写入语言模型资源中,这样初始化上 就不需要动态的构建语言模型的查分树资源,而是把动态构建起来的查分树的指针信息当 成偏移量写入语言模型资源中,即提前离线构建好语言模型查分树。将当前节点与子节点 之间的存储位置偏移量直接写入语言模型资源,所述查分树信息如下述表二所示。在启动 加载时,根据查分树信息将离线建立好的语言模型查分树直接进行加载。 表二 当将查分树信息加载到缓存中时,节点之间的存储相对距离不会发生变化,因此, 可以基于初始节点的存储位置以及与其他节点的偏移量,确定其他节点的存储位置。 根据上述表二的信息即可将语音模型查分树加载到线上,根据发音信息查询所述 查分树。例如,通过上述步骤S21得到的发音信息为"beidaihe",首先在所述查分树的根 节点(RootProbList)中查询发音信息"beidaihe"中"he"对应的文字节点,包含多个例如 "荷"、"喝","河"等,如图2B所示,然后在各个"he"对应的文字节点的子节点中查询"dai" 对应的文字节点,也包含多个例如"带"、"戴"、"待"等,查询各"dai "对应的文字节点的 ProbList和BackOff中"daihe"对应的概率得分,例如得到如下表三所示的结果: 表三 则通过上述表三,可得到"荷"对应的子节点"戴"、"带"和"待"下的文字节点的 退回概率BackOff均高于60 %,比较高,而ProbList均低于60 %,比较低,则"荷"对应的 子树被退回。同理,"河"对应的子节点"戴"、"带"和"待"下的文字节点的ProbList均高 于60%,而BackOfT均低于60%,则"河"对应的子树保留。"本文档来自技高网
...
语音识别方法及装置

【技术保护点】
一种语音识别方法,其特征在于,包括:根据语音信息识别得到发音信息;根据所述查分树信息加载语言模型查分树,查询所述语言模型查分树确定与所述发音信息匹配的文字识别结果的概率得分;其中,所述查分树信息包括与文字对应的多个节点,每个节点至少包括当前节点与子节点之间的存储位置偏移量;根据所述概率得分选择文字识别结果,作为最终的识别结果。

【技术特征摘要】

【专利技术属性】
技术研发人员:唐立亮贾磊彭守业
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1