一种自适应的语音识别的方法和设备技术

技术编号:14349874 阅读:130 留言:0更新日期:2017-01-04 20:35
本发明专利技术提供一种自适应的语音识别的方法和设备。所述方法,1)针对每一个待识别语句,利用与所述待识别语句相邻的已识别语句来确定用于所述待识别语句的语言模型;2)通过所述语言模型识别所述待识别语句。根据所述方法,还包括:3)修正所识别的所述待识别语句,以用于下一个待识别语句。本发明专利技术可以针对每一句语音进行在线式地的语言模型自适应,这样的自适应方式更为灵活和精细;并且,由于对每一句语音都有相应的语言模型进行识别,因而能够得到更好的识别性能。

【技术实现步骤摘要】

本专利技术涉及信号处理,尤其涉及语音识别技术。
技术介绍
近年来,语音识别技术取得了长足的进展,在许多领域中获得了实际应用,包括用于人机对话和智能助理(如苹果公司的Siri,微软公司的Cortana)、用于文字输入(如讯飞语音输入法)、以及用于语音文件的转写等。其中,对于语音文件的转写(即将一个语音文件的语音内容全部转写为相应的文本)在当前有着广泛而迫切的需求,尤其是针对大段语音的语音文件的转写,例如广播电视节目的音频、演讲/会议/课程录音、法庭庭审录音等需要进行当场或事后的转写以得到对应的文本,从而用于字幕生成、文件存档和检索等。诸如上述语音文件的转写,往往要求获得高准确度的文本,因而目前大多数语音文件的转写采用的是人工转写的方式,即人工收听音频内容并录入相应的文字。显然,这种方式效率很低,且需要耗费大量的人力和物力。为此,有研究者尝试将语音识别技术用于上述语音文件的转写,即采用语音识别系统对上述语音文件进行自动识别以得到语音对应的文本。但是,由于受到环境噪音、口音差异、说话风格差异、主题偏差、未登录词等因素的影响,语音识别中的错误难以避免,导致采用自动语音识别技术产生的转写文本可用性不高。如前文所述,主题偏差是影响面向语音文件转写的语音识别性能的重要因素之一。为解决上述由主题偏差而带来的语音识别性能下降的问题,在现有技术中通常会采用自适应的语言模型来识别语音中的文本。这里的自适应指的是采用语料(即所采用的语言文本的集合)来更新语言模型。在采用自适应的语言模型进行语音识别的方法中,根据进行自适应所采用的语料是否是正在进行识别的语音文本,可以分为“离线自适应”和“在线自适应”两种。这里“离线自适应”指的是,在进行语音识别之前,采用附加资源的语料进行自适应过程,以获得语言模型。相对地,“在线自适应”指的是,利用识别中所得到的语音文本进行语言模型的自适应,并利用这样的语言模型来识别语音文本。可以看出,“在线自适应”采用的是通过待识别语音而生成的语言模型,其相较于“离线自适应”更有针对性。在上述“在线自适应”的方法中,根据语言模型自适应的过程中是否采用了语音的正确文本进行监督,又可以被分为“有监督在线自适应”和“无监督在线自适应”这两种。而现有技术在采用在线自适应的语言模型进行语音识别时,往往采用的是“无监督在线自适应”,即直接利用语音识别的结果进行语言模型自适应,而不采用语音的正确文本来监督模型自适应过程。这是由于,普遍认为与“无监督在线自适应”相对应的“有监督在线自适应”的方法是将语音识别的正确语句作为自适应的语料从而获得语言模型,然而在已经获取正确文本后,没有再采用所获得的语言模型进行语音识别的必要性。尽管“有监督在线自适应”可以提高语言模型自适应的效果,然而由于现有的“有监督在线自适应”方法实用性不高,所以当前现有技术主要采用的是“无监督在线自适应”的语音识别方法。上述“无监督在线自适应”的方法大体包括以下两个识别步骤:首先,对语音进行一次识别,利用识别的结果进行自适应以得到语言模型;然后,利用所得到的语言模型重新识别语音或者进行词网格重估(re-scoring),从而得到优化的语音识别结果。可以看出,现有技术所采用的“无监督在线自适应”仍然难以保证将所识别的语音文件准确无误地转写为文本结果。为解决这一问题,一些研究者在完成语音识别之后引入了人工修正,从而通过人为地判断和修改确保可以得到正确的文本。然而,上述方法总体来说效率仍然较低,特别是当语音识别错误较多时,会导致人工修正的工作量非常大,便利性较差。综上所述,上述现有技术中存在以下缺陷:一、“离线自适应”的方法,其不能利用待识别语句本身而生成语言模型,其针对性相对较差;二、现有的“有监督在线自适应”的识别方法,其无法实现在未获取语音正确文本的情况下自适应出用于语音识别的语言模型,欠缺实用性;三、“无监督在线自适应”的方法,其无法保证所采用的自适应语料的正确性,导致自适应效果不理想;四、现有的在完成语音识别之后引入人工修正的方法,其会使得人工的工作量非常大,影响效率。
技术实现思路
因此,本专利技术的目的在于克服上述现有技术的缺陷,提供一种自适应的语音识别的方法,包括:1)针对每一个待识别语句,利用与所述待识别语句相邻的已识别语句来确定用于所述待识别语句的语言模型;2)通过所述语言模型识别所述待识别语句。优选地,根据所述的方法,其中,步骤1)包括:1-1)确定所述已识别语句的主题;1-2)利用所述主题来生成用于所述待识别语句的语言模型。优选地,根据所述的方法,其中,步骤1-1)包括:1-1-1)设置大量主题;1-1-2)根据所述已识别语句,从所述大量主题中选取困惑度低的一个或多个主题作为所述已识别语句的主题。优选地,根据所述的方法,其中,步骤1-2)包括:1-2-1)根据所述主题,确定相应的主题语言模型;1-2-2)融合所述主题语言模型与背景语言模型,以生成用于所述待识别语句的语言模型;其中,所述背景语言模型为通过大量语料训练得出的模型。优选地,根据所述的方法,其中,步骤1-2-2)包括:对所述主题语言模型以及所述背景语言模型的概率进行线性插值。优选地,根据所述的方法,其中所述已识别语句为所述待识别语句之前的一个语句。优选地,根据所述的方法,其中还包括:3)修正所识别的所述待识别语句,以用于下一个待识别语句。优选地,根据所述的方法,其中还包括:以候选的方式提供所述待识别语句的识别结果,以用于人工修正。并且,本专利技术还提供了一种自适应的语音识别的设备,包括:用于针对每一个待识别语句,利用与所述待识别语句相邻的已识别语句来确定用于所述待识别语句的语言模型的装置;用于通过所述语言模型识别所述待识别语句的装置。优选地,根据所述设备,其中还包括:用于修正所识别的所述待识别语句,以用于下一个待识别语句的装置。与现有技术相比,本专利技术的优点在于:一、相较于“离线自适应”的方法,本专利技术利用与待识别语句相邻的已识别语句更新语音识别语言模型,具有更好的针对性;二、并且,相较于现有的“有监督在线自适应”的识别方法,本专利技术采用的是通过相邻的已识别语句来更新语言模型,解决了该现有技术欠缺实用性的问题;三、相较于“无监督在线自适应”的方法,本专利技术利用了已校准的已识别语句对应的文本,从而保证了自适应文本的准确性,提高了语言模型自适应的效果;四、出于类似的原因,相较于现有的在完成语音识别之后引入人工修正的方法,本专利技术的语言模型是基于已识别语句的正确文本,其准确度更好,因而大大降低了人工修正的工作量。附图说明以下参照附图对本专利技术实施例作进一步说明,其中:图1是根据本专利技术的实施例的利用相邻修正文本进行语言模型自适应的语音识别的流程图。图2是根据本专利技术的一个实施例的语言模型自适应过程的示意图。图3是根据本专利技术的一个实施例的用于用户修正而显示在屏幕上的识别结果的候选列表的示意图。具体实施方式下面结合附图和具体实施方式对本专利技术作详细说明。专利技术人发现,现有的大多数语音识别系统中的语言模型采用通用的语言模型,他们采用综合了各种主题的通用领域语料来训练语言模型。然而,专利技术人认为转写语音文件的场景(例如一次演讲/会议/课程的录音、一段广播电视节目音频、一次法庭庭审录音等)通常都是围绕一个特本文档来自技高网
...
一种<a href="http://www.xjishu.com/zhuanli/21/201610651850.html" title="一种自适应的语音识别的方法和设备原文来自X技术">自适应的语音识别的方法和设备</a>

【技术保护点】
一种自适应的语音识别的方法,包括:1)针对每一个待识别语句,利用与所述待识别语句相邻的已识别语句来确定用于所述待识别语句的语言模型;2)通过所述语言模型识别所述待识别语句。

【技术特征摘要】
1.一种自适应的语音识别的方法,包括:1)针对每一个待识别语句,利用与所述待识别语句相邻的已识别语句来确定用于所述待识别语句的语言模型;2)通过所述语言模型识别所述待识别语句。2.根据权利要求1所述的方法,其中,步骤1)包括:1-1)确定所述已识别语句的主题;1-2)利用所述主题来生成用于所述待识别语句的语言模型。3.根据权利要求2所述的方法,其中,步骤1-1)包括:1-1-1)设置大量主题;1-1-2)根据所述已识别语句,从所述大量主题中选取困惑度低的一个或多个主题作为所述已识别语句的主题。4.根据权利要求2所述的方法,其中,步骤1-2)包括:1-2-1)根据所述主题,确定相应的主题语言模型;1-2-2)融合所述主题语言模型与背景语言模型,以生成用于所述待识别语句的语言模型;其中,所述背景语言模型为通过大量语料训练得出...

【专利技术属性】
技术研发人员:王向东贾端马玉卓钱跃良刘宏
申请(专利权)人:中国科学院计算技术研究所
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1