语音识别方法和系统技术方案

技术编号:8490385 阅读:153 留言:0更新日期:2013-03-28 13:16
本发明专利技术实施例公开了语音识别方法和系统,以解决上述用户人工进行定位存在的定位不便的问题。该语音识别方法包括:对用户输入的语音信号进行语音识别,获得语音识别结果以及语音识别结果中各字符对应的语音片段;接收用户单独输入的纠错信息并生成相应的纠错字符串;获取纠错字符串对应的至少一个语音段作为侯选语音段,并分别统计各侯选语音段在纠错字符串模型上的似然度;根据语音识别结果中各字符对应的语音片段,分别确定上述各侯选语音段在第一最优解码路径的语音识别结果中所对应的字符串作为侯选字符串;根据侯选语音段的似然度计算与之对应的侯选字符串的纠错置信度,并根据纠错置信度确定出错误字符串;利用纠错字符串替换错误字符串。

【技术实现步骤摘要】

本专利技术涉及语音识别
,更具体地说,涉及语音识别方法和系统
技术介绍
语音识别技术是一种对用户录入的语音信号进行识别,最终转化为文本/字符串(也即识别结果为文本)的技术,其为自然人性的人机交互提供了便利。以采用语音识别技术的移动设备为例,在语音识别技术的支持下,用户只要对着移动设备说话,经过语音识别系统识别后就会自动形成文字,大大提高了用户的输入效率。但是,在大词汇量随意说的应用环境下,语音识别技术依然不能达到百分百正确的识别率,需要人工对识别结果进行修正编辑。移动设备(语音识别系统)将语音识别结果显示到屏幕的文本输入区后,用户如想对语音识别结果进行修改编辑,则首先需要在语音识别结果中定位需要修正(也可称为待修改)的字符。·而在移动设备上,特别是小屏幕的指触屏设备上,由于屏幕尺寸受限,用户在从连续大段文本中对某个确定的字符进行定位时,特别是在相邻两字符间插入编辑光标时,存在定位不便的问题。
技术实现思路
有鉴于此,本专利技术实施例目的在于提供语音识别方法和系统,以解决上述用户人工进行定位存在的定位不便的问题。为实现上述目的,本专利技术实施例提供如下技术方案根据本专利技术实施例的一个方面,提供一种语音识别方法,包括对用户输入的语音信号进行语音识别,获得第一最优解码路径,所述第一最优解码路径包括语音识别结果以及所述语音识别结果中各字符对应的语音片段;接收用户单独输入的纠错信息并生成相应的纠错字符串,所述纠错信息通过非语音方式或语音方式输入;获取所述纠错字符串在所述用户输入的语音信号中对应的至少一个语音段作为侯选语音段,并分别统计各侯选语音段在所述纠错字符串模型上的似然度;根据所述语音识别结果中各字符对应的语音片段,分别确定上述各侯选语音段在第一最优解码路径的语音识别结果中所对应的字符串作为侯选字符串;根据所述侯选语音段的似然度计算与之对应的侯选字符串的纠错置信度,并根据纠错置信度确定出错误字符串;利用所述纠错字符串替换所述错误字符串。根据本专利技术实施例的另一个方面,提供一种语音识别系统,包括语音识别单元,用于对用户输入的语音信号进行语音识别,获得第一最优解码路径,所述第一最优解码路径包括语音识别结果以及所述语音识别结果中各字符对应的语音片段;纠错字符串生成单元,用于接收用户单独输入的纠错信息并生成相应的纠错字符串,所述纠错信息通过非语音方式或语音方式输入;自动纠错单元,用于根据所述纠错字符串确定所述用户输入的语音信号中侯选语音段;统计所述侯选语音段在所述纠错字符串模型上的似然度;根据所述语音识别结果中各字符对应的语音片段,确定上述侯选语音段在第一最优解码路径的语音识别结果中所对应的字符串作为侯选字符串;根据所述侯选语音段对应的似然度计算与之对应的侯选字符串的纠错置信度,并根据纠错置信度确定出错误字符串;利用所述纠错字符串替换所述错误字符串。从上述的技术方案可以看出,本专利技术实施例所公开的技术方案根据用户单独输入的纠错信息所生成的纠错字符串来确定侯选语音段,再通过侯选语音段找到其在语音识别结果中所对应的错误字符串,实现了用户所输入的纠错字符串与错误字符串的对应,进而实现了对语音识别结果中错误字符串的自动定位,解决了用户人工进行定位存在的定位不便的问题。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例提供的语音识别方法流程图;图2为本专利技术实施例提供的手写输入识别流程图;图3为本专利技术实施例提供字符覆盖的最小区域示意图;图4为本专利技术实施例提供的自动纠错过程流程图;图5为本专利技术实施例提供的纠错字符串检索网络结构示意图;图6为本专利技术实施例提供的自动纠错过程流程图;图7为本专利技术实施例提供的确定出错误字符串流程图;图8为本专利技术实施例提供的纠错置信度计算流程图;图9为本专利技术实施例提供的语音识别系统结构示意图。具体实施例方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。作为一种简单方便而又高效的输入方式,语音识别改变了传统的基于复杂编码或拼音输入的键盘模式,为自然人性的人机交互提供了便利条件。特别是近年来随着科技的发展和无线通讯网络的创新普及,各种在线语音识别应用,如发微博,写短信,网络即时通讯等受到了越来越多的关注。在语音识别技术的支持下,用户只要对着移动设备说话,经过系统识别后就会自动形成文字,大大提高了用户的输入效率。但是,在大词汇量随意说的应用环境下,语音识别技术依然不能达到百分百正确的识别率,需要人工对识别结果进行修正编辑。移动设备(语音识别系统)将语音识别结果显示到屏幕的文本输入区后,用户如想对语音识别结果进行修改编辑,则需要在识别结果中定位需要修正(也可称为待修改)的字符。而在移动设备上,特别是小屏幕的指触屏设备上,由于屏幕尺寸受限,用户在从连续大段文本中对某个确定的字符进行定位时,特别是在相邻两字符间插入编辑光标时,存在定位不准的问题。为便于理解,现对语音识别介绍如下如果将待识别的一段语音信号记作S,对S进行一系列处理后得到与之相对应的·语音特征序列O,记作O = (O1, O2,…,Oi, ···, 0T},其中Oi是第i个语音特征,T为语音特征总个数。语音信号S对应的句子可看作是由许多词组成的一个词串,记作W= Iw1, W2,…,WnI。语音识别的任务就是根据已知的语音特征序列0,求出最可能的词串r。在语音识别的具体过程中,一般首先提取语音信号对应的语音特征参数,随后在由预置的声学模型和语言模型构成的网络搜索空间中,根据预设的搜索算法(比如Viterbi算法),搜索相对于所提取得语音特征参数的最优路径(也即最优解码路径)。在了解了语音识别的一些概念后,现对本专利技术实施例的技术方案介绍如下。为解决上述定位不便的问题,本专利技术实施例所提供的语音识别方法至少包括如下步骤语音识别过程对用户输入的语音信号进行语音识别,获得最优解码路径,其中,最优解码路径包括语音识别结果以及语音识别结果中各字符对应的语音片段;纠错字符串生成过程接收用户单独输入的纠错信息并生成相应的纠错字符串,上述纠错信息允许通过非语音方式或语音方式输入;自动纠错过程根据纠错字符串确述用户输入的语音信号中侯选语音段;根据语音识别结果中各字符对应的语音片段,确定上述侯选语音段在第一最优解码路径的语音识别结果中所对应的字符串作为侯选字符串,从侯选字符串中确定出错误字符串;并利用纠错字符串替换所述错误字符串。下面对各个过程进行一一介绍。一,语音识别过程为了最大可能的满足用户日常交互需求,本专利技术实施例采用大词汇量连续语音识别技术,以实现对任意说语音的文本转换。其中,参见图1,上述语音识别过程具体包括S11、跟踪采集用户输入的语音信号(也即上述待识别的一段语音信号);在本专利技术其他实施例中,可将上述语音信号存入数据缓存区;本文档来自技高网...

【技术保护点】
一种语音识别方法,其特征在于,包括:对用户输入的语音信号进行语音识别,获得第一最优解码路径,所述第一最优解码路径包括语音识别结果以及所述语音识别结果中各字符对应的语音片段;接收用户单独输入的纠错信息并生成相应的纠错字符串,所述纠错信息通过非语音方式或语音方式输入;获取所述纠错字符串在所述用户输入的语音信号中对应的至少一个语音段作为侯选语音段,并分别统计各侯选语音段在所述纠错字符串模型上的似然度;根据所述语音识别结果中各字符对应的语音片段,分别确定上述各侯选语音段在第一最优解码路径的语音识别结果中所对应的字符串作为侯选字符串;根据所述侯选语音段的似然度计算与之对应的侯选字符串的纠错置信度,并根据纠错置信度确定出错误字符串;利用所述纠错字符串替换所述错误字符串。

【技术特征摘要】

【专利技术属性】
技术研发人员:何婷婷胡郁胡国平刘庆峰
申请(专利权)人:安徽科大讯飞信息科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1