一种语音识别方法和装置制造方法及图纸

技术编号:15393047 阅读:158 留言:0更新日期:2017-05-19 05:37
本发明专利技术公开了一种语音识别方法和装置,其中方法包括:对语音采样获得语音采样信息;根据业务特征信息和语音采样信息获得前置特征参数集,业务特征信息包括地理位置信息、业务类型和业务场景,前置特征参数集包括位置标识、语种标识、行为标识和行业标识;根据前置特征参数集选择结构化语料库对语音采样信息进行语音识别。本发明专利技术在语音识别时,获取前置特征参数集,通过位置标识、语种标识、行为标识和行业标识检索细分化的结构化语料库,可有效提高语音识别效率与识别的准确率,尤其在进行对语音识别实时性要求较高的业务时,显著改善用户体验。

Speech recognition method and apparatus

The invention discloses a voice recognition method and device, wherein the method comprises the following steps: the voice sampling to obtain voice sampling information; according to the characteristics of the business information and voice information to obtain the characteristic parameters in pre sampling, business characteristic information including geographical location information, business type and business scene, with parameters set of features including position identification, identity, language behavior identification and identification industry; according to the selection of sampling information of speech corpus structured speech recognition front-end feature set. The present invention in speech recognition, pre acquisition parameters set of features, through structured corpus segmentation identifier, language identification, behavior identification and industry, can effectively improve the accuracy of speech recognition efficiency and recognition, especially in speech recognition requires high real-time service, improve the user experience.

【技术实现步骤摘要】
一种语音识别方法和装置
本专利技术涉及语音识别领域,尤其涉及一种语音识别方法和装置。
技术介绍
自然语言处理技术,是计算机科学领域与人工智能领域中的一个重要方向,研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法,让计算机“理解”自然语言,因此自然语言处理又叫做自然语言理解。语音识别技术,是指将人类发出的语言声音转换为计算机可以识别的文字,编码,按键操作等。声纹识别技术。是指根据人的发声特征来区别不同人的身份。经研究发现,不同语言的发声特征也有所不同。语音识别技术架构主要由以下几部分构成:1、物理接口层:声音进入系统的物理接口,输入语音信号;2、特征提取层:提取声学特征矢量,提供特征矢量序列;3、音节感知层:声韵母因素单元结构,提供音节候选序列及可信度,把声韵母或因素合并成为音节单元,推断何礼音节,提供词语候选序列及可信度;4、词语识别层,音字转换,推断词语单元,提供语句候选序列及可信度;5、语句识别层,推断语句候选单元及可信度;6、语义应用层,分析语义,映射应用,由任务语法约束。一般语音识别系统的特征提取,是对输入的语音信号本身进行声学矢量分析,同时在语音识别上也是基于大规模语料标注实现。随着移动互联网的发展,语音识别功能被广泛应用于各种业务、场景,以及各种类型的应用程序中。例如用户查询电影、天气、路线等语音识别请求时,对识别速度、识别准确度和实时互动的要求就较高。例如用户说“今天要去看电影bighero”以及“请搜索high歌”等语音信息,样本中除了包含多语种语音自身基本的物理声学声纹特征外、也包含业务场景、业务类型、行为模式等第三方信息特征,还包括手机等物联网智能终端硬件设备特征。然而现有的语音识别技术中,仅是一般语音识别系统的特征提取,对输入的语音信号本身进行声学矢量分析,同时在语音识别上也是基于大规模语料标注实现。没有有效利用物联网提供的业务特征、场景特征、行业特征以及用户声纹特征等信息,造成识别效率和准确度较低,用户体验差。
技术实现思路
本专利技术的专利技术人发现了上述现有技术中存在问题,并因此针对上述问题中的至少一个问题提出了一种新的技术方案。本专利技术公开了一种语音识别方法和装置,通过语音样本业务特征集的获取,可有效提高语音识别效率与准确率,同时进一步提高了语料库的细分化。根据本专利技术的一个方面,提供了一种语音识别方法,包括:对语音采样获得语音采样信息;根据业务特征信息和语音采样信息获得前置特征参数集,业务特征信息包括地理位置信息、业务类型和业务场景,前置特征参数集包括位置标识、语种标识、行为标识和行业标识;根据前置特征参数集选择结构化语料库对语音采样信息进行语音识别。在一个实施例中,根据业务特征信息和语音采样信息获得前置特征参数集的步骤包括:对语音采样信息进行声纹特征提取;将声纹特征与预置特征矩阵集进行比对,生成语音分段信息和语种标识,语种标识包括语音分段信息的语种信息和置信值。在一个实施例中,对语音采样信息进行声纹特征提取的步骤包括:对语音采样信息提取短时语音频谱特征和统计特征;根据特征参数模型进行特征参数化,得到声纹特征。在一个实施例中,特征参数模型包括梅尔频率倒谱系数和感知线性预测系数。在一个实施例中,根据前置特征参数集和结构化语料库对语音采样信息进行语音识别的步骤包括:根据前置特征参数集中的语种标识,选择相应语种的识别引擎;根据位置标识、行为标识和行业标识检索结构化语料库,对语音采样信息进行语音识别。在一个实施例中,还包括:根据语音识别结果调整前置特征参数集。在一个实施例中,还包括:接收用户终端上报的业务特征信息。在一个实施例中,还包括:根据语音采样信息获得业务特征信息。根据本专利技术的另一方面,提供了一种语音识别装置,包括:语音采样单元,用于对语音采样获得语音采样信息;前置特征提取单元,用于根据业务特征信息和语音采样信息获得前置特征参数集,业务特征信息包括地理位置信息、业务类型和业务场景,前置特征参数集包括位置标识、语种标识、行为标识和行业标识;语音识别单元,用于根据前置特征参数集和结构化语料库对语音采样信息进行语音识别。在一个实施例中,前置特征提取单元具体包括:语音接收模块,用于接收语音采样信息;语种标识模块,用于对语音采样信息进行声纹特征提取;将声纹特征与预置特征矩阵集进行比对,生成语音分段信息和语种标识,语种标识包括语音分段信息的语种信息和置信值;位置标识模块,用于根据语音采样信息和业务特征信息获得位置标识;行为标识模块,用于根据语音采样信息和业务特征信息获得行为标识;行业标识模块,用于根据语音采样信息和业务特征信息获得行业标识。在一个实施例中,语种标识模块,具体用于对语音采样信息提取短时语音频谱特征和统计特征;根据特征参数模型进行特征参数化,得到声纹特征。在一个实施例中,特征参数模型包括梅尔频率倒谱系数和感知线性预测系数。在一个实施例中,语音识别单元,具体用于根据前置特征参数集中的语种标识,选择相应语种的识别引擎;根据位置标识、行为标识和行业标识检索结构化语料库,对语音采样信息进行语音识别。在一个实施例中,前置特征提取单元,还用于根据语音识别结果调整前置特征参数集。在一个实施例中,前置特征提取单元还包括业务特征信息模块,用于接收用户终端上报的业务特征信息。在一个实施例中,前置特征提取单元还包括业务特征信息模块,用于根据语音采样信息获得业务特征信息。本专利技术的语音识别方法和装置,通过语音采样信息中前置特征参数集的获取,可有效提高语音识别效率与准确率,同时进一步提高了语料库的细分化。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例或描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术一种语音识别方法的一个实施例的示意图。图2为本专利技术一种语音识别方法中获得语种标识方法的一个实施例的示意图。图3为本专利技术一种语音识别装置的一个实施例的示意图。图4为本专利技术一种语音识别装置中前置特征提取单元一个实施例的示意图。图5为本专利技术一种语音识别装置中前置特征提取单元另一个实施例的示意图。具体实施方式现在将参照附图来详细描述本专利技术的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本专利技术的范围。同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本专利技术及其应用或使用的任何限制。对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为授权说明书的一部分。在这里示出和讨论的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它示例可以具有不同的值。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。图1为本专利技术一种语音识别方法的一个实施例的示意图。优选的,本实施例的方法由本专利技术的语音识别装置本文档来自技高网
...
一种语音识别方法和装置

【技术保护点】
一种语音识别方法,其特征在于,包括:对语音采样获得语音采样信息;根据业务特征信息和所述语音采样信息获得前置特征参数集,所述业务特征信息包括地理位置信息、业务类型和业务场景,所述前置特征参数集包括位置标识、语种标识、行为标识和行业标识;根据所述前置特征参数集选择结构化语料库对所述语音采样信息进行语音识别。

【技术特征摘要】
1.一种语音识别方法,其特征在于,包括:对语音采样获得语音采样信息;根据业务特征信息和所述语音采样信息获得前置特征参数集,所述业务特征信息包括地理位置信息、业务类型和业务场景,所述前置特征参数集包括位置标识、语种标识、行为标识和行业标识;根据所述前置特征参数集选择结构化语料库对所述语音采样信息进行语音识别。2.根据权利要求1所述的方法,其特征在于,根据业务特征信息和所述语音采样信息获得前置特征参数集的步骤包括:对所述语音采样信息进行声纹特征提取;将所述声纹特征与预置特征矩阵集进行比对,生成语音分段信息和所述语种标识,所述语种标识包括所述语音分段信息的语种信息和置信值。3.根据权利要求2所述的方法,其特征在于,对所述语音采样信息进行声纹特征提取的步骤包括:对所述语音采样信息提取短时语音频谱特征和统计特征;根据特征参数模型进行特征参数化,得到声纹特征。4.根据权利要求3所述的方法,其特征在于,所述特征参数模型包括梅尔频率倒谱系数和感知线性预测系数。5.根据权利要求1所述的方法,其特征在于,根据所述前置特征参数集和结构化语料库对所述语音采样信息进行语音识别的步骤包括:根据所述前置特征参数集中的语种标识,选择相应语种的识别引擎;根据位置标识、行为标识和行业标识检索结构化语料库,对所述语音采样信息进行语音识别。6.根据权利要求1所述的方法,其特征在于,还包括:根据所述语音识别结果调整所述前置特征参数集。7.根据权利要求1-5任一所述的方法,其特征在于,还包括:接收用户终端上报的所述业务特征信息。8.根据权利要求1-5任一所述的方法,其特征在于,还包括:根据所述语音采样信息获得所述业务特征信息。9.一种语音识别装置,其特征在于,包括:语音采样单元,用于对语音采样获得语音采样信息;前置特征提取单元,用于根据业务特征信息和所述语音采样信息获得前置特征参...

【专利技术属性】
技术研发人员:龚晟杨震彭晓春俞惠华
申请(专利权)人:中国电信股份有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1