语音处理方法、装置和介质制造方法及图纸

技术编号:30403105 阅读:13 留言:0更新日期:2021-10-20 10:51
本发明专利技术实施例提供了一种语音处理方法和装置、一种用于语音处理的装置,其中的方法具体包括:确定用户词库中用户词条对应的词条特征;所述词条特征包括:个人词频、公共词频、以及使用用户数量;依据所述词条特征,从所述用户词库中确定出个性化词条;所述个性化词条用于语音输入。本发明专利技术实施例能够提高个性化词条的区分性和准确度,以及能够提高语音识别的准确度。确度。确度。

【技术实现步骤摘要】
语音处理方法、装置和介质


[0001]本专利技术涉及语音处理
,特别是涉及一种语音处理方法和装置、一种机器可读介质。

技术介绍

[0002]语音识别技术能够将语音转换成为对应的字符或编码,广泛应用于语音输入、智能聊天、语音翻译等领域。
[0003]目前的语音识别模型通常采用声学模型及语言模型,优先识别出常用词及语料中出现概率较大的词。
[0004]专利技术人在实施本专利技术实施例的过程中发现,常用词及语料中出现概率较大的词反映的是大多数用户的语言使用习惯,而单个用户通常具有自身的个性化语言使用习惯,若大多数用户的语言使用习惯与个性化语言使用习惯相悖,则将提供错误的语音识别结果。

技术实现思路

[0005]鉴于上述问题,提出了本专利技术实施例以便提供一种克服上述问题或者至少部分地解决上述问题的语音处理方法、语音处理装置及用于语音处理的装置,本专利技术实施例能够提高个性化词条的区分性和准确度,以及能够提高语音识别的准确度。
[0006]为了解决上述问题,本专利技术公开了一种语音处理方法,包括:
[0007]确定用户词库中用户词条对应的词条特征;所述词条特征包括:个人词频、公共词频、以及使用用户数量;
[0008]依据所述词条特征,从所述用户词库中确定出个性化词条;所述个性化词条用于语音输入。
[0009]为了解决上述问题,本专利技术公开了一种语音处理方法,包括:
[0010]接收待识别语音数据;
[0011]对所述待识别语音数据进行解码
[0012]根据用户对应的个性化词条,对所述待识别语音数据对应的解码路径的得分进行调整;所述用户对应的个性化词条为依据前述的方法得到;
[0013]根据所述解码路径的调整后得分,确定所述待识别语音数据对应的语音识别结果
[0014]另一方面,本专利技术实施例公开了一种语音处理装置,包括:
[0015]词条特征确定模块,用于确定用户词库中用户词条对应的词条特征;所述词条特征包括:个人词频、公共词频、以及使用用户数量;
[0016]个性化词条确定模块,用于依据所述词条特征,从所述用户词库中确定出个性化词条;所述个性化词条用于语音输入。
[0017]另一方面,本专利技术实施例公开了一种语音处理装置,包括:
[0018]接收模块,用于接收待识别语音数据;
[0019]解码模块,用于对所述待识别语音数据进行解码;
[0020]调整模块,用于根据用户对应的个性化词条,对所述待识别语音数据对应的解码路径的得分进行调整;所述用户对应的个性化词条为依据前述的方法得到;以及
[0021]语音识别结果确定模块,用于根据所述解码路径的调整后得分,确定所述待识别语音数据对应的语音识别结果。
[0022]再一方面,本专利技术实施例公开了一种用于语音处理的装置,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
[0023]确定用户词库中用户词条对应的词条特征;所述词条特征包括:个人词频、公共词频、以及使用用户数量;
[0024]依据所述词条特征,从所述用户词库中确定出个性化词条;所述个性化词条用于语音输入。
[0025]本专利技术实施例还公开了一个或多个机器可读介质,其特征在于,其上存储有指令,当由一个或多个处理器执行时,使得装置执行前述的方法。
[0026]本专利技术实施例包括以下优点:
[0027]本专利技术实施例综合利用个人词频、公共词频、以及使用用户数量等词条特征,从用户词库中挖掘个性化词条。个人词频、公共词频、以及使用用户数量等词条特征的综合利用,可以提高个性化词条在不同用户之间的区分性、以及用户词条对于当前用户的代表性,因此能够提高个性化词条的区分性和准确度。
[0028]本专利技术实施例将个性化词条应用于语音识别过程中,可以使语音识别结果符合用户的个性化习惯,进而提升语音识别的准确度。
附图说明
[0029]图1是本专利技术实施例的一种语音处理方法的流程的示意;
[0030]图2是本专利技术的一种语音处理方法实施例一的步骤流程图;
[0031]图3是本专利技术的一种语音处理方法实施例二的步骤流程图;
[0032]图4是本专利技术的一种语音处理方法实施例三的步骤流程图;
[0033]图5是本专利技术的一种语音处理方法实施例四的步骤流程图;
[0034]图6是本专利技术的一种语音处理方法实施例五的步骤流程图;
[0035]图7是本专利技术的一种语音处理方法实施例六的步骤流程图;
[0036]图8是本专利技术的一种语音处理装置的结构框图;
[0037]图9是本专利技术的一种语音处理装置的结构框图;
[0038]图10是本专利技术的一种用于语音处理的装置1300的框图;及
[0039]图11是本专利技术的一种服务端的结构示意图。
具体实施方式
[0040]为使本专利技术的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本专利技术作进一步详细的说明。
[0041]本专利技术实施例可以适用于语音识别场景。语音处理场景用于将语音转换为文本,语音处理场景可以包括:语音输入场景、智能聊天场景、语音翻译场景等。
[0042]声学模型采用深度神经网络模型对声学发音和基本声学单元(通常是音素)之间的映射关系进行建模;音素是根据语音的自然属性划分出来的最小语音单位。声学模型可以接收输入的语音特征,并输出语音特征对应的音素序列。
[0043]参照图1,示出了本专利技术实施例的一种语音识别方法的流程的示意,语音识别方法用到的模型可以包括:声学模型、语言模型和解码器。
[0044]其中,声学模型的确定过程可以包括:针对语音数据库中的语音语料进行特征提取,依据提取得到的特征进行声学模型的训练。
[0045]语言模型的确定过程可以包括:依据文本数据库中的文本语料进行,进行语言模型的训练。
[0046]解码器用于在给定音素序列的情况下,找到最佳的解码路径,进而可以得到语音识别结果。
[0047]图1所示的语音识别过程可以包括:针对输入的语音进行特征提取,以得到语音特征,语音特征输入解码器。解码器首先利用声学模型,确定语音特征对应的音素序列;然后,依据语言模型对音素序列进行语音解码,以得到语音识别结果,并将语音识别结果对应的文本进行输出。
[0048]声学模型可以包括:神经网络模型和隐马尔可夫模型,其中,神经网络模型可以向隐马尔可夫模型提供声学建模单元,声学建模单元的粒度可以包括:字、音节、音素、或者状态等;而隐马尔可夫模型可以依据神经网络模型提供的声学建模单元,确定音素序列。一个状态在数学上表征一个马尔科夫过程的状态。
[0049]语音识别过程中的解码器根据待识别语音数据,在由声学模型、字典和语言模型等知识源组成的搜索空间中搜出最佳的解码路径,并本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音处理方法,其特征在于,包括:确定用户词库中用户词条对应的词条特征;所述词条特征包括:个人词频、公共词频、以及使用用户数量;依据所述词条特征,从所述用户词库中确定出个性化词条;所述个性化词条用于语音输入。2.根据权利要求1所述的方法,其特征在于,所述从所述用户词库中确定出个性化词条,包括:从所述用户词库中滤除使用用户数量超过第一阈值的用户词条;和/或从所述用户词库中获取个人词频超过第二阈值的用户词条;和/或依据个人词频与公共词频之间的相对关系,从所述用户词库中获取个性化词条。3.根据权利要求1所述的方法,其特征在于,所述从所述用户词库中确定出个性化词条,包括:对所述个人词频、所述公共词频的倒数和所述使用用户数量的倒数进行融合;依据融合特征,从所述用户词库中获取个性化词条。4.一种语音处理方法,其特征在于,包括:接收待识别语音数据;对所述待识别语音数据进行解码;根据用户对应的个性化词条,对所述待识别语音数据对应的解码路径的得分进行调整;所述用户对应的个性化词条为依据权利要求1至3中任一所述的方法得到;根据所述解码路径的调整后得分,确定所述待识别语音数据对应的语音识别结果。5.一种语音处理装置,其特征在于,包括:词条特征确定模块,用于确定用户词库中用户词条对应的词条特征;所述词条特征包括:个人词频、公共词频、以及使用用户数量;个性化词条确定模块,用于依据所述词条特征,从所述用户词库中确定出个性化词条;所述个性化词条用于语音输入。6.一种语音处理装置,其特征在于,包括:接收模块,用于接收待识别语音数据;解码模块,用于对所述待识别语音数据进行解码;调整模块,用于根...

【专利技术属性】
技术研发人员:魏爽郑宏陈金坤韩秦杨家旭李明浩张群杨浩龙全友李瑞星陈章钦
申请(专利权)人:北京搜狗科技发展有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1