一种语音输入方法、装置和系统制造方法及图纸

技术编号:10279394 阅读:212 留言:0更新日期:2014-08-02 20:53
本发明专利技术实施例提供了一种语音输入方法、装置和系统,所述的方法包括:当接收到客户端发送的语音数据时,判断所述语音数据输入时的输入环境类型;识别出与所述语音数据对应的、且与所述输入环境类型匹配的一个或多个候选识别文本;将所述一个或多个候选识别文本发送至所述客户端;其中,所述一个或多个候选识别文本用于在所述客户端显示。本发明专利技术实施例中不同的输入环境类型具有不同的语言特性,基于不同的输入环境类型选择不同的语言模型进行识别,提高了语言模型的性能,同时也提高了语音数据的识别准确度,更加符合用户的意图,提高了用户体验。

【技术实现步骤摘要】
一种语音输入方法、装置和系统
本专利技术涉及语音识别
,特别是涉及一种语音输入法方法、一种语音输入装置和一种语音输入系统。
技术介绍
目前,移动互联网的快速发展带动了诸如智能手机、平板电脑的智能移动设备广泛普及。但是受限于屏幕尺寸以及触屏按键,在移动设备特别是智能手机上打字非常困难,此时作为人机交互最方便自然的方式,语音输入法正逐渐被广大用户所接受。移动互联网极大改变了网民访问互联网的方式,移动应用APP(Application,第三方应用程序)的出现进一步促使用户使用移动互联网的方式偏向垂直化,用户在移动设备上的使用方式也愈加直接、明确,例如用户希望看视频,会直接点击视频类的APP,在搜索框中输入想看的视频,直接点击观看。目前的语音识别方法后台均使用通用的识别系统,比如,用户在视频类的APP中输入xiaoshuo,期望搜索晓说(高晓松的脱口秀),但是通用的识别系统则显示首选结果为小说。一方面,该识别系统识别准确度低,容易偏离了用户的意图,用户体验差;另一方面,用户需要通过手动寻找自己所需的字词,甚至要重新输入,操作繁琐,浪费设备资源。
技术实现思路
本专利技术实施例所要解决的技术问题是提供一种语音输入法方法,用以解决语音识别准确率低的问题。相应的,本专利技术实施例还提供了一种语音输入法装置和一种语音输入系统,用以保证上述方法的实现及应用。为了解决上述问题,本专利技术实施例公开了一种语音输入方法,包括:当接收到客户端发送的语音数据时,判断所述语音数据输入时的输入环境类型;识别出与所述语音数据对应的、且与所述输入环境类型匹配的一个或多个候选识别文本;将所述一个或多个候选识别文本发送至所述客户端;其中,所述一个或多个候选识别文本用于在所述客户端显示。优选地,所述判断所述语音数据输入时的输入环境类型的步骤包括:获取所述语音数据输入时的原始输入环境信息;在预置的输入环境分类列表中查找与所述原始输入环境信息对应的输入环境类型。优选地,所述原始输入环境信息包括但不限于如下的至少一个:第三方应用程序的标识,访问的网站名称,访问的网站网址,输入场景,通讯对象。优选地,所述预置的输入环境分类列表记录有特定输入环境类型和通用输入环境类型,以及,所述特定输入环境类型对应的特定输入环境信息;所述在预置的输入环境分类列表中查找与所述原始输入环境信息对应的输入环境类型的步骤包括:采用获取的原始输入环境信息与预置输入环境分类列表中的所述特定输入环境信息进行匹配;当匹配成功时,判定所述原始输入环境信息的输入环境类型为所述特定输入环境类型;当匹配失败时,判定所述原始输入环境信息的输入环境类型为所述通用输入环境类型。优选地,所述在预置的输入环境分类列表中查找与所述原始输入环境信息对应的输入环境类型的步骤还包括:判断在归属所述通用输入环境类型的原始输入环境信息中,输入的第一文本信息是否大于预设数量阈值;若是,则分别采用所述特定输入环境类型的特定输入环境信息中输入的文本信息集合,计算所述第一文本信息归属于所述特定输入环境类型的第一归属概率;分别采用所述第一归属概率计算所述原始输入环境信息归属于所述特定输入环境类型的第一置信度;当所述第一置信度的最高值大于或等于预设的第一置信度阈值时,判定所述原始输入环境信息归属于所述最高值所属第一置信度的特定输入环境类型。优选地,通过以下公式计算所述第一置信度:Conf(i)=CP(i)/sum(CP(i))其中,Conf(i)为所述第一置信度,CP(i)为所述第一归属概率,sum()为求和函数,i为正整数且i小于或等于所述特定输入环境类型的数量。优选地,所述识别出与所述语音数据对应的、且与所述输入环境类型匹配的一个或多个候选识别文本的步骤包括:提取所述语音数据中的多帧语音信号的声学特征;分别采用所述声学特征识别所述多帧语音信息对应的多个语音候选词;分别计算所述多个语音候选词的应用概率;获得所述输入环境类型对应的语言特征信息;采用所述输入环境类型对应的语言特征信息计算所述多个语音候选词之间的连接概率;将所述多个语音候选词组合为所述语音数据对应的多个候选识别文本;分别采用所述应用概率和所述连接概率计算对应的候选识别文本的识别评分,获得识别评分最高的一个或多个候选识别文本。优选地,所述语言特征信息包括输入环境分词及对应的同现率,所述获得获得所述输入环境类型对应的语言特征信息的步骤包括:确定当次所述输入环境类型中的第二文本信息;采用当前输入环境类型中的第二文本信息,计算预置的训练文本信息归属当前输入环境类型的第二归属概率;分别采用所述第二归属概率计算所述训练文本信息归属于当前输入环境类型的第二置信度;当所述第二置信度大于或等于预设的第二置信度阈值时,将所述训练文本文本划分进当前输入环境类型;当所述训练划分完毕时,对所述输入环境类型中的文本信息进行分词处理,获得输入环境分词;统计所述输入环境分词在所述输入环境类别中的词频数;采用所述词频数计算所述输入环境分词的同现率。优选地,当次所述输入环境类型中的第二文本信息包括:所述输入环境类型中的原始文本信息;和/或,所述输入环境类型中增长量大于预设增量阈值时的的文本信息。优选地,所述同现率包括第一词频数与第二词频数的比值;其中,所述第一词频数包括当前输入环境分词出现在目标输入环境分词之后的词频数;所述目标输入环境分词包括出现在当前输入环境分词之前的一个或多个输入环境分词;所述第二词频数包括所述目标输入环境分词总的词频数。优选地,通过以下公式计算所述第二置信度:Conf(j)=CP(j)/sum(CP(j))其中,Conf(j)为所述第二置信度,CP(j)为所述第二归属概率,sum()为求和函数,j为正整数且j小于或等于所述输入环境类型的数量。优选地,通过以下公式计算所述应用概率:其中,为所述声学特征,为所述语音候选词。优选地,通过以下公式计算所述连接概率:其中,为所述语音候选词。优选地,通过以下公式计算所述识别评分:其中,为所述应用概率,为所述连接概率,λ为预置的权重,WP为词插入惩罚参数。本专利技术实施例还公开了一种语音输入装置,包括:判断单元,用于在接收到客户端发送的语音数据时,判断所述语音数据输入时的输入环境类型;识别单元,用于识别出与所述语音数据对应的、且与所述输入环境类型匹配的一个或多个候选识别文本;第一发送单元,用于将所述一个或多个候选识别文本发送至所述客户端;其中,所述一个或多个候选识别文本用于在所述客户端显示。优选地,所述判断单元包括:获取模块,用于获取所述语音数据输入时的原始输入环境信息;查找模块,用于在预置的输入环境分类列表中查找所述原始输入环境信息对应的输入环境类型。优选地,所述原始输入环境信息包括但不限于如下的至少一个:第三方应用程序的标识,访问的网站名称,访问的网站网址,输入场景,通讯对象。优选地,所述预置的输入环境分类列表记录有特定输入环境类型和通用输入环境类型,以及,所述特定输入环境类型对应的特定输入环境信息;所述查找模块包括:匹配子模块,用于采用获取的原始输入环境信息与预置输入环境分类列表中的所述特定输入环境信息进行匹配;当匹配成功时,调用第一判定子模块,当匹配失败时,调用第二判定子模块;第一判定子模块,用于判定所述原始输入环境信息的输入环境类型本文档来自技高网...
一种语音输入方法、装置和系统

【技术保护点】
一种语音输入方法,其特征在于,包括:当接收到客户端发送的语音数据时,判断所述语音数据输入时的输入环境类型;识别出与所述语音数据对应的、且与所述输入环境类型匹配的一个或多个候选识别文本;将所述一个或多个候选识别文本发送至所述客户端;其中,所述一个或多个候选识别文本用于在所述客户端显示。

【技术特征摘要】
1.一种语音输入方法,其特征在于,包括:当接收到客户端发送的语音数据时,判断所述语音数据输入时的输入环境类型;识别出与所述语音数据对应的、且与所述输入环境类型匹配的一个或多个候选识别文本;将所述一个或多个候选识别文本发送至所述客户端;其中,所述一个或多个候选识别文本用于在所述客户端显示;所述识别出与所述语音数据对应的、且与所述输入环境类型匹配的一个或多个候选识别文本的步骤包括:提取所述语音数据中的多帧语音信号的声学特征;分别采用所述声学特征识别所述多帧语音信息对应的多个语音候选词;分别计算所述多个语音候选词的应用概率;获得所述输入环境类型对应的语言特征信息;采用所述输入环境类型对应的语言特征信息计算所述多个语音候选词之间的连接概率;将所述多个语音候选词组合为所述语音数据对应的多个候选识别文本;分别采用所述应用概率和所述连接概率计算对应的候选识别文本的识别评分,获得识别评分最高的一个或多个候选识别文本。2.根据权利要求1所述的方法,其特征在于,所述判断所述语音数据输入时的输入环境类型的步骤包括:获取所述语音数据输入时的原始输入环境信息;在预置的输入环境分类列表中查找与所述原始输入环境信息对应的输入环境类型。3.根据权利要求2所述的方法,其特征在于,所述原始输入环境信息包括但不限于如下的至少一个:第三方应用程序的标识,访问的网站名称,访问的网站网址,输入场景,通讯对象。4.根据权利要求2所述的方法,其特征在于,所述预置的输入环境分类列表记录有特定输入环境类型和通用输入环境类型,以及,所述特定输入环境类型对应的特定输入环境信息;所述在预置的输入环境分类列表中查找与所述原始输入环境信息对应的输入环境类型的步骤包括:采用获取的原始输入环境信息与预置输入环境分类列表中的所述特定输入环境信息进行匹配;当匹配成功时,判定所述原始输入环境信息的输入环境类型为所述特定输入环境类型;当匹配失败时,判定所述原始输入环境信息的输入环境类型为所述通用输入环境类型。5.根据权利要求4所述的方法,其特征在于,所述在预置的输入环境分类列表中查找与所述原始输入环境信息对应的输入环境类型的步骤还包括:判断在归属所述通用输入环境类型的原始输入环境信息中,输入的第一文本信息是否大于预设数量阈值;若是,则分别采用所述特定输入环境类型的特定输入环境信息中输入的文本信息集合,计算所述第一文本信息归属于所述特定输入环境类型的第一归属概率;分别采用所述第一归属概率计算所述原始输入环境信息归属于所述特定输入环境类型的第一置信度;当所述第一置信度的最高值大于或等于预设的第一置信度阈值时,判定所述原始输入环境信息归属于所述最高值所属第一置信度的特定输入环境类型。6.根据权利要求5所述的方法,其特征在于,通过以下公式计算所述第一置信度:Conf(i)=CP(i)/sum(CP(i))其中,Conf(i)为所述第一置信度,CP(i)为所述第一归属概率,sum()为求和函数,i为正整数且i小于或等于所述特定输入环境类型的数量。7.根据权利要求1所述的方法,其特征在于,所述语言特征信息包括输入环境分词及对应的同现率,所述获得获得所述输入环境类型对应的语言特征信息的步骤包括:确定当次所述输入环境类型中的第二文本信息;采用当前输入环境类型中的第二文本信息,计算预置的训练文本信息归属当前输入环境类型的第二归属概率;分别采用所述第二归属概率计算所述训练文本信息归属于当前输入环境类型的第二置信度;当所述第二置信度大于或等于预设的第二置信度阈值时,将所述训练文本文本划分进当前输入环境类型;当所述训练划分完毕时,对所述输入环境类型中的文本信息进行分词处理,获得输入环境分词;统计所述输入环境分词在所述输入环境类别中的词频数;采用所述词频数计算所述输入环境分词的同现率。8.根据权利要求7所述的方法,其特征在于,当次所述输入环境类型中的第二文本信息包括:所述输入环境类型中的原始文本信息;和/或,所述输入环境类型中增长量大于预设增量阈值时的的文本信息。9.根据权利要求7所述的方法,其特征在于,所述同现率包括第一词频数与第二词频数的比值;其中,所述第一词频数包括当前输入环境分词出现在目标输入环境分词之后的词频数;所述目标输入环境分词包括出现在当前输入环境分词之前的一个或多个输入环境分词;所述第二词频数包括所述目标输入环境分词总的词频数。10.根据权利要求7所述的方法,其特征在于,通过以下公式计算所述第二置信度:Conf(j)=CP(j)/sum(CP(j))其中,Conf(j)为所述第二置信度,CP(j)为所述第二归属概率,sum()为求和函数,j为正整数且j小于或等于所述输入环境类型的数量。11.根据权利要求1或7所述的方法,其特征在于,通过以下公式计算所述应用概率:其中,为所述声学特征,为所述语音候选词。12.根据权利要求1或7所述的方法,其特征在于,通过以下公式计算所述连接概率:其中,为所述语音候选词。13.根据权利要求1或7所述的方法,其特征在于,通过以下公式计算所述识别评分:其中,为所述应用概率,为所述连接概率,λ为预置的权重,WP为词插入惩罚参数。14.一种语音输入装置,其特征在于,包括:判断单元,用于在接收到客户端发送的语音数据时,判断所述语音数据输入时的输入环境类型;识别单元,用于识别出与所述语音数据对应的、且与所述输入环境类型匹配的一个或多个候选识别文本;第一发送单元,用于将所述一个或多个候选识别文本发送至所述客户端;其中,所述一个或多个候选识别文本用于在所述客...

【专利技术属性】
技术研发人员:陈伟梁伟文邵俊尧
申请(专利权)人:北京搜狗科技发展有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1