语音识别设备和方法技术

技术编号:15620704 阅读:141 留言:0更新日期:2017-06-14 04:35
提供一种语音识别设备和方法。一种语音识别设备,包括:预测器,被配置为基于已被之前搜索的单词序列预测跟随已被之前搜索的单词序列的单词的词类;解码器,被配置为搜索与语音信号对应的候选单词,使用已被搜索的候选单词扩展之前已被搜索的单词序列,并基于预测的词类调整扩展的单词序列的概率值。

【技术实现步骤摘要】
语音识别设备和方法本申请要求于2015年11月30日提交到韩国知识产权局的第10-2015-0168967号韩国专利申请的优先权,该申请的全部公开出于所有目的通过引用全部包含于此。
下面的描述涉及一种语音识别设备和方法。
技术介绍
与过去的现有技术不同,最近的语音识别技术已引起广泛的关注。这是因为语音识别技术的实现允许互联网信息、电子商务和在使用语音的各种普遍存在的环境中的操作的使用更加方便,并且甚至在用户难以使用他们的双手时也能满足用户的各种需要,诸如,启用互联网访问、实施商业事务以及使用其他服务。
技术实现思路
提供
技术实现思路
从而以简化的形式介绍构思的选择,其将在下面的具体实施方式中将被进一步描述。
技术实现思路
不意在确定所要求保护主题的关键特征或必要特征,也不意在用作辅助确定所要求保护的主题的范围。在一个总体方面中,一种语音识别设备,包括:预测器,被配置为基于之前已被搜索的单词序列预测跟随之前已被搜索的单词序列的单词的词类;解码器,被配置为搜索与语音信号对应的候选单词,使用已被搜索的候选单词扩展之前已被搜索的单词序列,并基于预测的词类调整扩展的单词序列的概率值。词类可为实体名或词性;实体名可为人名、位置名、组织名、日期、时间、书名、电影名、音乐名或TV节目名。预测器还可被配置为:使用词类预测模型预测跟随之前已被搜索的单词序列的单词的词类。词类预测模型可基于词典和语法以规则集的形式被构造,或者可使用命名的实体识别方案和词性标注方案的任何一个或两者通过机器学习被构造。词类预测模型可为基于递归神经网络(RNN)的模型。解码器还可被配置为:使用以加权有限状态转换器(WFST)的形式在数据结构中构造的发音词典和语言模型来搜索候选单词。解码器还可被配置为:从未来的搜索目标排除已被搜索的候选单词之中的不属于预测的词类的候选单词。解码器还可被配置为:在已被搜索的候选单词之中增加属于预测的词类的候选单词的概率值。解码器还可被配置为:在已被搜索的候选单词之中增加属于预测的词类的并包括在个性化的语言模型中的候选单词的概率值。预测器还可被配置为:预测跟随之前已被搜索的单词序列的单词的词类概率分布;解码器还可被配置为:通过用每一候选单词的概率值乘以该候选单词所从属的词类的预测的概率值,调整每一候选单词的概率值。在另一总体方面中,一种语音识别方法,包括:基于之前已被搜索的单词序列预测跟随已被之前搜索的单词序列的单词的词类;搜索与语音信号对应的候选单词;使用已被搜索的候选单词扩展之前已被搜索的单词序列;基于预测的词类调整扩展的单词序列的概率值。词类可为实体名或词性;实体名可为人名、位置名、组织名、日期、时间、书名、电影名、音乐名或TV节目名。所述预测词类的步骤可包括:使用词类预测模型预测跟随之前已被搜索的单词序列的单词的词类。词类预测模型可基于词典和语法以规则集的形式被构造,或者可使用命名的实体识别方案和词性标注方案的任何一个或两者通过机器学习被构造。词类预测模型可为基于递归神经网络(RNN)的模型。所述搜索候选单词的步骤可包括:使用以加权有限状态转换器(WFST)的形式在数据结构中构造的发音词典和语言模型搜索候选单词。所述的语音识别方法,还可包括:从未来的搜索目标排除已被搜索的候选单词之中的不属于预测的词类的候选单词。所述调整扩展的单词序列的概率值的步骤可包括:在已被搜索的候选单词之中增加属于预测的词类的候选单词的概率值。所述调整扩展的单词序列的概率值的步骤可包括:在已被搜索的候选单词之中增加属于预测的词类的并包括在个性化的语言模型中的候选单词的概率值。所述预测词类的步骤可包括:预测跟随之前已被搜索的单词序列的单词的词类概率分布;所述调整扩展的单词序列的概率值的步骤可包括:通过将每一候选单词的概率值乘以该候选单词所属的词类的预测的概率值,来调整每一候选单词的概率值。在另一总体方面,一种存储当由处理器执行时导致处理器执行上面描述的方法的指令的计算机可读存储介质。在另一总体方面中,一种词类预测模型生成设备,包括:训练数据采集器,被配置为采集包括多个单词序列和多个与所述多个单词序列的每一单词序列对应的类序列的训练数据;模型生成器,被配置为基于采集的训练数据通过学习生成词类预测模型。类序列的每一类可为实体名或词性;实体名可为人名、位置名、组织名、日期、时间、书名、电影名、音乐名或TV节目名。模型生成器还可被配置为:基于采集的训练数据训练递归神经网络(RNN)以生成词类预测模型。模型生成器还可被配置为:使用作为输入的单词和作为目标的跟随所述单词的单词的词类来训练RNN。在另一总体方面中,一种词类预测模型生成方法,包括:采集包括多个单词序列和多个与所述多个单词序列中的每个单词序列对应的类序列的训练数据;基于采集的训练数据通过学习来生成词类预测模型。所述多个类序列的每一类可为实体名或词性;实体名可为人名、位置名、组织名、日期、时间、书名、电影名、音乐名或TV节目名。所述生成词类预测模型的步骤可包括:基于采集的训练数据训练递归神经网络(RNN)以生成词类预测模型。所述训练RNN的步骤可包括:使用作为输入的单词和作为目标的跟随所述单词的单词的词类来训练RNN。在另一总体方面中,一种语音识别设备,包括:预测器,被配置为基于之前已被搜索的单词序列预测跟随已被之前搜索的单词序列的单词的词类;解码器,被配置为基于预测的词类将单词添加到之前已被搜索的单词序列。预测器还可被配置为:基于之前已被搜索的单词序列预测多个词类的各自的概率;解码器还可被配置为:基于所述多个词类的预测的概率将单词添加到之前已被搜索的单词序列。解码器还可被配置为:将属于在所述多个词类之中具有最高概率的词类的单词添加到之前已被搜索的单词序列。解码器还可被配置为:搜索与语音信号对应的多个候选单词,并基于所述多个候选单词的各自的概率和所述多个预测的词类的预测的概率确定是否将所述多个候选单词中的一个候选单词添加到之前已被搜索的单词序列。解码器还可被配置为:搜索与语音信号对应的候选单词,并基于预测的词类确定是否将候选单词添加到之前已被搜索的单词序列。其他特征和方面从下面的具体实施方式、附图和权利要求将是清楚的。附图说明图1是示出语音识别设备的示例的框图。图2是示出预测跟随单词序列的单词的词类概率分布的处理的示例的示图。图3是示出基于一词性调整候选单词序列的概率值的处理的示例的示图。图4是示出通过应用个性化的信息调整候选单词序列的概率值的处理的示例的示图。图5是示出基于预测的词类概率分布调整候选单词序列的概率值的处理的示例的示图。图6是示出语音识别设备的另一示例的框图。图7是示出词类预测模型生成设备的示例的框图。图8是示出生成词类预测模型的方法的示例的示图。图9是示出语音识别方法的示例的流程图。图10是示出语音识别方法的另一示例的流程图。图11是示出生成词类预测模型的方法的示例的流程图。贯穿附图和具体实施方式,除非另外被描述,否则相同的附图标记将被理解为表示相同的元件、特征和结构。附图可不按比例,并且为了清楚、说明和便利,这些元件的相对大小、比例和描写可被夸大。具体实施方式下面的详细描述被提供以协助读者获得对在此描述的方法、设备和/或系统的全面理解。然而,在对本申请的公开的理解后,在此描述的本文档来自技高网...
语音识别设备和方法

【技术保护点】
一种语音识别设备,包括:预测器,被配置为基于之前已被搜索的单词序列预测跟随之前已被搜索的单词序列的单词的词类;解码器,被配置为搜索与语音信号对应的候选单词,使用已被搜索的候选单词扩展之前已被搜索的单词序列,并基于预测的词类调整扩展的单词序列的概率值。

【技术特征摘要】
2015.11.30 KR 10-2015-01689671.一种语音识别设备,包括:预测器,被配置为基于之前已被搜索的单词序列预测跟随之前已被搜索的单词序列的单词的词类;解码器,被配置为搜索与语音信号对应的候选单词,使用已被搜索的候选单词扩展之前已被搜索的单词序列,并基于预测的词类调整扩展的单词序列的概率值。2.如权利要求1所述的语音识别设备,其中,词类为实体名或词性;实体名为人名、位置名、组织名、日期、时间、书名、电影名、音乐名或TV节目名。3.如权利要求1所述的语音识别设备,其中,预测器还被配置为:使用词类预测模型预测跟随之前已被搜索的单词序列的单词的词类。4.如权利要求3所述的语音识别设备,其中,词类预测模型基于词典和语法以规则集的形式被构造,或者使用命名的实体识别方案和词性标注方案中的任何一个或两者通过机器学习被构造。5.如权利要求3所述的语音识别设备,其中,词类预测模型为基于递归神经网络(RNN)的模型。6.如权利要求1所述的语音识别设备,其中,解码器还被配置为:使用以加权有限状态转换器(WFST)的形式在数据结构中构造的发音词典和语言模型来搜索候选单词。7.如权利要求1所述的语音识别设备,其中,解码器还被配置为:从未来的搜索目标排除已被搜索的候选单词之中的不属于预测的词类的候选单词。8.如权利要求1所述的语音识别设备,其中,解码器还被配置为:在已被搜索的候选单词之中增加属于预测的词类的候选单词的概率值。9.如权利要求1所述的语音识别设备,其中,解码器还被配置为:在已被搜索的候选单词之中增加属于预测的词类的并包括在个性化的语言模型中的候选单词的概率值。10.如权利要求1所述的语音识别设备,其中,预测器还被配置为:预测跟随之前已被搜索的单词序列的单词的词类概率分布;解码器还被配置为:通过用每一候选单词的概率值乘以该候选单词所属的词类的预测的概率值,调整每一候选单词的概率值。11.一种语音识别方法,包括:基于之前已被搜索的单词序列预测跟随之前已被搜索的单词序列的单词的词类;搜索与语音信号对应的候选单词;使用已被搜索的候选单词扩展之前已被搜索的单词序列;基于预测的词类调整扩展的单词序列的概率值。12.如权利要求11所述的语音识别方法,其中,词类为实体名或词性;实体名为人名、位置名、组织名、日期、时间、书名、电影名、音乐名或TV节目名。13.如权利要求11所述的语音识别方法,其中,所述预测词类的步骤包括:使用词类预测模型预测跟随之前已被搜索的单词序列的单词的词类。14.如权利要求13所述的语音识别方法,其中,词类预测模型基于词典和语法以规则集的形式被构造,或者使用命名的实体识别方案和词性标注方案的任何一个或两者通过机器学习被构造。15.如权利要求13所述的语音识别方法,其中,词类预测模型为基于递归神经网络(RNN)的模型。16.如权利要求11所述的语音识别方法,其中,所述搜索候选单词的步骤包括:使用以加权有限状态转换器(WFST)的形式在数据结构中构造的发音词典和语言模型搜索候选单词。17.如权利要求11所述的语音识别方法,还包括:从未来的搜索目标排除已被搜索的候选单词之中的不属于预测的词类的候选单词。18.如...

【专利技术属性】
技术研发人员:李知炫
申请(专利权)人:三星电子株式会社
类型:发明
国别省市:韩国,KR

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利