语音识别的设备和方法以及训练变换参数的设备和方法技术

技术编号:14895787 阅读:104 留言:0更新日期:2017-03-29 10:59
提供一种语音识别的设备和方法以及训练变换参数的设备和方法。一种语音识别设备包括:声学分数计算器,被配置为使用声学模型来计算语音输入的声学分数;声学分数变换器,被配置为通过使用变换参数,将计算的声学分数变换为与标准发音对应的声学分数;解码器,被配置为解码变换的声学分数以输出语音输入的识别结果。

【技术实现步骤摘要】
本申请要求于2015年9月18日提交到韩国知识产权局的第10-2015-0132626号韩国专利申请的权益,该申请的全部公开出于各种目的通过引用包含于此。
下面的描述涉及用于语音识别的设备和方法。
技术介绍
语音识别技术使用声学模型通过使用从用户的语音信号提取的特征来计算针对用户语音的音素概率表。音素概率表通过解码处理被转换成最终识别结果。然而,因为人们具有不同的发音,所以即使当说出相同的短语时,也可基于谁正在说出短语来生成不同的音素表。发音中的轻微差异可通过语言模型来校正。然而,距离标准发音的重大偏差(诸如,由于地区方言的使用造成的重大偏差)可能无法通过语言模型来合适地校正,导致具有独特的发音特征的用户的不便。
技术实现思路
提供本
技术实现思路
从而以简化的形式介绍将在下面的具体实施方式中被进一步描述的构思的选择。本
技术实现思路
不意在标识所要求保护主题的关键特征或必要特征,也不意在作为帮助确定所要求保护的主题的范围而被使用。在一个总体方面中,一种语音识别设备,包括:声学分数计算器,被配置为使用声学模型来计算语音输入的声学分数;声学分数变换器,被配置为通过使用变换参数,将计算的声学分数变换为与标准发音对应的声学分数;解码器,被配置为解码变换的声学分数,以输出语音输入的识别结果。所述设备的总体方面还可包括:语言分数计算器,被配置为使用语言模型来输出语音输入的语言分数;解码器,可被配置为基于语言分数来解码计算的声学分数,并且输出的识别结果。所述设备的总体方面还可包括:反馈采集器,被配置为基于用户反馈来采集关于识别结果的验证数据。所述设备的总体方面还可包括:训练器,被配置为基于由声学分数计算器计算的声学分数和采集的验证数据来重新训练变换参数,并且基于所述重新训练来更新变换参数。训练器可通过将计算的声学分数和采集的验证数据发送到训练设备并且通过从训练设备接收重新训练的变换参数,来更新变换参数。声学分数变换器可将作为矩阵积算法、神经网络算法或者线性回归算法中的至少一个的变换参数应用于计算的声学分数。被应用的变换参数可基于用户的用户标识、群体标识、年龄、地理地区、方言和性别中的至少一个被预先确定。在另一总体方面中,一种语音识别方法包括:使用声学模型来计算语音输入的声学分数;通过使用变换参数,将计算的声学分数变换为针对标准发音的声学分数;解码变换的声学分数以输出语音输入的识别结果。所述方法的总体方面还可包括:使用语言模型来输出语音输入的语言分数;解码变换的声学分数的步骤可包括:基于语言分数来解码计算的声学分数。所述方法的总体方面还可包括:基于用户反馈来采集关于识别结果的验证数据。所述方法的总体方面还可包括:基于由声学分数计算器计算的声学分数和采集的验证数据来重新训练变换参数;基于所述重新训练来更新变换参数。所述方法的总体方面还可包括:将计算的声学分数和采集的验证数据发送到训练设备;从训练设备接收重新训练的变换参数;通过使用接收的变换参数来更新变换参数。计算的步骤、变换的步骤和解码的步骤可由一个或多个处理器来执行。在另一总体方面中,一种非暂时性计算机可读介质存储在由处理器执行时使得处理器执行如上所述的方法的总体方面的指令。在另一总体方面中,一种用于训练变换参数的设备包括:训练数据采集器,被配置为采集用于训练的实际语音的声学分数数据和用于训练的与实际语音对应的基于标准发音的验证数据作为训练数据;训练器,被配置为通过使用训练数据来训练变换参数;数据发送器,被配置为将训练的变换参数发送到语音识别设备。训练数据采集器可被配置为根据预定的标准将采集的训练数据进行分类;训练器,可被配置为针对每个分类的组训练变换参数,以针对每个分类的组生成变换参数。预定的标准可包括:用户标识、群体标识、年龄、地理地区、方言和性别中的至少一个。训练数据采集器还可从语音识别设备采集用户语音的声学分数数据和基于用户反馈的验证数据作为训练数据。在另一总体方面中,一种训练变换参数的方法可包括:采集实际语音的声学分数数据和用于训练的与实际语音对应的基于标准发音的验证数据作为训练数据;通过使用训练数据来训练变换参数;将训练的变换参数发送到语音识别设备。采集训练数据的步骤可包括:根据预定的标准将训练数据进行分类;训练的步骤可包括:针对每个分类的组训练变换参数,并且针对每个分类的组生成变换参数。预定的标准可包括:用户标识、群体标识、年龄、地理地区、方言和性别中的至少一个。采集训练数据的步骤还可包括:从语音识别设备采集用户语音的声学分数数据和基于用户反馈的正确的识别数据作为训练数据。在另一总体方面中,一种语音识别设备包括:处理器,被配置为:基于语音输入来计算第一声学分数;通过使用变换参数,将第一语音数据转换为与标准发音对应的第二声学分数;解码第二声学分数以识别语音输入。处理器可被配置为:基于标准发音使用声学模型来计算第一声学分数。处理器被配置为:在生成第二声学分数的过程中,将变换参数应用于第一声学分数,以体现与标准发音偏离的用户的发音特征。处理器可被配置为:使用变换参数来针对与用户的用户标识、群体标识、年龄、地理地区、方言和性别中的至少一个有关的用户的发音特征进行调整。在另一总体方面中,一种电子装置包括:麦克风,被配置为检测与语音输入对应的信号;如上所述的语音识别设备的总体方面。从下面的具体实施方式、附图和权利要求,其他特征和方面将是清楚的。附图说明图1是示出语音识别设备的示例的示图。图2是示出语音识别设备的另一示例的示图。图3是示出语音识别设备的再一示例的框图。图4是示出语音识别方法的示例的流程图。图5是示出语音识别方法的另一示例的流程图。图6A是示出语音识别方法的另一示例的流程图。图6B是示出更新图6A中所示的变换参数(transformationparameter)的处理的示例的示图。图7是示出变换参数训练设备的另一示例的框图。图8是示出变换参数训练方法的示例的流程图。图9是示出电子装置的示例的框图。贯穿附图和具体实施方式,相同的参考标号表示相同的元件。附图可不按比例,为了清楚、说明和方便,附图中的元件的相对大小、比例和描绘可被夸大。具体实施方式提供下面的具体实施方式以帮助读者获得对在此描述的方法、设备和/或系统的全面理解。然而,在理解本申请的公开后,在此描述的方法、设备和/或系统的各种变化、修改和等同物将是清楚的。例如,在此描述的操作的顺序仅是示例,并且操作的顺序不限于在此阐述的顺序,除了必需按特定顺序发生的操作之外,操作的顺序可被改变,这在理解本申请的公开之后将是清楚的。此外,为了更加清楚和简洁,本领域中已知的特征的描述可被省略。在此描述的特征可以以不同的形式被实现,并且不应被解释为受限于在此描述的示例。相反,在此描述的示例仅被提供用于示出实现在此描述的方法、设备和/或系统的许多可能方式中的一些方式,这在理解本申请的公开之后将是清楚的。在下文中,将参照附图来详细描述用于语音识别的设备和方法的示例。图1是示出语音识别设备的示例的框图。根据一个示例,语音识别设备100可被制造为在处理器上运行的软件,或者被制造为用于在电子装置中安装的硬件芯片。然而,语音识别设备100的配置不限于此。参照图1,语音识别设备100包括:声学分数计算器110、声学分数变换器12本文档来自技高网...
语音识别的设备和方法以及训练变换参数的设备和方法

【技术保护点】
一种语音识别设备,包括:声学分数计算器,被配置为:使用声学模型来计算语音输入的声学分数;声学分数变换器,被配置为:通过使用变换参数,将计算的声学分数变换为与标准发音对应的声学分数;解码器,被配置为:解码变换的声学分数,以输出语音输入的识别结果。

【技术特征摘要】
2015.09.18 KR 10-2015-01326261.一种语音识别设备,包括:声学分数计算器,被配置为:使用声学模型来计算语音输入的声学分数;声学分数变换器,被配置为:通过使用变换参数,将计算的声学分数变换为与标准发音对应的声学分数;解码器,被配置为:解码变换的声学分数,以输出语音输入的识别结果。2.如权利要求1所述的设备,还包括:语言分数计算器,被配置为:使用语言模型来输出语音输入的语言分数,其中,解码器被配置为:对语言分数和变换的声学分数进行解码,并且输出识别结果。3.如权利要求1所述的设备,还包括:反馈采集器,被配置为基于用户反馈来采集关于识别结果的验证数据。4.如权利要求3所述的设备,还包括:训练器,被配置为基于由声学分数计算器计算的声学分数和采集的验证数据来重新训练变换参数,并且基于所述重新训练来更新变换参数。5.如权利要求4所述的设备,其中,训练器通过将计算的声学分数和采集的验证数据发送到训练设备并且通过从训练设备接收重新训练的变换参数,来更新变换参数。6.如权利要求1所述的设备,其中,声学分数变换器通过使用矩阵积算法、神经网络算法和线性回归算法中的至少一个,将变换参数应用于计算的声学分数。7.如权利要求6所述的设备,其中,被应用的变换参数基于用户的用户标识、群体标识、年龄、地理地区、方言和性别中的至少一个被预先确定。8.一种语音识别方法,包括:使用声学模型来计算语音输入的声学分数;通过使用变换参数,将计算的声学分数变换为针对标准发音的声学分数;解码变换的声学分数以输出语音输入的识别结果。9.如权利要求8所述的方法,还包括:使用语言模型来输出语音输入的语言分数,其中,解码变换的声学分数的步骤包括:对语言分数和变换的声学分数进行解码。10.如权利要求8所述的方法,还包括:基于用户反馈来采集关于识别结果的验证数据。11.如权利要求10所述的方法,还包括:基于由声学分数计算器计算的声学分数和采集的验证数据,来重新训练变换参数;基于所述重新训练来更新变换参数。12.如权利要求10所述的方法,还包括:将计算的声学分数和采集的验证数据发送到训练设备;从训练设备接收重新训练的变换参数;通过使用接收的变换参数来更新变换参数。13.如权利要求8所述的方法,其中,计算的步骤、变换的步骤和解码的步骤由一个或多个处理器来...

【专利技术属性】
技术研发人员:柳尚贤金重会朴莹旻崔喜烈洪锡珒
申请(专利权)人:三星电子株式会社
类型:发明
国别省市:韩国;KR

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1