声音识别装置制造方法及图纸

技术编号:4644081 阅读:148 留言:0更新日期:2012-04-11 18:40
一种声音识别装置包括:声音开始指示部(3),该声音开始指示部(3)指示开始声音识别;声音输入部(1),该声音输入部(1)将所发出的声音输入并转换成声音信号;声音识别部(2),该声音识别部(2)基于声音信号对声音进行识别;发声开始时间检测部(4),该发声开始时间检测部(4)检测自声音开始指示部作出指示至声音信号从声音输入部传送来为止的时间;发声定时判定部(5),该发声定时判定部(5)通过对发声开始时间检测部检测出的时间与预定的阈值进行比较,判定表示发声开始的快慢的发声定时;对话控制部(6),该对话控制部(6)根据判定出的发声定时,决定呈现声音识别部的识别结果时的呈现内容;系统应答生成部(7),该系统应答生成部(7)基于已决定的呈现内容生成系统应答;以及输出部(8)、(9),该输出部将生成的系统应答输出。

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及装载在车辆上、识别用户发出的声音的声音识别装置
技术介绍
以往,已知利用声音在系统与用户之间进行对话的声音对话系统(例 如,参照专利文献l)。此声音对话系统包括扬声器,该扬声器对用户输 出系统侧声音;话筒,该话筒将用户应扬声器输出的系统侧声音而发出的 声音转换成声音信号;声音识别部,该声音识别部对输入到话筒的声音进 行声音识别;发声定时检测部,该发声定时检测部基于话筒将声音转换成 的声音信号及来自应答生成部的应答声音信号来检测发声定时;熟悉度判 定部,该熟悉度判定部利用发声定时对用户的声音对话的熟悉度进行判定; 以及声音输出变更部,该声音输出变更部根据熟悉度判定部判定出的熟悉 度变更系统侧声音的输出内容。一般,在声音识别装置中,声音识别仅受用户发出的声音的声响特征 影响,例如,自用户按下识别开始按钮等从而系统转为可识别状态至实际 开始发声为止的时间(下文称为"发声定时")对识别结果不产生影响。专利文献1:日本专利特开2004-333543号公报上述专利文献所揭示的声音对话系统采用以下结构S卩,基于发声定 时、使用次数以及发声速度等对声音对话的熟悉度进行判定,并考虑此熟 悉度而进行声音识别。然而,熟悉度仅应用于系统侧声音(引导声音)的 输出变更,对识别结果不产生直接影响。因而,存在依靠用户的发声定时 发生误识别的问题。本专利技术是为了解决上述问题而作出的,其目的在于提供一种车载用声 音识别装置,该车载用声音识别装置能够根据用户的发声定时向用户呈现5关于声音识别结果的适当信息。
技术实现思路
为了解决上述问题,本专利技术的声音识别装置包括声音开始指示部, 该声音开始指示部指示开始声音识别;声音输入部,该声音输入部将所发 出的声音输入并转换成声音信号;声音识别部,该声音识别部基于从声音 输入部传送来的声音信号对声音进行识别;发声开始时间检测部,该发声 开始时间检测部检测自声音开始指示部指示开始声音识别至声音信号从声 音输入部传送来为止的时间;发声定时判定部,该发声定时判定部通过对发声开始时间检测部检测出的时间与预定的阈值进行比较,判定表示发声开始的快慢的发声定时;对话控制部,该对话控制部根据发声定时判定部 判定出的发声定时,决定呈现声音识别部的识别结果时的呈现内容;系统 应答生成部,该系统应答生成部基于对话控制部所决定的呈现内容生成系 统应答;以及输出部,该输出部将系统应答生成部所生成的系统应答输出。 根据本专利技术的声音识别装置,由于采用输出与发声定时对应的内容的 系统应答的结构,所以能够将适当的反射式字幕及应答引导呈现给用户。 其结果,用户可进行舒适且适当的操作,能够减轻发生误识别时的不愉快 感。附图说明图1是表示本专利技术的实施方式1的声音识别装置的结构的方框图。 图2是表示本专利技术的实施方式1的声音识别装置的动作的顺序图。 图3是表示本专利技术的实施方式2的声音识别装置的结构的方框图。 图4是表示本专利技术的实施方式2的声音识别装置的动作的顺序图。 图5是表示本专利技术的实施方式3的声音识别装置的结构的方框图。 图6是表示本专利技术的实施方式3的声音识别装置的动作的顺序图。 图7是表示本专利技术的实施方式4的声音识别装置的结构的方框图。 图8是表示本专利技术的实施方式4的声音识别装置的动作的顺序图。 图9是表示本专利技术的实施方式5的声音识别装置的结构的方框图。图IO是表示本专利技术的实施方式5的声音识别装置的动作的顺序图。图11是表示本专利技术的实施方式6的声音识别装置的结构的方框图。 图12是表示本专利技术的实施方式6的声音识别装置的动作的顺序图。 图13是表示本专利技术的实施方式7的声音识别装置的结构的方框图。 图14是表示本专利技术的实施方式7的声音识别装置的动作的顺序图。 图15是表示本专利技术的实施方式8的声音识别装置的结构的方框图。 图16是表示本专利技术的实施方式8的声音识别装置的动作的顺序图。具体实施例方式下面,为了更详细地说明本专利技术,参照附图说明用于实施本专利技术的最 佳方式。实施方式l.图1是表示本专利技术实施方式1的声音识别装置的结构的方框图。此声音 识别装置包括声音输入部l、声音识别部2、声音开始指示部3、发声开 始时间检测部4、发声定时判定部5、对话控制部6、系统应答生成部7、 声音输出部8、以及反射式字幕输出部9。声音输入部1例如由话筒构成,将用户发出的声音输入并转换成电信 号,作为声音信号传送到声音识别部2及发声开始时间检测部4。声音识别部2通过处理从声音输入部1传送来的声音信号,对用户发 出的声音进行识别。更详细而言,声音识别部2依次执行以下动作来识别 声音声音区间检测,该声音区间检测根据从声音输入部1传送来的声音 信号检测用户的发声;声响分析,该声响分析将声音区间检测所得到的声 音信号转换成参数表达;概率运算,该概率运算以声响分析所得到的声音 的最小单位为基础选出并识别最匹配的音素候选;以及比对,该比对将概 率运算所得到的音素与存储了词汇等的词典进行比较来决定识别结果。在声响分析中,例如利用LPC梅尔倒谱(Linear Predictor Coefficient: 线性预测系数)或MFCC (Mel Fr叫uency Cepstrum Coefficient:梅尔频率 倒谱系数)等,将从声响输入部l传送来的声音信号转换成特征向量序列, 推定声谱的轮廓(波谱包络)。在概率运算中,例如利用HMM (HiddenMarkov Model:隐马尔科夫模型)等,以输入的声音为基础,利用声响分析提取出的声响参数,进行声音信号的音素符号化,并与预先准备的标准音素模型进行比较,选出最匹配的音素候选。在比对处理中,以音素候选为基础与词典进行比较,选择匹配度高的词汇。进行以上处理并将声音识别部2识别出的词汇传送到对话控制部6。声音开始指示部3由例如形成于画面上或设置于操作部(未图示)的识别开始按钮等构成。此声音开始指示部3指示开始声音识别时,表示该内容的声音识别开始信号被传送到开始揭示时间检测部4。声音识别装置以来自此声音开始指示部3的声音识别开始信号为触发(下文称为"声音开始触发"),转为可识别状态。发声开始时间检测部4检测自转为可声音识别状态即从声音开始指示部3接收声音识别开始信号、至用户实际开始发声即声音信号从声音输入部输入为止的时间。此发声开始时间检测部4检测出的时间作为发声开始时间传送到发声定时判定部5。发声定时判定部5基于从发声开始时间检测部4传送来的发声开始时间,判定发声定时。更详细而言,发声定时判定部5在从发声开始时间检测部4传送来的发声开始时间在预定阈值以下时,判定为发声定时"快",在大于预定阈值时,判定为发声定时"慢"。此发声定时判定部5判定出的发声定时被传送到对话控制部6。对话控制部6根据发声定时判定部5传送来的发声定时,决定呈现给用户的内容。具体而言,对话控制部6决定将从声音识别部2传送来的词汇呈现给用户时的系统应答(反射式字幕及应答引导),此时根据发声定时判定部5判定出的发声定时(快/慢)来变更系统应答的内容。例如,在发声定时快时,判断为发声者匆忙地发声,在发声定时慢时,判断为发声者犹豫地发声,由于任一情况都有识别为错误的词汇的可能,所以生成"O〇(识别词汇)正确吗"等的确认引导。此对话控制部6所生成的确认引导本文档来自技高网...

【技术保护点】
一种声音识别装置,包括: 声音开始指示部,该声音开始指示部指示开始声音识别; 声音输入部,该声音输入部将发出的声音输入并转换成声音信号; 声音识别部,该声音识别部基于从所述声音输入部传送来的声音信号对声音进行识别;  发声开始时间检测部,该发声开始时间检测部检测自所述声音开始指示部指示开始声音识别至声音信号从所述声音输入部传送来为止的时间; 发声定时判定部,该发声定时判定部通过对所述发声开始时间检测部检测出的时间与预定的阈值进行比较,判定表示发声开 始的快慢的发声定时; 对话控制部,该对话控制部根据所述发声定时,决定呈现所述声音识别部的识别结果时的呈现内容; 系统应答生成部,该系统应答生成部基于所述对话控制部所决定的呈现内容生成系统应答;以及 输出部,该输出部将所述系 统应答生成部所生成的系统应答输出。

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员:井上让铃木忠佐藤史尚竹里尚嘉
申请(专利权)人:三菱电机株式会社
类型:发明
国别省市:JP[日本]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利