连续发言估计装置、连续发言估计方法以及程序制造方法及图纸

技术编号:28118137 阅读:26 留言:0更新日期:2021-04-19 11:19
对应于利用方法恰当地使操作变化。关键字检测单元(11)生成表示从输入声音检测出特定的关键字的发音的结果的关键字检测结果。声音检测单元(12)生成表示从输入声音检测出声音区间的结果的声音区间检测结果。连续发言检测单元(13)在关键字检测结果表示检测出关键字且声音区间检测结果表示检测出声音区间的情况下,生成表示是连续发言的连续发言检测结果。果。果。

【技术实现步骤摘要】
【国外来华专利技术】连续发言估计装置、连续发言估计方法以及程序


[0001]本专利技术涉及估计在关键字的发音后是否连续地说出目标音的技术。

技术介绍

[0002]例如在智能扬声器或车载系统等能够基于声音进行控制的机器中,有时搭载了被称为关键字唤醒的功能,该功能在成为触发的关键字被发音时开始声音辨识。在这样的功能中,需要以声音信号作为输入并检测关键字的发音的技术。
[0003]图1是非专利文献1中公开的现有技术的结构。在现有技术中,如果关键字检测单元91从被输入的声音信号检测出关键字的发音,则目标音输出单元99使开关接通,将该声音信号作为成为声音辨识等的对象的目标音输出。此外,应答音输出单元92在检测出关键字时输出应答音,使利用者知晓检测出关键字的发音。此时,为了对各处理的定时进行控制,也可以还具备延迟单元93,使关键字检测单元91的输出(参考图1A)或者输入声音(参考图1B)延迟。
[0004]现有技术文献
[0005]非专利文献
[0006]非专利文献1:Sensory,Inc.,“TrulyHandsfreeTM”,[在线(online)],[平成30年8月17日检索],互联网<URL:http://www.sensory.co.jp/product/thf.htm>

技术实现思路

[0007]专利技术要解决的课题
[0008]但是,在现有技术中,除了在说出关键字后等待应答音之后说出目标音的利用方法之外,还可能有连续地说出关键字和目标音的利用方法。设想等待应答音之后说出目标音的利用方法,在应答音之后设定了目标音区间的起始位置的情况下,会产生如果利用者连续地说出关键字和目标音则目标音的话头被截断这样的问题。此外,设想连续地说出关键字和目标音的利用方法,在关键字发言的紧后设定了目标音区间的起始位置的情况下,存在应答音与目标音的发言在时间上重叠而成为难以进行声音辨识的声音这样的问题。
[0009]本专利技术的目的是,鉴于上述那样的技术课题,自动地判别在说出关键字后等待应答音之后说出目标音的利用方法与连续地说出关键字和目标音的利用方法,并对应于各利用方法恰当地使操作变化。
[0010]用于解决课题的手段
[0011]为了解决上述的课题,本专利技术的第一方式的连续发言估计装置包含:关键字检测单元,生成表示从输入声音检测出特定的关键字的发音的结果的关键字检测结果;声音检测单元,生成表示从输入声音检测出声音区间的结果的声音区间检测结果;以及连续发言检测单元,在关键字检测结果表示检测出关键字且声音区间检测结果表示检测出声音区间的情况下,生成表示是连续发言的连续发言检测结果。
[0012]专利技术效果
[0013]根据本专利技术,能够自动地判别在说出关键字后等待应答音之后说出目标音的利用方法与连续地说出关键字和目标音的利用方法,因此能够对应于各利用方法恰当地使操作变化。
附图说明
[0014]图1是例示以往的关键字检测装置的功能结构的图。
[0015]图2是用于说明专利技术的原理的图。
[0016]图3是例示第一实施方式的连续发言估计装置的功能结构的图。
[0017]图4是例示第一实施方式的连续发言估计方法的处理过程的图。
[0018]图5是例示第二实施方式的连续发言估计装置的功能结构的图。
[0019]图6是例示第三实施方式的连续发言估计装置的功能结构的图。
[0020]图7是例示第四实施方式的连续发言估计装置的功能结构的图。
[0021]图8是例示第五实施方式的连续发言估计装置的功能结构的图。
[0022]图9是例示第六实施方式的连续发言估计装置的功能结构的图。
具体实施方式
[0023]在现有技术中,难以应对于在说出关键字后等待应答音之后说出目标音的利用方法与连续地说出关键字和目标音的利用方法这双方。如果设想在说出关键字后等待应答音之后说出目标音的利用方法而在检测出关键字时发出应答音,则在利用者设想连续地说出关键字和目标音的利用方法而进行了发言的情况下,应答音与目标音重叠,这成为主要的问题点。
[0024]本专利技术的课题在于,自动地判别在说出关键字后等待应答音之后说出目标音的利用方法与连续地说出关键字和目标音的利用方法,并基于该判别结果使目标音区间的起始位置或是否发出应答音变化,进行对各利用方法而言恰当的操作。具体而言,在判别为在说出关键字后等待应答音之后说出目标音的利用方法的情况下,首先发出应答音,从应答音发出结束后设为目标音区间(参考图2A)。此外,在判别为连续地说出关键字和目标音的利用方法的情况下,不发出应答音,而从关键字发言结束紧后设为目标音区间(参考图2B)。
[0025]以下,针对本专利技术的实施方式详细地进行说明。另外,在附图中对具有相同的功能的结构单元附加相同的序号,并省略重复说明。
[0026][第一实施方式][0027]第一实施方式的连续发言估计装置1以利用者的声音(以下称为“输入声音”)作为输入,输出对输入声音中是否包含关键字的发音进行判定而得到的关键字检测结果、以及对关键字的发言之后是否包含连续的发言进行判定而得到的连续发言检测结果。连续发言估计装置1如图3所示,具备关键字检测单元11、声音检测单元12以及连续发言检测单元13。该连续发言估计装置1通过进行图4所示的各步骤的处理来实现第一实施方式的连续发言估计方法S1。
[0028]连续发言估计装置1例如是在具有中央运算处理装置(中央处理单元(CPU:Central Processing Unit))、主存储装置(随机存取存储器(RAM:Random Access Memory))等的公知或者专用的计算机中读入特殊的程序而构成的特殊的装置。连续发言估
计装置1例如基于中央运算处理装置的控制来执行各处理。向连续发言估计装置1输入的数据或在各处理中得到的数据例如被储存在主存储装置中,主存储装置中储存的数据根据需要被向中央运算处理装置读出并利用于其他处理。连续发言估计装置1的各处理单元也可以是至少一部分由集成电路等硬件构成。
[0029]以下,参考图4,针对第一实施方式的连续发言估计装置所执行的连续发言估计方法进行说明。
[0030]在步骤S11中,关键字检测单元11从输入声音检测预先决定的特定的关键字的发音。关键字的检测例如通过使用事先学习的神经网络,判定以短时间的周期求出的功率谱的模式(pattern)是否与事先收录的关键字的模式类似来进行。关键字检测单元11将表示检测出关键字或者未检测出关键字的关键字检测结果向连续发言检测单元13输出。
[0031]在步骤S12中,声音检测单元12从输入声音检测声音区间。声音区间的检测例如如下进行。首先,根据输入声音的长时间平均来求出稳态噪声级(stationary noise level)N(t)。接着,对稳态噪声级N(t)乘以特定的常数α来设定阈值。并且,将短时间平均级P(t)大于阈值的区间检测为声音区间。此外,也可以通本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种连续发言估计装置,包含:关键字检测单元,生成表示从输入声音检测出特定的关键字的发音的结果的关键字检测结果;声音检测单元,生成表示从上述输入声音检测出声音区间的结果的声音区间检测结果;以及连续发言检测单元,在上述关键字检测结果表示检测出关键字且上述声音区间检测结果表示检测出声音区间的情况下,生成表示是连续发言的连续发言检测结果。2.如权利要求1所述的连续发言估计装置,还包含:延迟单元,向上述关键字检测结果所生成的上述关键字检测结果赋予特定的延迟。3.如权利要求1或者2所述的连续发言估计装置,还包含:应答音输出单元,在上述关键字检测结果表示检测出关键字且上述连续发言检测结果表示检测出连续发言时,发出特定的应答音。4.如权利要求3所述的连续发言估计装置,还包含:目标音输出单元,在上述关键字检测结果表示检测出关键字且上述连续发言检测结果表示检测出连续发言的情况下,将被延迟了与上述应答音的长度相应的量的上述输入声音作为目标...

【专利技术属性】
技术研发人员:小林和则齐藤翔一郎伊藤弘章
申请(专利权)人:日本电信电话株式会社
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1