词语检测系统、词语检测方法以及记录介质技术方案

技术编号:22002965 阅读:20 留言:0更新日期:2019-08-31 06:09
本公开涉及词语检测系统、词语检测方法以及记录介质。本发明专利技术提供一种词语检测系统、方法、以及记录介质,其能够正确并且尽快地从语音数据检测出词语。一个实施方式的词语检测系统具备语音取得部、第一计算部、保存部、检测部、第二计算部、输出部,在第一计算部中将通过语音取得部取得的多个帧的语音数据与词语的参照模型进行匹配,计算帧评分,保存在保存部中,根据帧评分计算词语的第一评分,在检测部中根据第一评分从语音数据检测词语,在第二计算部中根据检出词语的时间信息和帧评分计算词语的第二评分,在输出部中根据多个词语的第二评分的比较结果,决定输出对象词语。

Word Detection System, Word Detection Method and Recording Media

【技术实现步骤摘要】
词语检测系统、词语检测方法以及记录介质本申请以日本专利申请2018-031225(申请日:2018年2月23日)以及日本专利申请2018-170090(申请日:2018年9月11日)为基础,从该申请享受优先权的利益。本申请通过参照该申请而包含该申请的全部内容。
本专利技术的实施方式涉及词语检测系统、词语检测方法以及记录介质。
技术介绍
近年来,具有根据用户的语音检测特定的关键词并开始与检测出的关键词对应的特定的动作的功能的各种设备正在增加。由此,用户只要说出希望使其动作的关键词,不进行复杂的操作,就能够使设备进行希望的动作。
技术实现思路
本专利技术要解决的课题是提供一种词语检测系统、词语检测方法以及记录介质,其能够正确并且迅速地从语音数据检测出成为关键的词语。实施方式的词语检测系统具备语音取得部、第一计算部、保存部、检测部、第二计算部、输出部。语音取得部取得包含多个帧的语音数据,生成语音特征量。第一计算部通过将上述语音数据的多个帧分别与基于与成为目标的词语对应的上述语音特征量的参照模型进行匹配而计算帧评分,根据该帧评分计算上述词语的第一评分。保存部保存上述词语的帧评分。检测部根据上述第一评分从上述语音数据检测上述词语,输出所检测出的词语的起点、终点的时间信息。第二计算部根据检测出的上述词语的起点、终点的时间信息和保存在上述保存部中的帧评分,计算针对上述词语的第二评分。输出部使用上述第二评分的值与针对多个词语的第二评分或预先确定的阈值评分或其双方进行比较,根据其比较结果决定成为输出对象的词语。根据上述结构的词语检测系统,能够正确并且迅速地从语音数据检测出成为关键的词语。附图说明图1是概要地表示实施方式的语音关键词检测系统的框图。图2是表示实施方式的语音关键词检测装置的具体结构的框图。图3是表示实施方式的语音关键词检测装置的处理功能的功能框图。图4是表示实施方式的语音关键词检测装置的处理的流程的流程图。图5是表示在实施方式的语音关键词检测装置中存储在关键词模型存储部中的数据的例子的图。图6是表示在实施方式的语音关键词检测装置中作为第一实施例关键词第二评分计算部的具体动作例子的状态转移图。图7是表示在第一实施例中从语音输入直至计算出第二评分而决定并输出单词为止的处理的流程的概念图。图8是表示在实施方式的语音关键词检测装置中作为第二实施例从语音输入直至计算出第二评分而决定并输出单词为止的处理的流程的概念图。图9是表示在第二实施例中基于第二评分的比较处理的第一例子的概念图。图10是表示在第二实施例中基于第二评分的比较处理的第二例子的概念图。图11是表示在第二实施例中基于第二评分的比较处理的第三例子的概念图。图12是表示在第三实施例中关键词第二评分计算部的具体的动作例子的状态推移图。【符号说明】1:服务器;2:客户端;3:网络;10:语音关键词检测装置;101:CPU;102:系统控制器;103:主存储器;104:LCD;105:BIOS-ROM;106:非易失性存储器;107:麦克风;108:通信设备;109:键盘;110:指示设备;111:内置控制器(EC);201:操作系统(OS);202:语音关键词检测程序;31:语音取得部;32:关键词第一评分计算部;33:关键词第一检测部;34:关键词第二评分计算部;35:关键词第二检测部;36:关键词模型存储部;37:评分缓存器。具体实施方式以下,参照附图说明本专利技术的实施方式。图1表示具备实施方式的语音关键词检测装置的语音关键词检测系统的结构的例子。该语音关键词检测系统具备客户端装置(以下称为客户端)1和服务器装置(以下称为服务器)2。例如可以作为服务器计算机来实现服务器2。可以作为平板电脑、智能手机、便携电话、PDA这样的便携信息终端、个人计算机、或内置于各种电子设备中的内置系统来实现客户端1。客户端1和服务器2能够经由网络3收发数据。另外,客户端1和服务器2的至少一方具有从语音检测关键词的语音关键词检测功能。在语音关键词检测系统中,能够从利用设置在客户端1的麦克风等生成的语音数据(语音信号)检测关键词。更详细地说,客户端1经由网络3向服务器2发送利用设置在该客户端1的麦克风等生成的语音数据。服务器2利用语音关键词检测功能,根据从客户端1接收到的语音数据检测关键词,经由网络3向客户端1发送该关键词。由此,客户端1例如能够开始与检测出的关键词对应的特定的动作。此外,客户端1也可以不向服务器2发送语音数据,而是发送使用语音数据生成的语音特征量(例如语音特征向量列)。服务器2也能够根据接收到的语音特征量检测关键词,向客户端1发送该关键词。另外,也可以将语音关键词检测功能设置在客户端1。在该情况下,客户端1能够利用该语音关键词检测功能,从利用设置在客户端1的麦克风等生成的语音数据检测出关键词。这样,在本实施方式中,能够利用客户端1或服务器2的至少一个具有的语音关键词检测功能,从语音数据检测关键词。以下,为了容易理解说明,作为本实施方式的语音关键词检测装置10而示例具有语音关键词检测功能的客户端1。图2是表示语音关键词检测装置10的系统结构的框图。语音关键词检测装置10具备CPU101、系统控制器102、主存储器103、LCD104、BIOS-ROM105、非易失性存储器106、麦克风107、通信设备108、键盘109、指示设备110、内置控制器(EC)111等。CPU101是控制语音关键词检测装置10内的各种组件的动作的处理器。CPU101执行从作为存储设备的非易失性存储器106装载到主存储器103的各种程序。在这些程序中,包括操作系统(OS)201、以及各种应用程序。在应用程序中,包括语音关键词检测程序202。该语音关键词检测程序202包含用于从语音数据检测关键词的指令群。另外,CPU101还执行存储在BIOS-ROM105中的基本输入输出系统(BIOS)。BIOS是用于进行硬件控制的程序。系统控制器102是将CPU101的局域总线和各种组件之间连接起来的设备。在系统控制器102中内置有对主存储器103进行访问控制的存储控制器。另外,在系统控制器102中,还内置有控制被作为语音关键词检测装置10的显示监视器使用的LCD104的显示控制器。通过该显示控制器生成的显示信号被发送到LCD104。LCD104根据显示信号显示画面图像。另外,系统控制器102内置声音编码解码器。声音编码解码器构成为控制麦克风107。声音编码解码器生成基于由麦克风107收集的语音的语音信号(表示数字处理后的语音波形的数据列。以下称为语音波形)。通信设备108是构成为执行有线通信或无线通信的设备。通信设备108包括发送信号的发送部、接收信号的接收部。键盘109和指示设备110是用于用户进行的输入的设备。指示设备110是鼠标、触摸板、触摸屏那样的用于检测LCD104的画面上的点和点的运动的设备。EC111是包含用于电力管理的内置控制器的单片微计算机。EC111具有与用户对电源按键的操作对应地对语音关键词检测装置10进行电源接通或电源切断的功能。上述结构的语音关键词检测装置10从语音波形中检索成为目标的关键词的语音部分,从检索出的语音部分中检测目标的关键词。安装该语音关键词检测装置10的设备安装有与检本文档来自技高网...

【技术保护点】
1.一种词语检测系统,其特征在于包括:语音取得部,取得包含多个帧的语音数据,生成语音特征量;第一计算部,通过将基于对应于成为目标的词语的上述语音特征量的参照模型分别与上述语音数据的多个帧进行匹配,计算帧评分,根据该帧评分计算上述词语的第一评分;保存部,保存上述词语的帧评分;检测部,根据上述第一评分从上述语音数据检测上述词语,输出所检测出的词语的起点、终点的时间信息;第二计算部,根据检测出的上述词语的起点、终点的时间信息和保存在上述保存部中的帧评分,计算针对上述词语的第二评分;输出部,使用上述第二评分的值而与针对多个词语的第二评分或预先确定的阈值评分或其双方进行比较,根据其比较结果决定成为输出对象的词语。

【技术特征摘要】
2018.02.23 JP 2018-031225;2018.09.11 JP 2018-170091.一种词语检测系统,其特征在于包括:语音取得部,取得包含多个帧的语音数据,生成语音特征量;第一计算部,通过将基于对应于成为目标的词语的上述语音特征量的参照模型分别与上述语音数据的多个帧进行匹配,计算帧评分,根据该帧评分计算上述词语的第一评分;保存部,保存上述词语的帧评分;检测部,根据上述第一评分从上述语音数据检测上述词语,输出所检测出的词语的起点、终点的时间信息;第二计算部,根据检测出的上述词语的起点、终点的时间信息和保存在上述保存部中的帧评分,计算针对上述词语的第二评分;输出部,使用上述第二评分的值而与针对多个词语的第二评分或预先确定的阈值评分或其双方进行比较,根据其比较结果决定成为输出对象的词语。2.根据权利要求1所述的词语检测系统,其特征在于:上述参照模型基于作为上述语音特征量而生成的音素、声韵、发音符号或符号文字的某一个。3.根据权利要求1所述的词语检测系统,其特征在于:进而上述输出部根据上述第二评分的计算结果,针对多个词语比较各自的第二评分,根据该比较结果决定输出词语。4.根据权利要求3所述的词语检测系统,其特征在于:上述输出部当在检测出一个词语后在预先确定的时间阈值内检测出其他的词语的情况下,比较上述第二评分,根据该比较结果决定所输出的词语。5.根据权利要求3所述的词语检测系统,其特征在于:上述输出部在检测出一个词语后,与和使用该词语的起点、终点的时间信息检测出的词语不同的其它检测词语候选的第二评分进行比较,根据该比较结果决定所输出的词语。6.根据权利要求4所述的词语检测系统,其特征在于还具备:调整单元,依照...

【专利技术属性】
技术研发人员:藤村浩司
申请(专利权)人:株式会社东芝
类型:发明
国别省市:日本,JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1