控制方法和控制器技术

技术编号:14336895 阅读:70 留言:0更新日期:2017-01-04 10:16
提供一种控制方法和控制器。控制方法包括:从相机取得视线信息并判断所述用户的视线方向,所述视线信息包含表示用户的视线方向的信息,从所述麦克风取得表示用户的说话的语音数据,在判断为所述用户的视线方向指示第一空间中的设置了第一设备的第一区域以外的第三位置的情况下,从控制器或与所述控制器连接的服务器具备的多个词典中选择与所述第二设备对应的第二词典,使用所述第二词典生成与所述语音数据对应的第二控制指令,将所述第二控制指令发送给所述第二设备。

【技术实现步骤摘要】

本公开涉及在利用语音对话控制预定设备时,基于用户的视线信息,选择用于语音对话的词典进行控制的控制方法和控制器
技术介绍
有利用语音输入对位于家庭中的电子设备的状态进行确认和操作的系统。例如,在这样的系统中,由便携式麦克风取得的人的说话(发声)内容被传送给电视机等电子设备。电子设备解析用户发出的语言(语句),并执行基于说话的处理。由此,可实现电子设备的状态的确认或操作。在专利文献1中公开了如下技术:通过按每台设备准备词典,根据用户发声时的头部方向,确定作为操作对象的设备,并切换为与该操作对象对应的词典和语法,从而提高语音识别的精度。在先技术文献专利文献专利文献1:日本特开2009-210956号公报
技术实现思路
专利技术要解决的问题然而,上述专利文献1需要进一步的改善。用于解决问题的技术方案一种与第一设备、第二设备、相机以及麦克风连接的控制器中的控制方法,所述第一设备设置在第一空间的第一位置,所述第二设备设置在第二空间的第二位置,所述相机检测用户的视线方向,所述麦克风检测所述用户的说话,所述第一空间是所述用户能够视觉识别的空间,所述第二空间是所述用户不能视觉识别的空间,从所述相机取得视线信息,所述视线信息包含表示所述检测出的用户的视线方向的信息,基于所述视线信息,判断所述用户的视线方向是否指示所述第一空间所包含的所述第一位置以外的第三位置,从所述麦克风取得语音数据,所述语音数据表示所述检测出的用户的说话,在判断为所述用户的视线方向指示所述第三位置的情况下,从所述控制器或与所述控制器连接的服务器具备的多个词典中选择与所述第二设备对应的第二词典,使用所述选择出的第二词典,生成与所述取得的语音数据对应的第二控制指令,向所述第二设备发送所述生成的第二控制指令。专利技术的效果根据上述一个技术方案,能够实现进一步的改善。附图说明图1A是表示在实施方式中对话信息提供系统提供的服务的整体画面的图。图1B是表示在实施方式中设备制造商相当于数据中心运营公司的例子的图。图1C是表示在实施方式中设备制造商和管理公司这两方或某一方相当于数据中心运营公司的例子的图。图2是表示实施方式1中的对话信息提供系统的构成的图。图3是表示实施方式1中的对话信息提供系统的工作的流程图。图4A是表示实施方式1中的设备管理信息的一例的图。图4B是表示实施方式1中的统合控制词典的一例的图。图4C是表示实施方式1中的单独控制词典的一例的图。图4D是表示实施方式1中的单独控制词典的一例的图。图5是实施方式1中的对话信息提供系统所包含的各装置的框图。图6是表示实施方式1中的对话信息提供系统的工作例的图。图7是表示实施方式1中的对话信息提供系统的工作例的图。图8是表示实施方式1中的设备的工作的流程图。图9是表示实施方式1中的声音收集装置的工作的流程图。图10是表示实施方式1中的家庭网关的工作的流程图。图11是实施方式1中的词典选择处理的流程图。图12是表示实施方式1中的语音对话处理的工作例的图。图13是实施方式1中的语音对话处理的流程图。图14是表示实施方式1中的语音识别处理的工作例的图。图15是实施方式1中的语音识别处理的流程图。图16是表示实施方式1中的意图理解处理的工作例的图。图17是实施方式2中的词典选择处理的流程图。图18是表示实施方式2中的对话信息提供系统的工作例的图。图19是实施方式3中的第一设备和第二设备的框图。图20A是表示实施方式3中的设备管理信息的一例的图。图20B是表示实施方式3中的设备管理信息的一例的图。图20C是表示实施方式3中的设备管理信息的一例的图。图21是实施方式3中的对象设备设定处理的流程图。图22是实施方式4中的对象设备设定处理的流程图。图23是表示实施方式5中的对话信息提供系统的构成的图。图24是表示实施方式5中的设备管理信息的一例的图。图25是实施方式5中的对象设备设定处理的流程图。图26是实施方式6中的语音对话服务器的框图。图27A是表示实施方式6中的统合控制词典的一例的图。图27B是表示实施方式6中的脚本信息的一例的图。图27C是表示实施方式6中的单独控制词典的一例的图。图28是实施方式7中的词典选择处理的流程图。图29是表示对话信息提供系统的变形例的构成的图。图30是表示对话信息提供系统的变形例的构成的图。图31是表示对话信息提供系统的变形例的构成的图。图32是表示对话信息提供系统的变形例的构成的图。图33是表示对话信息提供系统的变形例的构成的图。图34是表示服务类型1(自己公司数据中心型云服务)中的信息管理系统提供的服务的整体画面的图。图35是表示服务类型2(IaaS利用型云服务)中的信息管理系统提供的服务的整体画面的图。图36是表示服务类型3(PaaS利用型云服务)中的信息管理系统提供的服务的整体画面的图。图37是表示服务类型4(SaaS利用型云服务)中的信息管理系统提供的服务的整体画面的图。标号说明1010、1020用户1100、1100A、1100B、1100C、1100D、1100E组1101多台设备1102、1102A、1102B家庭网关1110数据中心运营公司1111云服务器1120服务提供商1121服务器1201应用1202OS1203数据中心2001第一空间2002第二空间2011、2011A、2011B第一设备2012、2012A、2012B第二设备2013、2013B、2014声音收集装置2013A视线检测装置2020、2021网络2100、2100A语音对话服务器2101、2101A、2147统合控制词典2102、2102A、2102B、2102C、2115、2125、2148单独控制词典2103脚本信息2111、2121、2131、2151视线检测单元2112、2122、2134、2145设备通信单元2113、2123设备命令执行单元2114、2124距离检测单元2132、2152声音收集单元2133信息提示单元2141词典选择单元2142、2142A、2142B、2142C、2142D设备管理信息2143语音对话单元2144设备管理单元2146云通信单元2155用户信息具体实施方式(成为本专利技术的基础的见解)正在研究用于提供如下服务的技术:按照来自用户的说话,对家庭内的多台设备的状态进行确认或操作。在这样的系统中,装置通过确定用户的说话开始到结束的区间,取得仅是用户的说话内容的语音数据。并且,装置通过解析语音数据,决定用户想确认或操作的电子设备和该确认或操作内容。另外,作为取得用户的说话内容的方法,提出了如下方法:利用仅选择特定方向的声音的波束成形(beamforming)处理或识别回声并削减回声的回声消除(Echocancellation)处理等进行降噪。但是,降噪处理也有限,在已有的利用了降噪的构成中,实现足够水平的语音识别精度是困难的。另外,作为确定想确认或操作的电子设备和该确认或操作内容的方法,有如下槽位填充(Slotfilling)技术:解析用户的说话,并将该结果填入框架(模板),由此使对话进行。例如,框架包含“设备”、“操作”以及“场所”这三个信息。用户说“接通电源”时,在框架的“操作”中设定“power_on”,但其他“设备”和“场本文档来自技高网...
控制方法和控制器

【技术保护点】
一种控制方法,是与第一设备、第二设备、相机以及麦克风连接的控制器中的控制方法,所述第一设备设置在第一空间的第一位置,所述第二设备设置在第二空间的第二位置,所述相机检测用户的视线方向,所述麦克风检测所述用户的说话,所述第一空间是所述用户能够视觉识别的空间,所述第二空间是所述用户不能视觉识别的空间,所述控制方法包括:从所述相机取得视线信息,所述视线信息包含表示所述检测出的用户的视线方向的信息,基于所述视线信息,判断所述用户的视线方向是否指示所述第一空间所包含的所述第一位置以外的第三位置,从所述麦克风取得表示所述检测出的用户的说话的语音数据,在判断为所述用户的视线方向指示所述第三位置的情况下,从所述控制器或与所述控制器连接的服务器具备的多个词典中选择与所述第二设备对应的第二词典,使用所述选择出的第二词典,生成与所述取得的语音数据对应的第二控制指令,将所述生成的第二控制指令向所述第二设备发送。

【技术特征摘要】
2015.06.24 JP 2015-1268871.一种控制方法,是与第一设备、第二设备、相机以及麦克风连接的控制器中的控制方法,所述第一设备设置在第一空间的第一位置,所述第二设备设置在第二空间的第二位置,所述相机检测用户的视线方向,所述麦克风检测所述用户的说话,所述第一空间是所述用户能够视觉识别的空间,所述第二空间是所述用户不能视觉识别的空间,所述控制方法包括:从所述相机取得视线信息,所述视线信息包含表示所述检测出的用户的视线方向的信息,基于所述视线信息,判断所述用户的视线方向是否指示所述第一空间所包含的所述第一位置以外的第三位置,从所述麦克风取得表示所述检测出的用户的说话的语音数据,在判断为所述用户的视线方向指示所述第三位置的情况下,从所述控制器或与所述控制器连接的服务器具备的多个词典中选择与所述第二设备对应的第二词典,使用所述选择出的第二词典,生成与所述取得的语音数据对应的第二控制指令,将所述生成的第二控制指令向所述第二设备发送。2.根据权利要求1所述的控制方法,还包括:基于所述视线信息判断所述用户的视线方向是否指示所述第二位置,在判断为所述用户的视线指示所述第二位置的情况下,从所述多个词典中选择与所述第一设备对应的第一词典,使用所述选择出的第一词典,生成与所述取得的语音数据对应的第一控制指令,将所述生成的第一控制指令向所述第一设备发送。3.根据权利要求1所述的控制方法,所述第三位置是设置有所述控制器的位置。4.根据权利要求1所述的控制方法,所述控制器具备所述相机。5.根据权利要求1所述的控制方法,所述第三位置是设置有所述麦克风的位置。6.根据权利要求1所述的控制方法,所述麦克风具备所述相机。7.根据权利要求1所述的控制方法,在所述第一空间中配置有物体,所述第三位置是配置了所述物体的位置。8.根据权利要求...

【专利技术属性】
技术研发人员:神田裕士大久保雅文田中敬一中村智典
申请(专利权)人:松下电器美国知识产权公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1