语音处理设备、语音处理方法和记录介质技术

技术编号:32625004 阅读:21 留言:0更新日期:2022-03-12 17:57
提供了一种语音处理设备,例如,语音处理设备能够考虑噪声相对于由人的话语所产生的语音的影响来执行处理。说话者提取单元从图像提取说话者区域。第一话语数据生成单元,基于说话者的嘴唇形状来生成指示说话者的话语内容的第一话语数据。第二话语数据生成单元,基于与说话者的话语相对应的语音信号来生成指示说话者的话语内容的第二话语数据。比较单元将第一话语数据和第二话语数据相互比较。将第一话语数据和第二话语数据相互比较。将第一话语数据和第二话语数据相互比较。

【技术实现步骤摘要】
【国外来华专利技术】语音处理设备、语音处理方法和记录介质


[0001]本公开涉及一种语音处理设备、语音处理方法和记录介质,特别地涉及一种处理与话语相关联的语音的语音处理设备、语音处理方法和记录介质。

技术介绍

[0002]在PTL1中公开了通过语音辨识从语音信号中再现话语内容。具体地说,在PTL1中描述了通过使用扩音器(麦克风)收集人发出的话语声音,并且从扩音器输出的语音信号被转换为文本数据(字符信息)。
[0003]在PTL2中公开了一种技术,其中说话者的嘴唇图案和语音与先前登记的数据进行核对,并且在从核对中得到匹配结果的情况下,输出特定字符信息。
[0004]作为相关文献,在PTL3中公开了一种技术,其中从包括由说话者发出的语音的运动图像中,学习嘴唇形状与音素之间的关系。
[0005][引用列表][0006][专利文献][0007][PTL 1]JP 2008

160667 A
[0008][PTL2]JP H08

009254 A
[0009][PTL 3]JP 2011

013731 A

技术实现思路

[0010]技术问题
[0011]然而,在PTL 1和PTL 2每一个中描述的语音辨识技术中,没有假定考虑噪声相对于由人的话语所产生语音(说话)影响的大小。在这种情况下,例如,当话语内容从语音中再现时,很可能无法准确地再现话语内容。
[0012]考虑到上述问题,本专利技术的目的之一是提供一种语音处理设备等,其能够考虑噪声相对于人的话语所产生语音的影响而进行处理。
[0013][问题解决方案][0014]根据本公开的一个方面的语音处理设备包括:说话者提取装置,说话者提取装置被配置为从图像提取说话者的区域;第一话语数据生成装置,第一话语数据生成装置被配置为基于说话者的嘴唇形状来生成示出说话者的话语内容的第一话语数据;第二话语数据生成装置,第二话语数据生成装置被配置为基于与说话者的话语相关联的语音信号来生成示出说话者的话语内容的第二话语数据;以及核对装置,核对装置被配置为核对第一话语数据与第二话语数据。
[0015]根据本公开的一个方面的语音处理方法包括:从图像提取说话者的区域;基于说话者的嘴唇形状来生成示出说话者的话语内容的第一话语数据;基于与说话者的话语相关联的语音信号来生成示出说话者的话语内容的第二话语数据;以及核对第一话语数据与第二话语数据。
[0016]根据本公开的一个方面的记录介质中存储有程序,该程序被配置为使计算机执行:从图像提取说话者的区域;基于说话者的嘴唇形状来生成示出说话者的话语内容的第一话语数据;基于与说话者的话语相关联的语音信号来生成示出说话者的话语内容的第二话语数据;以及核对第一话语数据与第二话语数据。
附图说明
[0017]图1是示出根据示例实施例1的语音处理设备的配置的一个示例的框图。
[0018]图2是示出根据示例实施例1的语音处理设备包括的第一话语数据生成单元的配置的一个示例的框图。
[0019]图3是示出根据示例实施例1的语音处理设备的操作流程的一个示例的流程图。
[0020]图4是示出根据示例实施例2的语音处理设备包括的第二话语数据生成单元的配置的一个示例的框图。
[0021]图5是示出根据示例实施例3的语音处理设备的第二话语数据生成单元的配置的一个示例的框图。
[0022]图6是示出根据示例实施例4的语音处理设备的配置的一个示例的框图。
[0023]图7是示出根据示例实施例4的语音处理设备的操作流程的一个示例的流程图。
[0024]图8是示出根据示例实施例5的语音处理设备的配置的一个示例的框图。
[0025]图9是示出根据示例实施例5的语音处理设备的一个修改示例的配置的一个示例的框图。
[0026]图10是示出根据示例实施例5的语音处理设备的操作流程的一个示例的流程图。
[0027]图11是示出根据示例实施例6的系统的配置的一个示例的框图。
[0028]图12是由根据示例实施例6的系统包括的显示器进行显示的一个示例。
[0029]图13是示出根据示例实施例7的信息处理设备的硬件配置的一个示例的图。
具体实施方式
[0030][示例实施例1][0031]参考图1至3,将描述示例实施例1。
[0032](语音处理设备1)
[0033]参考图1,将描述根据本示例实施例1的语音处理设备1的配置。图1是示出语音处理设备1的配置的一个示例的框图。如图1所示,语音处理设备1包括说话者提取单元20、第一话语数据生成单元30、核对单元40和第二话语数据生成单元50。根据本示例实施例1的语音处理设备1的各单元的功能(以及根据后面描述的示例实施例中每一个的语音处理设备)可以作为软件通过执行由处理器读取到存储器中的程序来实现,或者可以作为诸如智能相机的硬件来实现。
[0034]说话者提取单元20从图像提取说话者的区域。说话者提取单元20是说话者提取装置的一个示例。
[0035]具体地说,说话者提取单元20从未示出的相机等获取多条时间序列图像数据。例如,多条时间序列图像数据是某一时间段内的运动图像的图像帧。可替代地,多条时间序列图像数据可以是以预定时间间隔捕获的静止图像的多条数据。在通过智能相机实现说话者
提取单元20的功能的情况下,智能相机自身捕获时间序列图像数据。
[0036]说话者提取单元20对获取的时间序列图像数据进行图像分析,由此从多条图像数据中提取说话者的区域。例如,说话者提取单元20通过使用具有已学习的人的特征(个性)的辨析器(也称为学习模型)从多条图像数据检测人的区域。所检测的人的区域是包括人的至少一部分的图像的区域。人的区域例如是在图像数据中包围人的面部部分的矩形区域。
[0037]此外,说话者提取单元20从检测到的人的区域的图像数据中识别人的嘴唇的一部分。说话者提取单元20通过例如面部认证(核对)或其他手段在多条时间序列图像数据中确定同一人。说话者提取单元20检测时间序列图像数据中的同一人的嘴唇形状的差异(即,变化)。在同一人的嘴唇形状在多条时间序列图像数据中发生变化的情况下,说话者提取单元20确定该人是说话者。
[0038]说话者提取单元20将包括被确定为说话者的人的区域(在下文中,可以存在将人的区域称为说话者的区域的情况)的图像数据(在下文中,可以存在将图像数据称为说话者的图像数据的情况)发送到第一话语数据生成单元30。
[0039]第一话语数据生成单元30基于说话者的嘴唇形状来生成示出说话者的话语内容的第一话语数据。第一话语数据生成单元30是第一话语数据生成装置的一个示例。第一话语数据生成单元30可以通过使用PTL3(JP 2011

13731A)中描述的技术来生成第一话语数据。可替代地,如下文所描述,第一话语数据生成单元30也可以直接从说话者的图像数据来生成第一本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种语音处理设备,包括:说话者提取装置,所述说话者提取装置被配置为从图像提取说话者的区域;第一话语数据生成装置,所述第一话语数据生成装置被配置为基于所述说话者的嘴唇的形状来生成示出所述说话者的话语的内容的第一话语数据;第二话语数据生成装置,所述第二话语数据生成装置被配置为基于与所述说话者的所述话语相关联的语音信号来生成示出所述说话者的话语的内容的第二话语数据;以及核对装置,所述核对装置被配置为核对所述第一话语数据与所述第二话语数据。2.根据权利要求1所述的语音处理设备,其中,所述第一话语数据生成装置包括:视素辨析装置,所述视素辨析装置被配置为从所述说话者的所述嘴唇的形状来辨析视素;以及视素

音素转换装置,所述视素

音素转换装置被配置为将所述视素转换为音素,并且生成包括一个音素或多个音素在内的所述第一话语数据。3.根据权利要求1或2所述的语音处理设备,其中,所述第二话语数据生成装置包括:特征提取装置,所述特征提取装置被配置为从输入的语音信号来提取特征;以及语音信号

音素转换装置,所述语音信号

音素转换装置被配置为将所述语音信号的所述特征转换为相关联的音素,并且生成包括一个音素或多个音素在内的所述第二话语数据。4.根据权利要求1或2所述的语音处理设备,其中,所述第二话语数据生成装置包括:单音提取装置,所述单音提取装置被配置为提取被包括在输入语音信号中的单音,并且生成包括一个单音或多个单音在内的所述第二话语数据。5.根据权利要求1至4中的任一项所述的语音处理设备,其中,所述说话者提取装置生成用以识别从所述图像中被提取的所述说话者的说话者信息,所述语音处理设备还包括:关联装置,所述关联装置被配置为基于所述核对的结...

【专利技术属性】
技术研发人员:佐佐木和幸
申请(专利权)人:日本电气株式会社
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1