基于姿势的注释制造技术

技术编号:17746161 阅读:18 留言:0更新日期:2018-04-18 19:38
在一个实施例中,公开了一种用于将会议中的会话转换成文本并对文本进行注释的设备。在一个实施例中,公开了一种设备,设备包括:话筒;相机;处理器;以及包括一组指令的存储;其中所述一组指令致使所述处理器:从话筒接收包含会议的参与者的语音的音频记录;从相机接收所述参与者的视频;标识所述参与者;将所述参与者的语音转换成数字文本;开发所述参与者的骨架图;从所述骨架图中识别所述参与者的姿势;检测并标识所述姿势的目标;基于所述目标和所述姿势,确定用于与所述姿势的时间点相对应的数字文本的注释。

【技术实现步骤摘要】
【国外来华专利技术】基于姿势的注释背景会议涉及多个参与者以及各参与者之间不同模式的交互。记录会议中发生的至少一些交互可能是有意义的。会议抄本或会议纪要已被普遍地用来记录会议中的话语方面的交流。传统地,会议的抄本可由与会人员制作。目前,抄本可通过记录会议中的会话并使用语音识别技术将其转换成文本来生成。在一些情况下,会议视频也可被记录以供将来参考。为了对抄本中的文本提供上下文或进行补充,注释可被使用。例如,注释可以是强调标志、朝向特定人员的语音、请求、顺序等。对使用语音识别转录(如果支持的话)的文本的注释可或者手动进行,或者基于发言者的话语线索。手动注释可包括人使用输入设备来输入或选择注释。基于话语线索的注释可包括对话语线索的语音识别。话语线索可与特定注释相关联。在检测到话语线索的情况下,对应于话语线索附近的一段时间的转录文本可用对应的注释来标注。概述提供本概述以便以简化的形式介绍将在以下的详细描述中进一步描述的一些概念。本概述并不旨在标识出所要求保护的主题的关键特征或必要特征,也不旨在用于限定所要求保护的主题的范围。在一个实施例中,示出了一种用于将会议中的会话转换成文本并对文本进行注释的设备。在一个实施例中,公开了一种会话转换器,其包括处理器,以及包括一组指令的存储介质。所述一组指令致使处理器接收包含会议的参与者的语音的音频记录,接收所述参与者的视频,标识所述参与者,将所述参与者的音频记录转换成数字文本,开发所述参与者的骨架图,从所述骨架图中识别所述参与者的姿势,以及检测并标识所述姿势的目标。基于所述目标和所述姿势,会话转换器确定用于与所述姿势的时间点相对应的数字文本的注释。随着许多附带特征通过结合附图和对应的参考标记参考下面的详细描述而变得更好理解,这些附带特征将更易于被领会。附图简述根据附图阅读以下详细描述将更好地理解本说明书,在附图中:图1例示了根据一个实施例的用于记录和注释会议抄本的设备的示意表示;图2例示了根据另一实施例的用于记录和注释会议抄本的设备的示意表示;图3A和3B例示了根据一个实施例的具有骨架图的姿势;图4例示了根据一个实施例的会议空间中的设备配置;图5例示了根据一个实施例的会议空间中的另一种设备配置;图6例示了根据一个实施例的用于注释会议的录音文本的方法的示意流程图;以及图7例示了根据一个实施例的作为来自设备的输出的示例性会议抄本的一部分。在各个附图中使用相同的附图标记来指代相同的部件。详细描述下面结合附图提供的详细描述旨在作为各实施例的描述,并不旨在表示可以构建或使用实施例的唯一形式。然而,可以通过不同的实施例来实现相同或等效功能和结构。图1示出了根据一个实施例的用于记录和注释会议抄本的设备200的示意例示。设备200可包括至少一个相机201、至少一个话筒203、至少一个处理器202以及至少一个存储204,存储204包括致使处理器实现本文描述的功能的指令。存储204可包括骨架绘图模块219以及其它指令。根据一个实施例,设备200可实时记录和注释会议抄本。在一些实施例中,设备200还可记录和注释来自之前记录的会话的抄本,其中记录既包括视频也包括音频。根据一个实施例,会议可包括至少两个人之间的任何话语交流或交互。会议可例如是商务或办公室会议、非正式的聚会、社交事件、讲课、讲座等。参考图1中例示的实施例,至少一个相机201可被配置成捕捉会议的视频。话筒203可被配置成捕捉来自会议空间的音频。相机201和话筒203可与处理器202和存储204耦合,使得音频和视频的记录被恰当地同步。相机201可以至少一种方式与处理器202和/或存储204通信。话筒203可以至少一种方式与处理器202和/或存储204通信。在一个实施例中,相机201和话筒203可包括单个设备。这类设备可以是例如视频相机、网络相机、深度相机、相机阵列、具备高帧率能力的静态相机等。在一个实施例中,话筒203可以是具备波束成形能力的阵列话筒。波束成形可被用于捕捉来自多个发言者中的单个发言者的音频。在一个实施例中,相机201可以是360°视野相机。在一个实施例中,相机201包括能够从不同视角记录会议的相机阵列。相机201可捕捉会议中的参与者的视频,而话筒203可捕捉会议中的参与者的音频。处理器202可分析来自视频相机201的视频以识别会议的参与者。处理器202可分析来自话筒203的音频以将音频转换成数字文本。对会议中的参与者的位置的认知可被处理器202开发。位置认知可包括人类参与者和物理对象,比如白板、模型、屏幕等。位置认知可以是多维坐标系统中的坐标的形式。会议中的每一个参与者和/或物理物体可被分配坐标系统中的坐标。处理器202可分析来自相机201的视频以向参与者和/或物理对象分配坐标。在一个实施例中,对视频的分析可在包括该视频的各单帧上执行。图像处理技术可被用于检测图像中的对象。在一个实施例中,相机201的物理参数可被用来计算图像中检测到的对象之间和/或对象和相机201之间的距离。例如,在给定相机201的焦距和某个参考对象的测量值的情况下,可开发图像上的维度和距相机的距离之间的关系,该关系可被用于计算其它对象距相机的距离。根据一个实施例,参考对象可以是用户之一。对用户的一些身体测量可以是已知的。根据另一实施例,人眼间的平均距离或瞳孔间距可被用作为参考。根据一个实施例,平均瞳孔间距可被取为6厘米。对象之间的角距离也可被计算。例如,在给定相机的孔径角的情况下,可计算相机捕捉的图像中的各对象之间的角距离。这一信息中的一些或全部可由处理器201用来向来自相机201的视频中的对象分配坐标。根据一个实施例,对视差效应的分析可被用来计算各参与者之间的距离。根据另一实施例,设备可进一步包括陀螺仪(在图1中未例示)。相机201所放置的高度可以是已知的。相机可被倾斜以聚焦在地板上的点,会议参与者正坐在或站在该点上,相机201的倾斜的角度可通过陀螺仪来测量。来自陀螺仪的角度和相机在地板之上的高度可被用来计算参与者距相机201的距离。这一距离和图像上测得的(例如以像素数计的)诸维度的比率以及参考参数(如瞳孔间距)的实际值可随后例如被用来计算其他人距相机201的大致距离。各参与者之间的角距离和他们各自距相机的距离可随后被用于向每一个参与者分配坐标。处理器202可分析来自相机201的视频和/或来自话筒203的音频以确定发言者以及发言者相对于其它参与者的位置。对象跟踪和/或声音定位可被用于将发言者与其他参与者予以区分。图像识别、语音识别、生物特征识别或这些的组合可随后被用来标识发言者。处理器202可将数字文本与对应的发言者相关联。与对来自会议的音频的分析同时地,骨架绘图模块219可致使处理器202通过处理来自相机201的视频来生成会议的参与者的实时骨架图。骨架图可由处理器202分析以检测和识别姿势。处理器202可从骨架图和认知目标的位置来识别发起者以及姿势的至少一个目标。姿势的目标可以是会议的人类参与者或物理对象(例如会议辅助工具)。会议辅助工具可包括白板、投影仪屏幕、电子显示器或任何物理对象。在一个实施例中,姿势的目标可根据骨架图中的至少一个肢体的角度和方向连同已经处理的位置认知来定位并标识。在一个实施例中,姿势的目标可通过使用用于分辨身体移动和/或朝向的图像识本文档来自技高网...
基于姿势的注释

【技术保护点】
一种系统,包括:处理器;以及包括一组指令的存储;其中所述一组指令致使所述处理器:接收包含会议的参与者的语音的音频记录;接收所述参与者的视频;标识所述参与者;将所述参与者的音频记录转换成数字文本;开发所述参与者的骨架图;从所述骨架图中识别所述参与者的姿势;以及检测并标识所述姿势的目标;基于所述目标和所述姿势,确定用于与所述姿势的时间点相对应的数字文本的注释。

【技术特征摘要】
【国外来华专利技术】2015.08.26 US 14/836,5461.一种系统,包括:处理器;以及包括一组指令的存储;其中所述一组指令致使所述处理器:接收包含会议的参与者的语音的音频记录;接收所述参与者的视频;标识所述参与者;将所述参与者的音频记录转换成数字文本;开发所述参与者的骨架图;从所述骨架图中识别所述参与者的姿势;以及检测并标识所述姿势的目标;基于所述目标和所述姿势,确定用于与所述姿势的时间点相对应的数字文本的注释。2.如权利要求1所述的系统,其特征在于,所述注释包括包含所述姿势的时间点的时间戳以及朝向所述姿势的目标的动作点。3.如权利要求2所述的系统,其特征在于,所述动作点包括由正在发言的参与者将任务分配给所述会议中的一个或多个参与者。4.如权利要求1所述的系统,其特征在于,包括所述存储的指令进一步致使所述处理器开发对所述参与者和至少一个目标的位置的认知。5.如权利要求4所述的系统,其特征在于,所述对位置的认知包括所述参与者和所述目标在多维坐标系中的坐标。6.如权利要求1所述的系统,其特征在于,所述目标包括:至少一个物理对象或所述会议的至少一个参与者;或者所述会议的至少一个参与者和至少一个物理对象。7.如权利要求1所述的系统,其特征在于,进一步包括至少一个话筒和至少一个相机,其中所述处理器从所述至少一个话筒接收参与者的音频记录并且从所述至少一个相机接收所述参与者的视频。8.如权利要求7所述的系统,其特征在于,所述话筒包括指向性话筒阵列;或者进一步包括多个相机,其中所述相机被配置成以分布式方式遍布会议空间;或者进一步包括多个话筒,其中所述话筒被配置成以分布式方式遍布会议空间。9.如权利要求1所述的系统,...

【专利技术属性】
技术研发人员:R·瑞尼斯特
申请(专利权)人:微软技术许可有限责任公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1