当前位置: 首页 > 专利查询>之江实验室专利>正文

一种可动态调整的讲解方法、装置及电子设备制造方法及图纸

技术编号:27195072 阅读:16 留言:0更新日期:2021-01-31 11:47
本发明专利技术公开了一种可动态调整的讲解方法、装置及电子设备,包括:将讲解词转换成讲解文本图;获取观众的视频和音频,识别观众的行为和参与度;依据观众的行为动态控制讲解文本图的执行过程;依据观众的参与度动态调整讲解文本图的执行路径。本发明专利技术提升了使用电子设备进行自动讲解时的灵活性,实现依据讲解过程中观众的行为和参与度对讲解过程和内容进行动态的调整。的调整。的调整。

【技术实现步骤摘要】
一种可动态调整的讲解方法、装置及电子设备


[0001]本专利技术涉及计算机领域,尤其涉及一种可动态调整的讲解方法、装置及电子设备。

技术介绍

[0002]展厅、博物馆、纪念馆等场所往往有讲解员为观众提讲解服务,帮助观众更好的了解展出内容。使用服务机器人或者屏幕显示的虚拟人等自动讲解设备代替讲解员的工作,可以节省大量人力成本,而且自动讲解设备不会因为疲倦或者疏忽而出现讲解内容的差错。但是与人类讲解员相比,现有的自动讲解设备灵活性不足。譬如,人类讲解员在讲解过程中能根据观众的参与度适当延长或者压缩讲解内容,而现在的自动讲解设备一般只能播放固定长度的讲解词。再如,人类讲解员能暂停讲解以回答观众提问,而且处理完问题后能够通顺的恢复讲解,虽然现在有一部分自动讲解设备能支持讲解被打断,但在恢复讲解时没有考虑前后讲解词内容是否能通顺衔接。上述问题导致观众的参观体验较差,影响自动讲解设备的应用普及。

技术实现思路

[0003]本专利技术的目的在于针对现有技术的不足,提出一种可动态调整的讲解方法、装置及电子设备,以解决现有自动讲解设备灵活性不足的问题。
[0004]为了达到上述目的,本专利技术实施例所采用的技术方案来如下:第一方面,本专利技术实施例提供一种可动态调整的讲解方法,包括:将讲解词转换成讲解文本图,其中所述讲解词具有一个或多个版本,不同版本所需讲解时间不同,所述讲解文本图为有向图,所述有向图的节点包含某一个版本的讲解词片段,所述有向图的有向边表示所连接的两个节点所包含的两个讲解词片段在讲解过程中能按照所述有向边的方向通顺衔接,所述两个讲解词片段属于同一个版本或分属于不同版本;获取观众的视频和音频,识别观众的行为和参与度;依据所述观众的行为动态控制所述讲解文本图的执行过程,执行所述讲解文本图指沿着所述有向图的起始节点到结束节点的一条路径依次访问节点,所述访问节点指讲解所述节点包含的讲解词片段;依据所述观众的参与度动态调整所述讲解文本图的执行路径,所述执行路径指所述讲解文本图的执行过程中所访问的节点的序列。
[0005]进一步地,所述将讲解词转换成讲解文本图,包括:对于只具有一个版本的讲解词,在讲解词中找到分隔点序列;分隔点的位置根据讲解被打断后恢复讲解时的合理起始位置定义,即两个前后连续的分隔点之间的文本若在讲解中被打断,则在恢复讲解时必须从所述两个连续的分隔点中的第一个分隔点开始讲解所述两个前后连续的分隔点之间的文本;每两个连续的所述分隔点之间的文本为一个讲解词片段;以所述讲解词片段为节点构建有向图,称为讲解文本图,所述讲解文本图中每个节点
包含一个所述讲解词片段;若两个所述讲解词片段在所述讲解词中为前后顺序关系,则将所述讲解文本图中相应的两个节点用有向边连接,所述有向边称为顺序边,所述有向边的方向表示讲解的先后顺序;将包含所述讲解词中第一个片段的节点作为所述讲解文本图的起始节点,将包含所述讲解词中最后一个片段的节点作为所述讲解文本图的结束节点。
[0006]进一步地,所述将讲解词转换成讲解文本图,包括:对于具有多个版本的讲解词,选定一个版本作为默认版本,对每一个版本都独立构建所述讲解文本图,得到对应不同版本的多个所述讲解文本图;对于任何位于不同版本的所述讲解文本图的两个节点,若所述两个节点所包含的两个所述讲解词片段在讲解时能通顺衔接,则将所述两个节点用一条有向边连接,所述有向边称为过渡边,所述有向边的方向表示讲解的先后顺序;所述过渡边将对应不同版本的多个所述讲解文本图连接成单一的所述讲解文本图;将包含所述默认版本讲解词中第一个片段的节点作为所述单一的所述讲解文本图的起始节点,将包含所述默认版本讲解词中最后一个片段的节点作为所述单一的所述讲解文本图的结束节点。
[0007]进一步地,所述获取观众的视频和音频,识别观众行为和参与度,包括:使用摄像头获取观众的视频;使用麦克风获取观众的音频;使用基于深度学习多模态融合的方法识别观众行为,将所述观众的视频和音频输入行为识别网络模型,得到观众的行为;使用基于深度学习端到端的方法识别观众的参与度,将所述观众的视频输入参与度识别网络模型,得到观众的参与度。
[0008]进一步地,所述获取观众的视频和音频,识别观众行为和参与度前,还包括:采集真实讲解场景中观众的视频和音频;对所述观众的视频和音频注行为;所述行为包括聆听、观众与讲解者说话、观众间说话、和观众离开等;建立行为识别网络模型,使用所述观众的视频和音频及行为标注作为数据集,训练所述行为识别网络模型;进一步地,所述获取观众的视频和音频,识别观众行为和参与度前,还包括:采集真实讲解场景中观众的视频;对所述观众的视频标注参与度;建立参与度识别网络模型,使用所述观众的视频及参与度标注作为数据集,训练所述参与度识别网络模型。
[0009]进一步地,所述依据观众的行为动态控制所述讲解文本图的执行过程,包括:若识别到观众与讲解者说话的行为,且说话内容的意图为启动讲解时,启动讲解流程;或者,识别到所有观众都处于聆听行为时,自动启动讲解;启动讲解后,从讲解文本图中的起始节点出发,沿着顺序边依次访问讲解文本图中的节点,直到结束节点;
在讲解过程中,部分观众行为能触发暂停讲解,即暂停访问讲解文本图中的节点,并记录当前所处的节点为暂停节点,其中触发暂停的观众行为至少包括观众间说话、与讲解者说话或者离开;暂停讲解后,根据触发暂停的观众行为调整讲解流程;如果所述观众行为为观众间说话,则等待所述观众间说话结束后恢复讲解;如果所述观众行为为观众与讲解者说话,则根据说话的内容执行相应的任务,包括与观众对话或者执行语音指令,完成所述任务后恢复讲解;如果所述观众行为为观众离开,则终止执行所述讲解文本图;恢复讲解时,重新访问所述暂停节点,并从所述暂停节点出发沿着顺序边依次访问所述讲解文本图中的其他节点。
[0010]进一步地,所述依据观众的参与度动态调整所述讲解文本图的执行路径,具体包括:如果所述观众的参与度在一段时间低于一定的阈值,在距离当前访问节点最近的下一个包含连接到更简短版本的过渡边的节点过渡到更简短版本;如果所述观众的参与度在一段时间高于一定的阈值,在距离当前访问节点最近的下一个包含连接到更详细版本的过渡边的节点过渡到更详细版本。
[0011]第二方面,本专利技术实施例还提供一种可动态调成的讲解装置,包括:讲解词处理模块,用于将讲解词转换成讲解文本图,其中所述讲解词具有一个或多个版本,不同版本所需讲解时间不同,所述讲解文本图为有向图,所述有向图的节点包含某一个版本的讲解词片段,所述有向图的有向边表示所连接的两个节点所包含的两个讲解词片段在讲解过程中能按照所述有向边的方向通顺衔接,所述两个讲解词片段属于同一个版本或分属于不同版本;观众感知模块,用于获取观众的视频和音频,识别观众的行为和参与度;第一讲解执行模块,用于依据所述观众的行为动态控制所述讲解文本图的执行过程,执行所述讲解文本图指沿着所述有向图的起始节点到结束节点的一条路径依次访问节点,所述访问节点指讲解所述节点包含的讲解词片段;第二讲解执行模块,用于依据所述观众的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种可动态调整的讲解方法,其特征在于,包括:将讲解词转换成讲解文本图,其中所述讲解词具有一个或多个版本,不同版本所需讲解时间不同,所述讲解文本图为有向图,所述有向图的节点包含某一个版本的讲解词片段,所述有向图的有向边表示所连接的两个节点所包含的两个讲解词片段在讲解过程中能按照所述有向边的方向通顺衔接,所述两个讲解词片段属于同一个版本或分属于不同版本;获取观众的视频和音频,识别观众的行为和参与度;依据所述观众的行为动态控制所述讲解文本图的执行过程,执行所述讲解文本图指沿着所述有向图的起始节点到结束节点的一条路径依次访问节点,所述访问节点指讲解所述节点包含的讲解词片段;依据所述观众的参与度动态调整所述讲解文本图的执行路径,所述执行路径指所述讲解文本图的执行过程中所访问的节点的序列。2.根据权利要求1所述的可动态调整的讲解方法,其特征在于,将讲解词转换成讲解文本图,具体包括:对于只具有一个版本的讲解词,在讲解词中找到分隔点序列;分隔点的位置根据讲解被打断后恢复讲解时的合理起始位置定义,即两个前后连续的分隔点之间的文本若在讲解中被打断,则在恢复讲解时必须从所述两个连续的分隔点中的第一个分隔点开始讲解所述两个前后连续的分隔点之间的文本;每两个连续的所述分隔点之间的文本为一个讲解词片段;以所述讲解词片段为节点构建有向图,称为讲解文本图,所述讲解文本图中每个节点包含一个所述讲解词片段;若两个所述讲解词片段在所述讲解词中为前后顺序关系,则将所述讲解文本图中相应的两个节点用有向边连接,所述有向边称为顺序边,所述有向边的方向表示讲解的先后顺序;将包含所述讲解词中第一个片段的节点作为所述讲解文本图的起始节点,将包含所述讲解词中最后一个片段的节点作为所述讲解文本图的结束节点。3.根据权利要求1所述的可动态调整的讲解方法,其特征在于,将讲解词转换成讲解文本图,具体包括:对于具有多个版本的讲解词,选定一个版本作为默认版本,对每一个版本都独立构建所述讲解文本图,得到对应不同版本的多个所述讲解文本图;对于任何位于不同版本的所述讲解文本图的两个节点,若所述两个节点所包含的两个所述讲解词片段在讲解时能通顺衔接,则将所述两个节点用一条有向边连接,所述有向边称为过渡边,所述有向边的方向表示讲解的先后顺序;所述过渡边将对应不同版本的多个所述讲解文本图连接成单一的所述讲解文本图;将包含所述默认版本讲解词中第一个片段的节点作为所述单一的所述讲解文本图的起始节点,将包含所述默认版本讲解词中最后一个片段的节点作为所述单一的所述讲解文本图的结束节点。4.根据权利要求1所述的可动态调整的讲解方法,其特征在于,获取观众的视频和音频,识别观众的行为和参与度,具体包括:使用摄像头获取观众的视频;
使用麦克风获取观众的音频;使用基于深度学习多模态融合的方法识别观众行为,将所述观众的视频和音频输入行为识别网络模型,得到观众的行为;使用基于深度学习端到端的方法识别观众的参与度,将所述观众的视频输入参与度识别网络模型,得到观众的参与度。5.根据权利要求1所述的可动态调整的讲解方法,其特征在于,获取观众的视频和音频,识别观众的行为和参与度之前,还包括:采集真实讲解场景中观众的视频和音频;根据所述观众的视频和音...

【专利技术属性】
技术研发人员:於其之侯暮寒金天磊朱世强
申请(专利权)人:之江实验室
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1