【技术实现步骤摘要】
一种基于物联网的视频通信处理方法及系统
本专利技术涉及视频通信
,具体而言,涉及一种基于物联网的视频通信处理方法及系统。
技术介绍
随着远程无线监控摄像头应用场景的增多,人们可以利用无线监控摄像头进行远程监管,以满足用户对远程照护的需求。然而,远程监管往往只能满足照看的需求,无法利用远程视频同时对一些智能设备进行操作,而智能利用其它的一些远程设备单独对智能设备进行操作,导致智能设备的控制效率较低。
技术实现思路
本专利技术的目的在于提供一种基于物联网的视频通信处理方法及系统,以至少部分的改善上述技术问题。为了实现上述目的,本专利技术采用的技术方案如下:第一方面,本专利技术提供一种基于物联网的视频通信处理方法,所述方法包括:获取当前视频通信数据,确定所述当前视频通信数据中的解析视频片段;从所述当前视频通信数据中解析出所述解析视频片段对应的音频数据信息,识别所述音频数据信息得到所述当前视频通信数据中的目标语义内容;根据所述解析视频片段获取所述当前视频通信数 ...
【技术保护点】
1.一种基于物联网的视频通信处理方法,其特征在于,所述方法包括:/n获取当前视频通信数据,确定所述当前视频通信数据中的解析视频片段;/n从所述当前视频通信数据中解析出所述解析视频片段对应的音频数据信息,识别所述音频数据信息得到所述当前视频通信数据中的目标语义内容;/n根据所述解析视频片段获取所述当前视频通信数据的参考视频片段;/n对所述目标语义内容和所述参考视频片段进行处理,生成所述解析视频片段所对应的操作指令。/n
【技术特征摘要】
1.一种基于物联网的视频通信处理方法,其特征在于,所述方法包括:
获取当前视频通信数据,确定所述当前视频通信数据中的解析视频片段;
从所述当前视频通信数据中解析出所述解析视频片段对应的音频数据信息,识别所述音频数据信息得到所述当前视频通信数据中的目标语义内容;
根据所述解析视频片段获取所述当前视频通信数据的参考视频片段;
对所述目标语义内容和所述参考视频片段进行处理,生成所述解析视频片段所对应的操作指令。
2.根据权利要求1所述的方法,其特征在于,所述解析视频片段所对应的操作指令为针对目标智能设备的设备操作指令;
所述对所述目标语义内容和所述参考视频片段进行处理,生成所述解析视频片段所对应的操作指令,包括:
调用所述设备操作指令对应的设备操作信息集,创建第一设备操作指令库;其中,所述第一设备操作指令库包括所有针对所述目标智能设备的设备操作指令;
根据所述参考视频片段调整所述第一设备操作指令库的设备操作指令;
获取所述音频数据信息在所述当前视频通信数据中的参考权重值,根据所述参考权重值将所述目标语义内容中的设备操作指令与调整后的所述第一设备操作指令库的设备操作指令进行匹配,得到所述解析视频片段所对应的操作指令。
3.根据权利要求1所述的方法,其特征在于,所述解析视频片段包括第一视频子片段和第二视频子片段;
所述从所述当前视频通信数据中解析出所述解析视频片段对应的音频数据信息,包括:
从所述当前视频通信数据中解析出包含所述第一视频子片段的所在时间范围内的第一原始音频数据,获取所述第一原始音频数据的第一参考子视频片段;
根据所述第一原始音频数据在所述当前视频通信数据所占的时间范围,筛选出所述第二视频子片段在所述第一原始音频数据中的目标时间范围;
根据所述目标时间范围,在所述第一参考子视频片段中筛选出第三视频子片段;
从所述第一原始音频数据中解析出包含所述第三视频子片段的所在时间范围内对应的第二原始音频数据,在所述第一原始音频数据中将所述第三视频子片段所在时间范围内的音频数据调整为空数据,将调整后的第一原始音频数据作为第三原始音频数据;
将所述第二原始音频数据和所述第三原始音频数据融合为所述音频数据信息;
所述识别所述音频数据信息得到所述当前视频通信数据的目标语义内容,包括:
获取所述第二原始音频数据的音频数据时长,根据所述第二原始音频数据的音频数据时长识别所述第二原始音频数据,得到第一解析语义文本;
补充所述第三原始音频数据中数据为空的部分,并对补充后的第三原始音频数据进行高斯滤波,并解析得到第二解析语义文本;
将所述第一解析语义文本和所述第二解析语义文本组合为所述目标语义内容。
4.根据权利要求1所述的方法,其特征在于,所述音频数据信息包括多个子音频片段;
所述识别所述音频数据信息得到所述当前视频通信数据的目标语义内容,包括:
获取子音频片段的音频数据时长,根据所述子音频片段的音频数据时长识别所述子音频片段,得到解析语义文本;
将所述多个子音频片段各自的解析语义文本组合为所述目标语义内容;
当所述子音频片段的音频数据时长处于第一预设时长范围时,所述根据所述子音频片段的音频数据时长识别所述子音频片段,得到解析语义文本,包括:
在所述多个子音频片段中确定与所述子音频片段的前一子音频片段;
将所述子音频片段的音频时长以及所述前一子音频片段的音频时长进行融合,生成参考音频时长;
识别所述子音频片段的对话音频片段和静音音频片段;其中,所述对话音频片段包括多个对话音频序列;
识别每个所述对话音频序列中的文字内容,并将所有识别出的文字内容按时间顺序组合为所述解析语义文本;
当所述子音频片段的音频数据时长处于第二预设时长范围时,所述根据所述子音频片段的音频数据时长识别所述子音频片段,得到解析语义文本,包括:
将所述子音频片段拆分为多个标准字节音频片段;其中,所述多个标准字节音频片段中的每个标准字节音频片段包含一个字节音频;
识别每个标准字节音频片段中的文字内容,并将得到的所有所述文字内容按照时间顺序组合为所述解析语义文本;
当所述子音频片段的音频数据时长处于第三预设时长范围时,所述根据所述子音频片段的音频数据时长识别所述子音频片段,得到解析语义文本,包括:
将每个所述子音频片段输入预设的语义识别模型,得到多个语义识别片段;
将所有的所述语义识别片段进行组合,得到所述解析语义文本;
其中,所述第一预设时间范围大于所述第二预设时间范围,所述第二预设时长范围大于所述第三预设时长范围。
5.根据权利要求1所述的方法,其特征在于,所述根据所述解析视频片段获取所述当前视频通信数据的参考视频片段,包括:
在所述当前视频通信数据中确定出所述解析视频片段包含的时间范围,并记为第一时间范围;...
【专利技术属性】
技术研发人员:杨思亭,杨柱豪,
申请(专利权)人:广州云智通讯科技有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。