导航中视频流与自然语言的智能处理方法和装置、设备制造方法及图纸

技术编号:34327029 阅读:40 留言:0更新日期:2022-07-31 01:20
本发明专利技术公开了一种导航中视频流与自然语言的智能处理方法和装置、设备,包括:形成自然语言图像知识库;提取自然语言中的决策语言和语义;分割决策语言部分和非决策语言部分;将非决策语言部分的自然语言识别翻译成图像帧序列;图像帧序列形成视频流或者将图像帧序列与视频流相匹配融合;在视频流帧图像中建立时空极坐标系;分析时空极坐标系下的动态图像和非动态图像;建立决策树结构化模型机制,遍历决策树标注多维度参数;形成图像内容语言矩阵和视频流内容语言矩阵,完成视频流到自然语言的智能处理;根据自然语言进行导航语义理解;本发明专利技术的优点是:相互映射、匹配和融合效率高,提高智能导航的精准性、实时性和安全性,提升体验度。体验度。体验度。

Intelligent processing method, device and equipment of video stream and natural language in navigation

【技术实现步骤摘要】
导航中视频流与自然语言的智能处理方法和装置、设备


[0001]本专利技术涉及视频流与自然语言的智能处理
,特别涉及一种导航中视频流与自然语言的智能处理方法和装置、设备。

技术介绍

[0002]目前,随着空天地海信息网络的蓬勃发展,各种智能移动终端在快速改变着人们的生活,如行星、卫星、飞机、舰艇、汽车、手机、热气球、军民用各类机器人等,发展如火如荼。“互联网+机器人”正在逐步升级,需求十分旺盛。
[0003]同时人们对各种智能移动终端的导航智能化要求不断提高,自动驾驶和避障技术受到越来越多的关注,导航中视频流与自然语言的智能处理成为导航技术发展进程中需要研究的重要课题。视频流可以和文字、声音、图像、符号等形式的数据相互转化,具有灵活性、统一性、可传输性等特点,由传感器或监控摄像头获取的视频流与自然语言更智能的相互转化符合了当今社会对智能化导航的需求。该项研究将帮助和促进可视导航中机器会看又会说的加速实现,不仅有利于导航技术的完善和优化,更能服务于广大社会群体,对交通安全、生活质量、残障人士的帮助都有着积极意义。<br/>[0004]本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种导航中视频流与自然语言的智能处理方法,其特征在于,包括以下步骤:S1:将自然语言文字、词语、句子、符号分类分度图像化,形成自然语言图像知识库;S2:根据自然语言图像知识库识别提取所获自然语言中的决策语言和语义;分割所获自然语言中决策语言部分和非决策语言部分,保持语义,将所获自然语言转换为更利于导航的语言;S3:采用Transformer模型或其改进模型按照一定的顺序、规则、逻辑或结构将非决策语言部分的自然语言识别翻译成图像帧序列;S4:根据决策语言和语义按照相关规则或逻辑将图像帧序列形成视频流或者将图像帧序列与所获导航视频流相匹配融合,完成自然语言到视频流的智能处理;S5:在所获视频流帧图像中建立一个或多个时空极坐标系;S6:分析定位分割所获视频流帧图像中每个时空极坐标系下的动态图像和非动态图像,时空极坐标系之间独立或者关联;S7:根据需要和自然语言图像知识库,将每个时空极坐标系下所需关注的动态图像和非动态图像及其属性维度建立二进制或多进制决策树结构化模型机制,遍历决策树标注多维度参数,多维度参数包括:时间、时空极坐标系定位坐标、颜色、尺寸、重量、密度、动态类别、动态状态、动态曲线、动态逻辑、事件、语义;S8:根据标注的多维度参数分别将每个坐标系下的视频流帧图像内容定位结构化、逻辑化、规范化、模型化、语言化,形成图像内容语言矩阵,进而使得视频流内容定位结构化逻辑化规范化模型化语言化,形成视频流内容语言矩阵,也就是将视频流内容数据规范模型语言化,形成视频流语言;S9:采用Transformer模型或其改进模型将图像、图像帧序列、视频流翻译成自然语言,完成视频流到自然语言的智能处理;S10:根据自然语言进行导航语义理解。2.根据权利要求1所述的一种导航中视频流与自然语言的智能处理方法,其特征在于:S1中分类分度包括:根据时空极坐标系进行分类分度图形图像化,不易或不适合图形图像化的自然语言根据决策和询问类别进行语言分类分度;分类包括:实体对象的种类、语言的种类、词语的种类、符号的种类、场景的种类、动作的种类、句型的种类、颜色的种类、语法的种类;分度包括:深浅度、长短度、远近度、清晰度、模糊度、密度、稀疏度、严重度、力度和速度,包括与程度相关的分类,包括与形容词相关的不同程度的分类;各类声音分类分度图像化和或自然语言化,包括:声音音量、长度、宽度、厚度、男声、女声、孩童声、救护车声和汽笛声。3.根据权利要求1所述的一种导航中视频流与自然语言的智能处理方法,其特征在于:S4包括:根据导航中各类移动终端的行驶速度计算相应所述图像帧之间的时间间隔形成序列形成视频流;根据决策语言和语义将多帧图像调整尺寸布局组合形成一帧或多帧一定尺寸的图像,根据决策语言和语义将多帧图像调整尺寸布局融合匹配到所获视频流中的特定的一帧或
多帧图像中;根据行驶速度、行驶加速度、相关规则将形成的帧图像插入到所获视频流中,相融合匹配得到视频流帧图像。4.根据权利要求1所述的一种导航中视频流与自然语言的智能处理方法,其特征在于:S5包括:所述S5中的时空极坐标系是时钟

时间空间

极坐标系,简称时空极坐标系;时空极坐标系包括极点、极轴、时钟表盘、时间轴,极点即是时钟表盘的中心点,极轴即是始于极点指向表盘的3点钟方向,时间轴穿过极点,时间轴为直线或曲线,时间轴和极轴所在平面垂直于时钟表盘面,时间轴垂直于极轴或不垂直于极轴,一个时空极坐标系内有一条或一条以上时间轴;所述时空极坐标系与时钟坐标系、极坐标系、空间坐标系之间能够坐标相互转换;时空极坐标系时间轴上的帧图像为移动终端上的传感器或摄像机当前位置当前视野中的视频流帧图像,或为其他相关地方传感器或摄像机视野中的视频流帧图像通过网络传输到该坐标系时间轴上的相应时刻,作为相应移动终端路径规划的预测依据;根据存储的相关历史视频流和或虚拟数字视频流和或数字地图视频流和或帧图像和由所述视频流和帧图像转换出的自然语言、文本、语义,作为当前时刻导航视频流的参考和或参照,比较生成当前时刻导航视频流的自然语言和或语义表述和或文本信息;比较当前时刻导航视频流和存储的相关历史视频流和或虚拟数字视频流和或数字地图视频流和或帧图像的差别和相关性,根据相关性参考和或参照和或差别,匹配定位和或编码标注相关路径和或终端和或障碍物和或相关导航点和或导航相关事物对象,计算预测终端未来时刻行驶速度、加速度、路径路线,即帮助当前导航的前方预测和当前导航的自然语言生成和表述。5.根据权利要求1所述的一种导航中视频流与自然语言的智能处理方法,其特征在于:S6包括:根据自然语言图像知识库对视频流和或帧图像中相关事物和或对象的匹配和识别;根据自然语言图像知识库,联合Transformer模型和或CNN模型建立识别方法对视频流和或帧图像中相关事物和或对象进行匹配、识别和标注;定位动态图像和非动态图像的关键边界和关键边界点;跟踪定位视频流帧图像中动态图像和非动态图像的相关轨迹、关键边界和关键边界点;将相关轨迹、关键边界和关键边界点在视频流帧图像中用示意几何图形标定化,所述相关轨迹、关键边界和关键边界点及其示意几何图形标定随时间轴变化而演进移动变化;跟踪定位规划视频流帧图像路径导航点、路径路线、路径空间、路径边界和路径边界点;将路径导航点、路径路线、路径空间、路径边界、路径边界点在视频流帧图像中用示意几何图形标定化,所述路径导航点、路径路线、路径空间、路径边界、路径边界点及其示意几何图形标定随时间轴变化而演进移动变化;每个时空极坐标系下的对象定位有一个或多个时空极坐标系下的坐标;根据视频流帧图像各种对象的跟踪定位规划状况,计算所述视频流帧图像各种对象的
物理世界的相应尺寸、位置、动态速度、动态加速度、动态频率、轨迹的动态状况;根据视频流帧图像各种对象的跟踪定位规划状况,计算物理世界中与之相关各种移动终端的相对尺寸、相对位置、相对动态速度、相对动态加速度、相对动态频率、轨迹的动态状况;根据所述各种相对状况,计算规划预测相关各种移动终端的路径、路线、导航点、速度、加速度。6.根据权利要求1所述的一种导航中视频流与自然语言的智能处理方法,其特征在于:S7包括:将视频流帧图像中所有相关对象按照位置关系、事件逻辑关系、事件结构关系、语义关系建立一个或多个对象决策树;将视频流帧图像中所有相关对象的属性维度根据对象不同分别对每个对象按照位置关系、事件逻辑关系、事件结构关系、语义关系、描述习惯建立一个或多个属性维度决策树;所述对象决策树和属性维度决策树合并为一个决策树,即决策树中既有对象,也有对象的属性维度,用一套二进制和或多进制编码方式进行统一编码或多套编码方式混合编码;所述决策树拆分为多个决策树,拆分之后分别单独编码或多套编码或与原决策树统一一套编码;视频流帧图像中相关对象每一维度的参数设置一个或多个符号来代表该参数和代表该参数的状态;根据相关规则、策略合理设置维度参数对应的数值、公式或语句,包括:大小、范围、类别、长度。7.根据权利要求1所述的一种导航中视频流与自然语言的智能处理方法,其特征在于,S8包括:根据视频流帧图像中对象的各种布局将标注定位;将各对象标注排序定位包括:根据时空极坐标系顺时针或逆时针方向排序定位,根据极轴方向或极轴反方向排序定位,根据空间距离排序定位;根据标注排序定位结构,将图像各对象标注排列形成矩阵,即形成图像内容语言矩阵,并存储和更新;根据视频流中帧图像相关内容的变化和帧图像的时间间隔,和或行驶速度、加速度,存储、更新和或增加新的图像内容语言矩阵,并依次排序,按照时间发生顺序排列或按照特定需求排列,形成视频流内容语言矩阵。8.根据权利要求1所述的一种导航中视频流与自然语言的智能处理方法,其特征在于:S8还包括:在所获视频流帧图像中以某一事物对象和或多个事物对象为参照物,分别建立基准点;分析定位分割所获视频流帧图像中每个参照物下的相关动态图像和非动态图像,参照物之间相互关联或独立存在;根据需要和自然语言图像知识库,将每个参照物下所需关注的动态图像和非动态图像及其属性维度建立二进制或多进制决策树结构化模型机制,遍历决策树标注多维度参数,
多维度参数包括:时间、与参照物的相对位置及关系、颜色、动态类别、动态状态、动态曲线、动态逻辑、事件、语义;根据标注分别将每个参照物下的视频流帧图像内容定位结构化逻辑化规范化模型化语言化,如形成图像内容语言矩阵,进而使得视频流内容定位结构化逻辑化规范化模型化语言化,形成视频流内容语言矩阵,也就是将视频流内容数据规范模型语言化,形成一种语言,视频流语言。9.根据权利要求1所述的一种导航中视频流与自然语言的智能处理方法,其特征在于:S9包括:根据自然语言图像知识库和时空极坐标系或参照物,联合Transformer模型和或CNN模型等建立视频流帧图像中相关对象的分析定位分割方法对视频流和或帧图像中相关事物和或对象进行自动定位分割;根据自然语言图像知识库和时空极坐标系或参照物以及定位分割状况,联合Transformer模型和或CNN模型等建立识别方法对视频流和或帧图像中相关事物和或对象进行自动匹配和识别;根据自然语言图像知识库和时空极坐标系或参照物以及匹配和识别状况,联合Transformer模型和或CNN模型等建立标注方法对视频流和或帧图像中相关事物和或对象进行自动标注;根据自然语言图像知识库和时空极坐标系或参照物以及标注状况,联合Transfor...

【专利技术属性】
技术研发人员:刘慧
申请(专利权)人:中国科学院大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1