一种唇语学习云平台建立的方法和系统技术方案

技术编号:18238144 阅读:59 留言:0更新日期:2018-06-17 01:34
本发明专利技术提供一种唇语学习云平台建立的方法和系统,包括:获取唇语,所述唇语包括嘴唇舌头动作以及对应的语句;对所述唇语进行提取,将所述嘴唇舌头动作划分为图像数据以及所述语句划分为语音数据,并将所述图像数据和语音数据传输至唇语学习云平台进行数据训练;将训练好的数据存储在唇语学习云平台设定的主节点上,形成训练数据库;搭建唇语学习云平台的分布式数据管理系统,并根据需要将训练数据库的数据组织到唇语学习云平台的其他节点上。本发明专利技术通过提升唇读模型提取句子的准确性,来提高唇语学习的效率,推进唇语学习的发展。 1

A method and system for building lip language learning cloud platform

The present invention provides a method and system for establishing a lip language learning cloud platform, including: obtaining lip language, the lip language including lip tongue movements and corresponding statements, extracting the lip language, dividing the lip tongue action into image data and dividing the statements into voice data, and using the image data. And voice data transmission to the lip learning cloud platform for data training; the trained data is stored on the main nodes set by the lip learning cloud platform to form a training database, and a distributed data management system for the lip language learning cloud platform is built, and the data of the training data base is organized to the lip learning cloud platform according to the needs. On the other nodes. The invention improves the efficiency of lip language learning and improves the development of lip language learning by improving the accuracy of the lip reading model to extract sentences. One

【技术实现步骤摘要】
一种唇语学习云平台建立的方法和系统
本专利技术实施方式涉及通讯
,尤其涉及一种唇语学习云平台建立的方法和系统。
技术介绍
唇读在人类的交流和语音理解中发挥了很关键的作用,当一个音素在一个人的说话视频中的配音是某个人说的另一个不同的音素时,听话人会感知到第三个不同的音素。在实施本专利技术的过程中,专利技术人发现现有技术至少存在如下问题:唇读对人类来说是一项众所周知的艰难任务。除了嘴唇和有时候的舌头和牙齿,大多数唇读信号都是隐晦的,难以在没有语境的情况下分辨。因此,实现唇读的自动化是一个很重要的目标。机器读唇器有很大的实用潜力,比如可以应用于改进助听器、公共空间的静音听写、秘密对话、嘈杂环境中的语音识别、生物特征识别和默片电影处理。机器唇读是很困难的,因为需要从视频中提取时空特征,比如位置和运动等特征。虽然深度学习方法试图通过端到端的方式提取这些特征。但是,所有的已有工作都只是执行单个词的分类,而非句子层面的序列预测。目前的唇语学习大多数都是通过线下人工培训,以及网上的学习软件。但是,人类语言受到了地域差异、国籍差异等影响,各个地方都有方言的存在。同时,线下的人工培训基于官方的标准语言,在各个地域的适用性远没有预想的那么高,因此,在学习时无法达到预期的效果。而网上的唇语学习软件,也都只考虑官方的标准语言,而为考虑到地方的方言。而且,对于所提取的内容,都是基于一句话中的单词而言,并没有从整个句子层面来进行预测,因此,有着很大的弊端,提取的准确率也达不到预期的要求。应该注意,上面对技术背景的介绍只是为了方便对本专利技术的技术方案进行清楚、完整的说明,并方便本领域技术人员的理解而阐述的。不能仅仅因为这些方案在本专利技术的
技术介绍
部分进行了阐述而认为上述技术方案为本领域技术人员所公知。
技术实现思路
针对上述问题,本专利技术实施方式的目的在于提供一种唇语学习云平台建立的方法和系统,通过提升唇读模型提取句子的准确性,来提高唇语学习的效率,推进唇语学习的发展。为实现上述目的,本专利技术实施方式提供一种唇语学习云平台建立的方法,包括:获取唇语,所述唇语包括嘴唇舌头动作以及对应的语句;对所述唇语进行提取,将所述嘴唇舌头动作划分为图像数据以及所述语句划分为语音数据,并将所述图像数据和语音数据传输至唇语学习云平台进行数据训练;将训练好的数据存储在唇语学习云平台设定的主节点上,形成训练数据库;搭建唇语学习云平台的分布式数据管理系统,并根据需要将训练数据库的数据组织到唇语学习云平台的其他节点上。进一步地,所述方法还包括:进行分布式系统硬件平台搭建,至少搭建两个节点,每个节点包括中央处理单元CPU和图形处理单元GPU;底层进程通信使用gRPC支持库,使用Tensorflow提供的工具,定义集群的cluster_spec数,配置多机多卡模式。进一步地,对所述唇语进行提取,具体为:通过Tensorflow对所述唇语进行提取。进一步地,将所述图像数据和语音数据传输至唇语学习云平台进行数据训练,形成训练数据库包括:将所述嘴唇舌头动作划分为图像数据以及所述语句划分为语音数据;将数据按照数据关联模型的划分算法,语音数据与图像数据打包成训练任务,分配到不同工作节点中;每个工作节点由CPU指派到多个GPU中,GPU每次完成训练任务后,发送训练数据给CPU,CPU计算平均训练数据,更新参数;当单节点训练任务完成后,用广播形式向唇语学习云平台内的其他节点发送数据,并等待其他节点的训练数据;所有节点完成计算任务后,由设定的Master节点存储最终的训练数据,形成训练数据库。进一步地,所述唇语学习云平台的神经网络框架,选择卷积神经网络结构,选择128个卷积核,16层卷积层,其中,16层卷积层的层名称和描述定义为:init,网络初始化;conv1,实现卷积以及整流线性激活;pool1,最大池;norm1,局部响应归一化;conv2,实现卷积以及整流线性激活;pool2,最大池;som,自组织结构输入层;som2,自组织结构输出层;norm2,局部响应归一化;hand1,根据中间结果人为增加网络扰动;conv3,实现卷积以及整流线性激活;pool3,最大池;re,递归改变的残差计算;local3,基于修正线性激活的全连接层;local4,基于修正线性激活的全连接层;以及softmax_linear,进行线性变换以输出logits。进一步地,所述卷积神经网络结构中,包括:反馈自激机制允许跨层传递信息,具体为pool3层回向hand1层传递残差信息。进一步地,所述卷积神经网络结构中,包括:re处有递归结构,具体为采用Elman网络结构,把hand1,conv3,pool3,re层作为一个隐层进行递归反馈。进一步地,所述卷积神经网络结构中,包括:re处有递归结构,具体为采用Elman网络结构,把hand1,conv3,pool3,re层作为一个隐层进行递归反馈。为实现上述目的,本专利技术实施方式还提供一种唇语学习云平台系统,包括:获取单元,用于获取唇语,所述唇语包括嘴唇舌头动作以及对应的语句;提取单元,用于将所述嘴唇舌头动作划分为图像数据以及所述语句划分为语音数据,并将所述图像数据和语音数据传输至唇语学习云平台的工作节点进行数据训练;设定主节点,用于将训练好的数据存储在唇语学习云平台设定的主节点上,形成训练数据库;搭建单元,用于搭建唇语学习云平台的分布式数据管理系统,并根据需要将训练数据库的数据组织到唇语学习云平台的其他节点上。由上可见,本专利技术实施方式提供的一种唇语学习云平台建立的方法和系统,利用了Tensorflow的唇读模型来进行语句的提取,相比于以往的针对词语的提取,有着更高的准确性。同时,搭建云平台的想法方便用户随时进行学习,也方便与其他学习的人进行交流。附图说明为了更清楚地说明本专利技术实施方式或现有技术中的技术方案,下面将对实施方式或现有技术描述中所需要使用的附图逐一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施方式提供的唇语学习云平台建立的方法的流程示意图;图2为本专利技术实施方式提供的hand1层与re层间的神经网络结构示意图。具体实施方式为使本专利技术实施方式的目的、技术方案和优点更加清楚,下面将结合本专利技术实施方式中的附图,对本专利技术实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式是本专利技术一部分实施方式,而不是全部的实施方式。基于本专利技术中的实施方式,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式,都属于本专利技术保护的范围。本专利技术实施方式基于分布式Tensorflow技术进行唇语学习云平台搭建。TensorFlow是谷歌基于DistBelief进行研发的第二代人工智能学习系统,其命名来源于本身的运行原理。Tensor(张量)意味着N维数组,Flow(流)意味着基于数据流图的计算,TensorFlow为张量从流图的一端流动到另一端计算过程。TensorFlow是将复杂的数据结构传输至人工智能神经网中进行分析和处理过程的系统。Tensorflow表达了高层次的机器学习计算,大幅简化了第一代系统,并且具备更好的灵活性和可延展性本文档来自技高网
...
一种唇语学习云平台建立的方法和系统

【技术保护点】
1.一种唇语学习云平台建立的方法,其特征在于,包括:

【技术特征摘要】
1.一种唇语学习云平台建立的方法,其特征在于,包括:获取唇语,所述唇语包括嘴唇舌头动作以及对应的语句;对所述唇语进行提取,将所述嘴唇舌头动作划分为图像数据以及所述语句划分为语音数据,并将所述图像数据和语音数据传输至唇语学习云平台进行数据训练;将训练好的数据存储在唇语学习云平台设定的主节点上,形成训练数据库;搭建唇语学习云平台的分布式数据管理系统,并根据需要将训练数据库的数据组织到唇语学习云平台的其他节点上。2.根据权利要求1所述的唇语学习云平台建立的方法,其特征在于,所述方法还包括:进行分布式系统硬件平台搭建,至少搭建两个节点,每个节点包括中央处理单元CPU和图形处理单元GPU;底层进程通信使用gRPC支持库,使用Tensorflow提供的工具,定义集群的cluster_spec数,配置多机多卡模式。3.根据权利要求2所述的唇语学习云平台建立的方法,其特征在于,对所述唇语进行提取,具体为:通过Tensorflow对所述唇语进行提取。4.根据权利要求3所述的唇语学习云平台建立的方法,其特征在于,将所述图像数据和语音数据传输至唇语学习云平台进行数据训练,形成训练数据库包括:将所述嘴唇舌头动作划分为图像数据以及所述语句划分为语音数据;将数据按照数据关联模型的划分算法,语音数据与图像数据打包成训练任务,分配到不同工作节点中;每个工作节点由CPU指派到多个GPU中,GPU每次完成训练任务后,发送训练数据给CPU,CPU计算平均训练数据,更新参数;当单节点训练任务完成后,用广播形式向唇语学习云平台内的其他节点发送数据,并等待其他节点的训练数据;所有节点完成计算任务后,由设定的Master节点存储最终的训练数据,形成训练数据库。5.根据权利要求4所述的唇语学习云平台建立的方法,其特征在于,所述唇语学习云平台的神经网络框架,选择卷积神经网络结构,选择128个卷积核,16层卷积层,其中,16层卷积层的层名称和描述定义为:init,网络初始化;conv1,实现卷积以及整流线性激活;pool1,最大池;norm1,局部响应归一化;conv2,实现卷积以及整流线性激活;pool2,最大池;som,自组织结构输入层;som2,自组织结构输出层;norm2,局部响应归一化;hand1,根据中间结果人为增加网络扰动;conv3,实现卷积以及...

【专利技术属性】
技术研发人员:高升
申请(专利权)人:上海斐讯数据通信技术有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1