The present invention provides a method and system for establishing a lip language learning cloud platform, including: obtaining lip language, the lip language including lip tongue movements and corresponding statements, extracting the lip language, dividing the lip tongue action into image data and dividing the statements into voice data, and using the image data. And voice data transmission to the lip learning cloud platform for data training; the trained data is stored on the main nodes set by the lip learning cloud platform to form a training database, and a distributed data management system for the lip language learning cloud platform is built, and the data of the training data base is organized to the lip learning cloud platform according to the needs. On the other nodes. The invention improves the efficiency of lip language learning and improves the development of lip language learning by improving the accuracy of the lip reading model to extract sentences. One
【技术实现步骤摘要】
一种唇语学习云平台建立的方法和系统
本专利技术实施方式涉及通讯
,尤其涉及一种唇语学习云平台建立的方法和系统。
技术介绍
唇读在人类的交流和语音理解中发挥了很关键的作用,当一个音素在一个人的说话视频中的配音是某个人说的另一个不同的音素时,听话人会感知到第三个不同的音素。在实施本专利技术的过程中,专利技术人发现现有技术至少存在如下问题:唇读对人类来说是一项众所周知的艰难任务。除了嘴唇和有时候的舌头和牙齿,大多数唇读信号都是隐晦的,难以在没有语境的情况下分辨。因此,实现唇读的自动化是一个很重要的目标。机器读唇器有很大的实用潜力,比如可以应用于改进助听器、公共空间的静音听写、秘密对话、嘈杂环境中的语音识别、生物特征识别和默片电影处理。机器唇读是很困难的,因为需要从视频中提取时空特征,比如位置和运动等特征。虽然深度学习方法试图通过端到端的方式提取这些特征。但是,所有的已有工作都只是执行单个词的分类,而非句子层面的序列预测。目前的唇语学习大多数都是通过线下人工培训,以及网上的学习软件。但是,人类语言受到了地域差异、国籍差异等影响,各个地方都有方言的存在。同时,线下的人工培训基于官方的标准语言,在各个地域的适用性远没有预想的那么高,因此,在学习时无法达到预期的效果。而网上的唇语学习软件,也都只考虑官方的标准语言,而为考虑到地方的方言。而且,对于所提取的内容,都是基于一句话中的单词而言,并没有从整个句子层面来进行预测,因此,有着很大的弊端,提取的准确率也达不到预期的要求。应该注意,上面对技术背景的介绍只是为了方便对本专利技术的技术方案进行清楚、完整的说明,并方便本 ...
【技术保护点】
1.一种唇语学习云平台建立的方法,其特征在于,包括:
【技术特征摘要】
1.一种唇语学习云平台建立的方法,其特征在于,包括:获取唇语,所述唇语包括嘴唇舌头动作以及对应的语句;对所述唇语进行提取,将所述嘴唇舌头动作划分为图像数据以及所述语句划分为语音数据,并将所述图像数据和语音数据传输至唇语学习云平台进行数据训练;将训练好的数据存储在唇语学习云平台设定的主节点上,形成训练数据库;搭建唇语学习云平台的分布式数据管理系统,并根据需要将训练数据库的数据组织到唇语学习云平台的其他节点上。2.根据权利要求1所述的唇语学习云平台建立的方法,其特征在于,所述方法还包括:进行分布式系统硬件平台搭建,至少搭建两个节点,每个节点包括中央处理单元CPU和图形处理单元GPU;底层进程通信使用gRPC支持库,使用Tensorflow提供的工具,定义集群的cluster_spec数,配置多机多卡模式。3.根据权利要求2所述的唇语学习云平台建立的方法,其特征在于,对所述唇语进行提取,具体为:通过Tensorflow对所述唇语进行提取。4.根据权利要求3所述的唇语学习云平台建立的方法,其特征在于,将所述图像数据和语音数据传输至唇语学习云平台进行数据训练,形成训练数据库包括:将所述嘴唇舌头动作划分为图像数据以及所述语句划分为语音数据;将数据按照数据关联模型的划分算法,语音数据与图像数据打包成训练任务,分配到不同工作节点中;每个工作节点由CPU指派到多个GPU中,GPU每次完成训练任务后,发送训练数据给CPU,CPU计算平均训练数据,更新参数;当单节点训练任务完成后,用广播形式向唇语学习云平台内的其他节点发送数据,并等待其他节点的训练数据;所有节点完成计算任务后,由设定的Master节点存储最终的训练数据,形成训练数据库。5.根据权利要求4所述的唇语学习云平台建立的方法,其特征在于,所述唇语学习云平台的神经网络框架,选择卷积神经网络结构,选择128个卷积核,16层卷积层,其中,16层卷积层的层名称和描述定义为:init,网络初始化;conv1,实现卷积以及整流线性激活;pool1,最大池;norm1,局部响应归一化;conv2,实现卷积以及整流线性激活;pool2,最大池;som,自组织结构输入层;som2,自组织结构输出层;norm2,局部响应归一化;hand1,根据中间结果人为增加网络扰动;conv3,实现卷积以及...
【专利技术属性】
技术研发人员:高升,
申请(专利权)人:上海斐讯数据通信技术有限公司,
类型:发明
国别省市:上海,31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。