【技术实现步骤摘要】
基于卷积神经网络和长期短期记忆网络的辅助发声方法及系统
[0001]本申请涉及神经网络
,具体涉及一种基于卷积神经网络和长期短期记忆网络的辅助发声方法及系统。
技术介绍
[0002]发声障碍是指说话时字音重复或词句中断的现象。发音器官可能出现抽搐性运动与各组肌肉的痉挛。言语是由横隔膜的呼吸筋造成声音带和构成言语的舌、唇、口盖等共同的正常活动下所产生的,当这些差不多全部发生痉挛失去了自由活动时,便形成了发音不清,如何辅助发声障碍人士进行发声和语义传达是一个很有价值的问题。由于人类发声过程涉及气管、声带和喉头等多个器官协同工作,仅仅通过生理声学和病理学原理对发声过程进行解析和翻译是相对一件困难的任务。
[0003]然而,由于在发声过程中的相关器官的作用,人类面部以及喉部和颈部都会有相应的机械运动,因此可以通过建立发声语义和发声过程的人物面部、喉部和颈部的机械动作表现的外部特征之间的关系,构造相关发声预测模型,并对该模型的最优解进行探索和研究。当最佳模型建立好后,就可以使用该模型对发声障碍人士的语义表达进行预测了。< ...
【技术保护点】
【技术特征摘要】
1.基于卷积神经网络和长期短期记忆网络的辅助发声方法,其特征在于,包括:通过LSTM、CNN、FCN三部分神经网络构建预测模型框架;收集发声动作视频,并对所述发声动作视频进行取帧;将取帧处理后的部分数据文件用于所述预测模型框架的参数调整,导出预测模型;所述预测模型输入面部动作,输出该面部动作的语义信息。2.如权利要求1所述的基于卷积神经网络和长期短期记忆网络的辅助发声方法,其特征在于,所述通过LSTM、CNN、FCN三部分神经网络构建预测模型框架的步骤,该方法步骤具体包括;通过两层所述LSTM网络和一个所述CNN网络用于处理发声动作视频数据,具体的所述LSTM层用于处理时间序列类型的视频流数据,所述CNN层用于学习视频每一帧的画面空间局部特征,并进行特征压缩和提取;所述FCN部分用于输出网络对语义类别的预测。3.如权利要求2所述的基于卷积神经网络和长期短期记忆网络的辅助发声方法,其特征在于,所述将取帧处理后的部分数据文件用于所述预测模型框架的参数调整的步骤,该方法步骤具体包括:对所述预测模型进行前向传播,所述前向传播是神经网络对数据的预测过程,所述前向传播用于得到损失值;对所述预测模型进行反向传播,所述反向传播是计算损失函数对神经网络这个函数中的不同层中参数的偏导数的过程,所述反向传播用于通过损失函数的值进行参数调整。4.如权利要求3所述的基于卷积神经网络和长期短期记忆网络的辅助发声方法,其特征在于,所述收集发声动作视频,并对所述发声动作视频进行取帧的步骤,该方法步骤具体包括:指定发声正常人物对相关语料进行朗读,同时使用摄像设备对该过程进行视频采集;对视频数据进行清洗,即对视频数据中异常和信息有误的视频进行过滤和筛选;通过Open
‑
CV库对视频数据按一定比例进行取帧处理,形成Numpy二进制文件。5.如权利要求4所述的基于卷积神经网络和长期短期记忆网络的辅助发声方法,其特征在于,所述形成Numpy二进制文件的步骤之后,该方法步骤还包括:所述Numpy二进制文件形成数据集,并按照比例分为训练集、验证集和测试集;确定输入和输出数据的维度,以及训练数据量信息,进而确定建模中所述LSTM层和所述FCN层中的输入层和输出层节点数;根据画面大小确定所述CNN层中卷积核、步长和填充的大小;根据所述数据集的规模确定所述CNN中的网络层数和各层节点的数量,并调整所述CNN的层数和各层节点数;调整所述L...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。