一种基于人工智能算法移动端可用的辅助发声系统技术方案

技术编号：42305912 阅读：30 留言：0更新日期：2024-08-14 15:52

本发明专利技术公开了一种基于人工智能算法移动端可用的辅助发声系统，包括唇语识别模块和文字转语音模块；该系统将用户的唇部运动实时转换为语音输出。所述唇语识别模块利用移动设备前置摄像头捕捉用户的唇部动作，通过预处理和特征提取步骤，将图像数据转换为对应的文本信息。包括视觉前段、视觉特征提取、唇动识别、自然语言处理。通过深度学习和用户反馈，使系统能够学习并适应每个用户的唇形、语言习惯等个人特征，提供定制化的沟通体验。在大量数据上进行训练，这提高了模型的泛化能力，使其能够适应不同的说话者和环境。本发明专利技术创造不仅能够提高听力受损和语言障碍人士的生活质量，还能够推动医学辅助通讯技术的发展，使其更加普及和便捷。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及人工智能与医学发声困难能够辅助病人与外界交流的医学计算机领域，具体设计一种基于人工智能的嘴唇识别或手写发声的计算机辅助系统，实现icu病人或喉切除手术病人的沟通正常，并且做到声音与本人一致的。

技术介绍

1、专利cn108735049a公开了一种聋哑人辅助发声系统及其发声方法，模拟按键信号转换为语音信号输出而且还可以通过聋哑人辅助发声器加快聋哑人的沟通效率，实现了常速发音。但是此项专利技术存在如下问题：首先需通过外围的硬件设备进行发声，并且要求不能发声者对设备有一定的熟练度；同时发声的质量存在很大的出入，而且未考虑周·边的干扰因素，这样对于病人来说存在一定程度不可用的情况。其他国内未存在类似的专利实现此项功能。

2、本专利技术的技术研究主要考虑如下：

3、1、医院的现状；

4、目前在医院存在一种情况，对于听力受损或语言障碍者如喉切除病人、一些重症icu病人，存在沟通障碍的影响，在医学领域，有效沟通对于提供高质量的患者护理至关重要。然而，对于听力受损或语言障碍的个体，传统的沟通方式可能不可...

【技术保护点】

1.一种基于人工智能算法移动端可用的辅助发声系统，其特征在于，包括唇语识别模块和文字转语音模块；该系统将用户的唇部运动实时转换为语音输出；

2.根据权利要求1所述的一种基于人工智能算法移动端可用的辅助发声系统，其特征在于，使用公开的唇部数据集自制的唇部数据集结合yolov8网络模型进行训练；得到所需的权重文件后，加载到识别模型中，读取摄像头传入的视频文件输入到yolo模型进行唇部识别，在人脸中定位唇部并对唇部位置进行提取裁剪，得到所需的唇部图像视频；再对得到的唇部图像视频进行灰度化、归一化、尺寸调整后即可得到更为简洁的唇动视频。

3.根据权利要求1所述的一种基于人...

【技术特征摘要】

2.根据权利要求1所述的一种基于人工智能算法移动端可用的辅助发声系统，其特征在于，使用公开的唇部数据集自制的唇部数据集结合yolov8网络模型进行训练；得到所需的权重文件后，加载到识别模型中，读取摄像头传入的视频文件输入到yolo模型进行唇部识别，在人脸中定...

【专利技术属性】
技术研发人员：赵凯，周勇城，陈博，徐贵涵，奉仪，谭媛元，黄哲，蒋胜胜，严梓康，
申请(专利权)人：重庆大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人