基于虚拟2d数字人的多语种唇语数据生成方法、系统技术方案

技术编号：39181805 阅读：28 留言：0更新日期：2023-10-27 08:29

本发明专利技术公开了一种基于虚拟2d数字人的多语种唇语数据生成方法，属于唇语标注数据制作领域。包括：获取包含字、词的分词列表，每一个字、词生成一个音频文件；使用音频文件驱动不同的虚拟2d数字人模板，获取虚拟2d数字人的脸部动作视频，根据音频文件对应的文本和虚拟2d数字人模板的编号对脸部动作视频命名；截取每一个脸部动作视频中各帧的嘴部区域，得到连续嘴部动作帧构成的嘴部视频；建立文本、截取嘴部区域的外接矩形、嘴部视频的映射关系，生成多语种唇语数据。本发明专利技术可得到同一个字、词对应的多种身份的口型，且每个字、词的口型出现比例均衡，无需人工审核。无需人工审核。无需人工审核。

全部详细技术资料下载

【技术实现步骤摘要】
基于虚拟2d数字人的多语种唇语数据生成方法、系统

[0001]本专利技术属于唇语标注数据制作领域，尤其涉及一种基于虚拟2d数字人的多语种唇语数据生成方法、系统。

技术介绍

[0002]数据标注，一直是人工智能的重要组成部分。对于监督模型来说，数据标注尤为重要，高质量的数据集可以很大程度上提高深度学习模型的训练精度与泛化性，数据标注将会是未来人工智能产业链中的重要基石。
[0003]现有的唇语数据标注方法可以分为三种，第一，使用人脸检测算法截取视频中有人脸的视频片段，使用OCR技术提取字幕，或使用语音识别技术提取文字(当前的准确度仍不能令人满意，口型与文字必须准确匹配)，再通过人脸关键点检测技术提取连续的嘴部动作帧，得到嘴部动作帧及其对应的文字交人工审核。第二，由标注员根据看到的演员动画与听到的说话音频，截出视频片段，并识别出音频内容以文字保存，再通过人脸关键点检测技术提取连续嘴部动作帧，将得到的嘴部动作帧及其对应的文字交人工审核。第三，演员依照预先准备的文本，进行阅读，并通过录制设备，录下这一阅读过程，人工裁剪冗余帧...

【技术保护点】

【技术特征摘要】
1.一种基于虚拟2d数字人的多语种唇语数据生成方法，其特征在于，包括：获取包含字、词的分词列表，每一个字、词生成一个音频文件；使用音频文件驱动不同的虚拟2d数字人模板，获取虚拟2d数字人的脸部动作视频，根据音频文件对应的文本和虚拟2d数字人模板的编号对脸部动作视频命名；截取每一个脸部动作视频中各帧的嘴部区域，得到连续嘴部动作帧构成的嘴部视频；建立文本、截取嘴部区域的外接矩形、嘴部视频的映射关系，生成多语种唇语数据。2.根据权利要求1所述的一种基于虚拟2d数字人的多语种唇语数据生成方法，其特征在于，所述的获取包含字、词的分词列表，包括：收集不同领域的文本数据；对文本数据分词、去重；将分词后的每一个字、词视为一个元素，存入分词列表。3.根据权利要求1或2所述的一种基于虚拟2d数字人的多语种唇语数据生成方法，其特征在于，采用TTS语音合成系统生成分词列表中每一个字、词的音频文件。4.根据权利要求2所述的一种基于虚拟2d数字人的多语种唇语数据生成方法，其特征在于，所述的文本数据为多语种文本数据。5.根据权利要求2所述的一种基于虚拟2d数字人的多语种唇语数据生成方法，其特征在于，所述的截取每一个脸部动作视频中各帧的嘴部区域，得到连续嘴部动作帧构成的嘴部视频，包括：读取脸部动作视频，检测每一帧图像中的人脸关键点；从人脸关键点中定位嘴部关键点，构建包含嘴部关键点的外接矩形；矩形中心保持不变，适当扩大外接矩形，裁剪出嘴部区域；按帧处理脸部动作视频中的每一帧图像，得到连续嘴部动作帧构成的嘴部视频。6.根据权利要求1所述的一种基于虚拟2d数字人的多语种唇语数据生成方法，其特征在于，所述的虚拟2d数字人模板含正脸动作和侧脸...

【专利技术属性】
技术研发人员：薛弘扬，
申请(专利权)人：杭州一知智能科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人