System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及多模态数据处理领域,更具体地说,本专利技术涉及基于声纹的动画角色智能同步用户方法。
技术介绍
1、随着人机交互技术的发展,越来越多的应用开始采用虚拟角色或动画角色作为用户界面的一部分。这种趋势不仅为用户带来更加生动、有趣的界面体验,还为人机交互带来全新的可能性和挑战。通过虚拟动画角色的运用赋予应用更加生动的外观和更具个性的交互形式,提供更加直观、亲切的体验。
2、当前的动画角色智能同步用户方法缺少对用户声音的个性化识别,无法模仿用户的语言特征,不能通过用户语言与动画角色进行更直接的互动,无法完善用户的参与感和沟通体验。
技术实现思路
1、本专利技术针对现有技术中存在的技术问题,提供基于声纹的动画角色智能同步用户方法,以解决上述
技术介绍
中提出的问题。
2、本专利技术解决上述技术问题的技术方案如下:基于声纹的动画角色智能同步用户方法,包括以下步骤:
3、s101.利用高清摄像头采集用户形象数据,并对用户形象数据进行缩放、像素点位置的匹配和填充,通过直方图均衡化增强图像对比度,利用高斯滤波加权对用户形象数据存在噪声进行去除;
4、s102.构建卷积神经网络并通过输入层接收用户形象数据,输出用户形象面部关键点的特征映射到不同的用户形象类别,基于动画的主色调和角色形象,输出最终的用户虚拟形象;
5、s103.利用麦克风采集用户声纹数据并划分成多个短时段的窗口,利用汉明窗对每一帧的用户声纹数据的声音信号进行加窗处理,通过
6、s104.将用户虚拟形象和用户声纹转换的动画语音作为输入序列,构建transformer编码器并添加自注意力机制和前馈神经网络,将用户虚拟形象和用户声纹转换的动画语音进行同步并自动替换。
7、在一个优选地实施方式中,所述s101中,利用高清摄像头采集用户形象数据,固定用户形象数据的缩放目标的尺寸为224x224,遍历缩放目标中每个像素点的位置,并寻找缩放目标中每个像素点对应用户形象数据中最近的像素点位置并进行赋值填充,重复遍历、寻找以及赋值填充步骤,直至遍历完整缩放目标,利用直方图均衡化通过重新分布用户形象数据的缩放目标的像素灰度值,标注用户形象面部关键点的位置坐标。
8、进一步地,利用高斯滤波加权对用户形象数据存在噪声进行去除,其具体公式为:
9、
10、其中of表示高斯滤波加权后的去噪结果,oi表示用户形象数据中第i个像素点的邻域点值,di表示用户形象数据中第i个像素点的邻域点到当前点的距离,σ表示高斯分布的标准差。
11、在一个优选地实施方式中,所述s102中,构建卷积神经网络并通过输入层接收用户形象数据,添加卷积层并批量激活函数层,利用relu作为激活函数层引入非线性并使用卷积核对用户形象数据进行卷积运算,所述卷积运算具体公式为:
12、
13、其中s(i,j)表示输出用户形象面部关键点的特征的一个元素,i(m,n)表示输入用户形象数据在用户形象面部关键点的位置坐标处的像素值,k(i-m,j-n)表示卷积核在用户形象面部关键点的位置坐标处的权重值,m、n分别表示卷积核内部的行和列的索引,i、j分别表示输出用户形象面部关键点的特征的行和列的索引,通过池化层对卷积层输出的用户形象面部关键点的特征进行下采样操作,重复迭代第一次卷积和池化操作,通过全连接层将池化层的用户形象面部关键点的特征展平为一维向量,并输入至全连接层中,利用全连接层通过权重矩阵将输出用户形象面部关键点的特征映射到不同的用户形象类别上,并基于动画的主色调和角色形象,输出最终的用户虚拟形象。
14、在一个优选地实施方式中,所述s103中,利用麦克风采集用户声纹数据,将用户声纹数据划分成多个短时段的窗口,利用汉明窗对每一帧的用户声纹数据的声音信号进行加窗处理,利用傅里叶变换对每个窗口的声音信号进行频谱表示,所述傅里叶变换公式为:
15、
16、其中,q[k]表示傅里叶变换中的频率为k的频谱分量,q[m]表示窗口内时间为m的采样值,n表示用户声纹数据的声音信号的长度,m表示用户声纹数据的声音信号的采样点索引,u表示虚数单位,通过最小化用户声纹数据的声音信号的频谱表示之间的差异学习将用户声纹转换为动画语音。
17、进一步地,创建生成器网络将随机噪声映射与用户声纹特征相匹配的声音特征,利用反卷积层设计生成器网络结构,通过多层神经网络结构学习调整特征参数,创建判别器网络并输入目标声音特征,区分生成器生成的声音特征和真实的用户声纹特征,利用对坑损失驱使生成器生成逼真的声音特征,并利用判别器帮助生成器学习。
18、在一个优选地实施方式中,所述s104中,将用户虚拟形象和用户声纹转换的动画语音作为输入序列并构建transformer编码器,在transformer编码器结构中每个编码层添加自注意力机制和前馈神经网络,将输入序列分别经过三个全连接层获取查询、键、值的向量表示,并通过权重矩阵分割成多个头,用于利用不同子空间计算注意力,将多头自注意力结果进行加权获取自注意力机制的输出并残差连接,利用前馈神经网络的非线性变换输出用户虚拟形象和用户声纹转换的动画语音的相关性,将用户虚拟形象和用户声纹转换的动画语音进行同步并自动替换。
19、本专利技术的有益效果是:通过缩放、像素点位置的匹配和填充,使用户形象数据在固定尺寸下保持清晰,并且细节丰富,通过直方图均衡化能够重新分布像素灰度值,提高图像的对比度,使得细节更加清晰,利用高斯滤波加权对用户形象数据中存在的噪声进行去除,使图像更加干净和清晰,减少干扰,通过relu作为激活函数引入非线性,有助于捕获用户形象数据中的复杂特征,同时通过多次卷积和池化操作,能够逐步提取用户形象数据的高级特征,有助于更好地表征用户的面部特征,通过将声纹数据划分成多个短时段的窗口,并对每一帧的声音信号应用汉明窗进行加窗处理,有助于减小帧两端的振幅跳变并避免频谱泄露,提高声音信号的稳定性和准确性,通过最小化用户声纹数据的声音信号的频谱表示之间的差异学习,为用户提供更加个性化和沉浸式的交互体验。
本文档来自技高网...【技术保护点】
1.基于声纹的动画角色智能同步用户方法,其特征在于,具体包括以下步骤:
2.根据权利要求1所述的基于声纹的动画角色智能同步用户方法,其特征在于:所述S101中,遍历缩放目标中每个像素点的位置,并寻找缩放目标中每个像素点对应用户形象数据中最近的像素点位置并进行赋值填充,重复遍历、寻找以及赋值填充步骤,直至遍历完整缩放目标。
3.根据权利要求1所述的基于声纹的动画角色智能同步用户方法,其特征在于:所述S101中,利用直方图均衡化通过重新分布用户形象数据的缩放目标的像素灰度值,标注用户形象面部关键点的位置坐标,利用高斯滤波加权对用户形象数据存在噪声进行去除。
4.根据权利要求3所述的基于声纹的动画角色智能同步用户方法,其特征在于:高斯滤波加权的具体公式为:
5.根据权利要求1所述的基于声纹的动画角色智能同步用户方法,其特征在于:所述S102中,构建卷积神经网络并通过输入层接收用户形象数据,添加卷积层并批量激活函数层,使用卷积核对用户形象数据进行卷积运算,通过池化层对卷积层输出的用户形象面部关键点的特征进行下采样操作,重复迭代第一次卷积和池
6.根据权利要求5所述的基于声纹的动画角色智能同步用户方法,其特征在于:所述卷积运算具体公式为:
7.根据权利要求1所述的基于声纹的动画角色智能同步用户方法,其特征在于:所述S103中,利用麦克风采集用户声纹数据,将用户声纹数据划分成多个短时段的窗口,利用汉明窗对每一帧的用户声纹数据的声音信号进行加窗处理,利用傅里叶变换对每个窗口的声音信号进行频谱表示,通过最小化用户声纹数据的声音信号的频谱表示之间的差异学习将用户声纹转换为动画语音。
8.根据权利要求7所述的基于声纹的动画角色智能同步用户方法,其特征在于:所述傅里叶变换公式为:
9.根据权利要求1所述的基于声纹的动画角色智能同步用户方法,其特征在于:所述S104中,在Transformer编码器结构中每个编码层添加自注意力机制和前馈神经网络,将输入序列分别经过三个全连接层获取查询、键、值的向量表示,并通过权重矩阵分割成多个头,将多头自注意力结果进行加权获取自注意力机制的输出并残差连接,利用前馈神经网络的非线性变换输出用户虚拟形象和用户声纹转换的动画语音的相关性,将用户虚拟形象和用户声纹转换的动画语音进行同步并自动替换。
...【技术特征摘要】
1.基于声纹的动画角色智能同步用户方法,其特征在于,具体包括以下步骤:
2.根据权利要求1所述的基于声纹的动画角色智能同步用户方法,其特征在于:所述s101中,遍历缩放目标中每个像素点的位置,并寻找缩放目标中每个像素点对应用户形象数据中最近的像素点位置并进行赋值填充,重复遍历、寻找以及赋值填充步骤,直至遍历完整缩放目标。
3.根据权利要求1所述的基于声纹的动画角色智能同步用户方法,其特征在于:所述s101中,利用直方图均衡化通过重新分布用户形象数据的缩放目标的像素灰度值,标注用户形象面部关键点的位置坐标,利用高斯滤波加权对用户形象数据存在噪声进行去除。
4.根据权利要求3所述的基于声纹的动画角色智能同步用户方法,其特征在于:高斯滤波加权的具体公式为:
5.根据权利要求1所述的基于声纹的动画角色智能同步用户方法,其特征在于:所述s102中,构建卷积神经网络并通过输入层接收用户形象数据,添加卷积层并批量激活函数层,使用卷积核对用户形象数据进行卷积运算,通过池化层对卷积层输出的用户形象面部关键点的特征进行下采样操作,重复迭代第一次卷积和池化操作,通过全连接层将池化层的用户形象面部关键点的特征展平为一维向量,并输入至全连接层中,利用全连接层通过...
【专利技术属性】
技术研发人员:田学崇,
申请(专利权)人:北京优趣时光文化科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。