本发明专利技术公开一种基于多模态对齐与多向量表征的人格检测方法,包括将语音和视频模态数据按每个epoch进行重采样;将数个样本及其文本模态数据输入模态内表征模块进行独立编码,得到语音序列、视频序列和文本序列;将语音序列、视频序列和文本序列输入模态间对齐表征模块以两两对齐交互后拼接,得到增强后的语音表征、视频表征和文本表征;将所有语音表征、所有视频表征和所有文本表征分别拼接得到语音向量、视频向量和文本向量,输入卷积神经网络转化为至少两类人格向量;将至少两类人格向量分别线性化后通过sigmoid函数映射得到至少两类人格特点的预测概率。本发明专利技术通过3个模态数据的两两交互增强模态表征,提高模型的辨别能力,得到更为精准的预测结果。
Personality detection method based on multi-modal alignment and multi vector representation
【技术实现步骤摘要】
基于多模态对齐与多向量表征的人格检测方法
本专利技术涉及数据处理领域,特别涉及一种基于多模态对齐与多向量表征的人格检测方法。
技术介绍
有人利用语音和视频两个模态的数据预测人物性格,具体而言,对原视频进行随机采样得到一定帧数的视频和语音频谱。对于每一帧,利用残差网络提取视频的特征,利用傅里叶变换提取语音频谱的MFCC特征。将每一帧的视频特征及音频的MFCC特征进行拼接,输入一个多层的双向LSTM网络对视频和音频特征进行共同编码。之后,对于每一帧编码后的向量,输入线性层,利用sigmoid函数进行回归。最后利用平均池化得到一个5维向量,分别表示五类人格的得分。有人利用语音、文本、视频三个模态的数据进行建模。具体地,对于语音,该论文直接将初始的音频信号输入神经网络,而不是利用傅里叶变换提取出来的MFCC特征。利用卷积神经网络将音频信号转化为64维的向量。对于文本,同样利用卷积神经网编码为64维的向量。对于视频,从中随机抽样出一帧的图像,将该图像输入卷积神经网络,编码为64维的向量。其中,三个模态使用的卷积神经网络结构及参数不同。最后,将三个模态的向量拼接为196维的向量,经线性变换后,对大五类分别做回归预测。这些现有技术主要考虑地是语音和视频两个模态,而忽略了其说话的具体内容,导致模型的表现能力受限。通常而言,我们仅根据说话的语音语调及表情动作无法很准确的判断说话者的情绪和性格特点。其实,个体说话的语音语调、说话内容、表情动作都能反映其人格特点。如能把说话者具体的说话内容考虑进来,尤其是其具体的用词特点,则能极大的丰富我们获得的信息,帮助我们更精准的判断其人格特点。再者,现有技术中各不同模态之间的编码都是独立的,限制了模型的表现能力。其次,现有技术对同一个样本,在训练前采样一次,整个训练过程只重复全名用本次采样后得到的少数帧的视频和音频,缺乏数据量的问题。然后,现有技术对于每个样本,只学习一个向量表征,利该向量表征进行5个回归任务,不能很好地区分5类人格。一个向量表征无法很有效全面的将该个体在5类人格里的特点都刻画出来,每一类人格用一个向量进行表示理应能更全面的刻画该个体的此类人格的特点。
技术实现思路
本专利技术的主要目的是提出一种基于多模态对齐与多向量表征的人格检测方法,旨在克服以上问题。为实现上述目的,本专利技术提出的一种基于多模态对齐与多向量表征的人格检测方法,包括如下步骤:S10将语音和视频模态数据按每个epoch进行重采样,生成数个彼此具有差异性的样本;S20将数个样本及其文本模态数据输入模态内表征模块,模态内表征模块分别对音频、视频和文本三个模态数据进行独立编码,得到语音序列、视频序列和文本序列;S30将语音序列、视频序列和文本序列输入模态间对齐表征模块,模态间对齐表征模块分别将语音序列、视频序列和文本序列两两对齐交互后拼接,得到增强后的语音表征、视频表征和文本表征;S40将所有语音表征拼接成语音向量,将所有视频表征拼接成视频向量,将所有文本表征拼接成文本向量,利用卷积神经网络分别将语音向量、视频向量和文本向量转化为至少两类人格向量;S50将至少两类人格向量分别线性化后通过sigmoid函数映射得到至少两类人格特点的预测概率。优选地,所述S20包括:模态内表征模块通过傅里叶变换提取样本中音频的梅尔频率倒谱系数和响应Fbank特征,并将其输入多层双向LSTM网络进行编码以捕获语音语调变化特征,将所捕获语音语调变化特征编码为语音序列,并将其输出;模态内表征模块通过具有残差结构的卷积神经网络对样本中视频进行编码得到视频特征的高维向量,将视频特征的高维向量输入多层的双向LSTM网络中将所学习的表情和动作变化编码为视频序列,并将其输出;模态内表征模块通过基于transformer结构的Bert模型对样本中的文本进行编码得到具备深层语义信息的文本序列。优选地,所述人格向量为5类人格向量,所述5类人格向量包括:开放人格向量,用于提取个体所具有的想象、审美、情感丰富、求异、创造、智能的特质;责任人格向量,用于提取个体所显示出的胜任、公正、条理、尽职、成就、自律、谨慎、克制的特点;外倾人格向量,用于提取个体所表现出的热情、社交、果断、活跃、冒险、乐观的特质;宜人人格向量,用于提取个体所具有的信任、利他、直率、依从、谦虚、移情的特质;神经质人格向量,用于提取个体所具有的难以平衡焦虑、敌对、压抑、自我意识、冲动、脆弱的情绪特质。优选地,所述卷积神经网络包括5组一层一维卷积,每组卷积的卷积核的大小为1。优选地,所述S50之后还包括:S60将至少两类人格向量加权平均得到综合人格向量,将综合人格向量线性化后通过sigmoid函数得到综合人格概率。优选地,所述文本模态数据根据视频字幕文本的向量表征采集,基于transformer结构的Bert模型进行编码,所述Bert模型是经过英文文本数据集预训练后具有编码语义信息的模型。优选地,所述模态间对齐表征模块采用注意力机制分别将语音序列、视频序列和文本序列两两对齐交互。优选地,所述模态间对齐表征模块利用文本转语音text2audio的注意力将文本序列向语音序列对齐,以增强语音表征;利用语音转视频audio2video的注意力将语音序列向视频序列对齐,以增强视频表征。优选地,所述S10中将语音和视频模态数据按每个epoch同步进行重采样。优选地,所述卷积神经网络包括5组一层一维卷积,每组卷积的卷积核的大小为1;所述将所捕获语音语调变化特征编码为语音序列的方法为:将每一帧语音语调变化特征编码为一个语音高维向量作为语音序列输出;所述多层的双向LSTM网络将所学习的表情和动作变化编码为视频序列的方法为:多层的双向LSTM网络学习第一帧图片中表情和动作变化并将之转化为图片特征及将图片特征编码为一个图片高维向量输出。优选地,所述多层双向LSTM网络是使用大规模的音频数据集训练后的具有提取音频特征的多层双向LSTM网络;所述卷积神经网络是在ImageNet任务上预训练后的具有提取图片特征的卷积神经网络。本专利技术利用在不同的训练epoch,都对样本的语音及视频模态进行一次采样;模态间的相互注意力进行对齐,加强各个模态的表征,在模态融合模块,本专利技术将每个个体映射为至少两类人格向量表征,分别对应该个体在至少两类人格特点的得分。本专利技术主要有以下三个优点:1、充分利用数据,利用重采样达到数据增强的效果,提高模型的鲁棒性。对于每个个体,本专利技术在每个epoch开始前都对其语音及视频模态进行采样,使得对于每个个体,不同epoch的训练样本有细微差异。这样能充分利用视频及音频的每一帧数据。而现有技术只在训练前进行一次采样,整个训练过程只使用此次采样的结果,因而没有充分利用数据。2、本专利技术利用注意力机制,对不同模态进行充分的交互,极大的强化了各个模态的表征能力。利用模态间的相互交互与对齐增进各个模态间的表征,提高模型的表现能本文档来自技高网...
【技术保护点】
1.一种基于多模态对齐与多向量表征的人格检测方法,其特征在于,包括如下步骤:/nS10将语音和视频模态数据按每个epoch进行重采样,生成数个彼此具有差异性的样本;/nS20将数个样本及其文本模态数据输入模态内表征模块进行独立编码,得到语音序列、视频序列和文本序列;/nS30将语音序列、视频序列和文本序列输入模态间对齐表征模块,模态间对齐表征模块分别将语音序列、视频序列和文本序列两两对齐交互后拼接,得到增强后的语音表征、视频表征和文本表征;/nS40将所有语音表征拼接成语音向量,将所有视频表征拼接成视频向量,将所有文本表征拼接成文本向量,利用卷积神经网络分别将语音向量、视频向量和文本向量转化为至少两类人格向量;/nS50将至少两类人格向量分别线性化后通过sigmoid函数映射得到至少两类人格特点的预测概率。/n
【技术特征摘要】
1.一种基于多模态对齐与多向量表征的人格检测方法,其特征在于,包括如下步骤:
S10将语音和视频模态数据按每个epoch进行重采样,生成数个彼此具有差异性的样本;
S20将数个样本及其文本模态数据输入模态内表征模块进行独立编码,得到语音序列、视频序列和文本序列;
S30将语音序列、视频序列和文本序列输入模态间对齐表征模块,模态间对齐表征模块分别将语音序列、视频序列和文本序列两两对齐交互后拼接,得到增强后的语音表征、视频表征和文本表征;
S40将所有语音表征拼接成语音向量,将所有视频表征拼接成视频向量,将所有文本表征拼接成文本向量,利用卷积神经网络分别将语音向量、视频向量和文本向量转化为至少两类人格向量;
S50将至少两类人格向量分别线性化后通过sigmoid函数映射得到至少两类人格特点的预测概率。
2.如权利要求1所述的基于多模态对齐与多向量表征的人格检测方法,其特征在于,所述S20包括:
模态内表征模块通过傅里叶变换提取样本中音频的梅尔频率倒谱系数和响应Fbank特征,并将其输入多层双向LSTM网络进行编码以捕获语音语调变化特征,将所捕获语音语调变化特征编码为语音序列,并将其输出;
模态内表征模块通过具有残差结构的卷积神经网络对样本中视频进行编码得到视频特征的高维向量,将视频特征的高维向量输入多层的双向LSTM网络中将所学习的表情和动作变化编码为视频序列,并将其输出;
模态内表征模块通过基于transformer结构的Bert模型对样本中的文本进行编码得到具备深层语义信息的文本序列。
3.如权利要求1所述的基于多模态对齐与多向量表征的人格检测方法,其特征在于,所述人格向量为5类人格向量,所述5类人格向量包括:
开放人格向量,用于提取个体所具有的想象、审美、情感丰富、求异、创造、智能的特质;
责任人格向量,用于提取个体所显示出的胜任、公正、条理、尽职、成就、自律、谨慎、克制的特点;
外倾人格向量,用于提取个体所表现出的热情、社交、果断、活跃、冒险、乐观的特质;
宜人人格向量,用于提取个体所具有的信任、利他、直率、依从、谦虚、移情的特质;
神经质人格向量,用于提取个体所具有的难以平衡焦虑、敌...
【专利技术属性】
技术研发人员:陈承勃,权小军,
申请(专利权)人:中山大学,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。