一种用于智能面试的行为礼仪维度评价方法及装置制造方法及图纸

技术编号:28492350 阅读:9 留言:0更新日期:2021-05-19 22:18
一种用于智能面试的行为礼仪维度评价方法及装置,获取面试视频的视频帧及音频数据,通过函数计算部署的多个深度学习模块并行地进行特征抽取,获取低层视觉特征和低层语言特征;再利用先验知识从低层特征中抽取出面试者的姿态稳定度、手势表达、目光专注度、礼貌用语等高层语义特征;同时对视觉特征和回答文本分别进行时序分析,获得视频和回答的时序特征,高层语义特征及时序特征组成面试视频的多模态层次式特征。最后将多模态层次式特征输入全连接神经网络,得到行为礼仪等级分类器,用于面试的自动化智能评价。本发明专利技术能够高效地为面试官提供相对客观的面试者行为礼仪维度评价,提高面试效率。提高面试效率。提高面试效率。

【技术实现步骤摘要】
一种用于智能面试的行为礼仪维度评价方法及装置


[0001]本专利技术属于数据分析
,涉及对图像、音频的特征提取和分析,用于对人物进行特征画像提取和建模分析,为一种用于智能面试的行为礼仪维度评价方法及装置。

技术介绍

[0002]传统主流的面试方式是面试官和面试者在同一时空内面对面交流的现场面试。但是由于时间和距离的限制颇多,出现了通过电话去进行远程面试,但面试官和面试者无法看到对方的脸,这不仅影响双方的面试体验,还存在着难以进行信息记录和快速有效传递内容等困扰。在互联网的飞速发展下,慢慢衍生出了数字化面试,这很好地解决了以上问题,但是在极具多样性和复杂性的市场需求中,大量依赖人力的人工面试效率低下,且易受到面试官主观因素的干扰。
[0003]一般的视频面试由企业根据自身招人需求定制化自己的面试问题,面试者通过远程面试软件等方式回答问题。代表产品有视频面试软件HireVue,面试软件系统会对答案进行粗略分析,同时企业也会对面试信息进行人工审核,从而综合判断面试者是否通过面试。虽然这样的视频面试打破了时空的限制,提高了面试效率,但是这种面试过程中不仅仍然需要大量的人工参与,只是部分工作的自动化,且人工审核时带有极大的主观性,不能保证对面试者给出客观评价,尤其是在对面试者的行为礼仪这类人物行为特征的识别上,往往由于面试官的经验、观察不足,或者面试者采取的一些技巧等因素,导致面试官对面试者的行为特征评估带有随机性,难以客观准确地全面评估面试者的行为礼仪能力。

技术实现思路

[0004]本专利技术要解决的问题是:现有的线上视频面试中需要大量人力对面试者评估筛选,效率不高,同时对于面试中的任务行为特征的判断,易受到面试官主观因素的影响,难以准确评估面试者行为礼仪能力;需要一种能够快速自动全面观察面试者行为特征并对行为进行客观评估的方案。
[0005]本专利技术的技术方案为:一种用于智能面试的行为礼仪维度评价方法,获得面试视频的视频帧及音频数据,
[0006]首先进行多模态低层特征抽取:基于函数计算部署配置多个深度学习模块,并行地对视频帧基于深度学习进行视频图像特征提取,获取面试者的身体姿态特征、手部姿态特征和目光视线特征,同时对音频数据获取语言表达信息,包括回答文本、用词、语速、语调和音量;
[0007]利用先验知识从多模态低层特征中抽取高层语义特征,高层语义特征包括面试者的姿态稳定度、手势表达、目光专注度和礼貌用语;同时对视频图像特征和回答文本进行时序分析,获得面试者的视频时序特征和回答时序特征,高层语义特征和时序特征组成面试视频的多模态层次式特征;
[0008]利用多模态层次式特征训练神经网络拟合模型,得到行为礼仪等级分类器,训练
好的神经网络拟合模型用于对新的面试视频进行行为礼仪维度评价。
[0009]本专利技术还提供一种用于智能面试的行为礼仪维度评价装置,配置有数据处理模块,数据处理模块的输入为面试者面试视频,输出为行为礼仪维度评价信息,输出为行为礼仪维度评价信息,数据处理模块中配置有神经网络拟合模型,神经网络拟合模型由上述方法训练得到,并执行所述评价方法。
[0010]本专利技术针对在线AI面试的实际应用场景,研究了对面试者行为礼仪的智能化自动化检测和计算的技术。本专利技术灵活的组合使用了多种深度学习算法技术,成功解决了在线面试中对面试者行为礼仪自动评测的实际问题,一方面结合了视觉信息和音频信息,提供了多模态的准确高效的评价能力,能够以相对实时的速度准确检测和计算面试者在面试视频中的表现;另一方面又充分发挥了面试领域的先验知识,相比纯粹的机器学习特征提取,我们添加了由面试领域的经验知识得到的高层语义特征加权计算方案,提高了算法模型的可解释性,更能适应实际面试中的打分场景,且拥有优异的表现。由于采用了轻量级的深度学习算法模型,并且使用了函数计算方式部署模型,使整个系统能够快速并行计算大量数据,实现了快速并准确的行为礼仪评价功能。
[0011]本专利技术的有益效果是:提出了一种用于智能面试的行为礼仪维度评价方法及装置,通过自动化流程和深度学习技术,对面试视频提取多模态、层次式特征来产生对面试者行为礼仪的综合评价。第一,现有的智能评价方法大多仅依赖底层感知特征,本专利技术所提出的层次式特征综合了底层感知特征和高层认知特征,能够为面试者行为礼仪形成更加完整的表征;第二,现有智能评价方法大多仅依赖与对静态视频帧的分析,本专利技术利用LSTM网络进一步抽取时序特征,以此捕捉面试者在面试过程中的动态行为信息;第三,现有智能评价方法大多仅利用图像或语音一种模态的信息进行分析,本专利技术通过对图像、音频双通道特征提取,产生多模态特征表示,使其能够具备理解多源信息的能力;第四,现有智能评价方法大多仅使用单个深度学习模型进行特征提取,本专利技术使用分布式函数计算服务搭建系统,使本专利技术能够使用多个深度学习模型进行多种特征提取,使系统具备良好的性能和可扩展性。本专利技术实现的基于层次式特征提取、多模态特征融合的行为礼仪评价方法能够捕捉到面试者更全面的信息,有助于产生更加客观的评价供面试官进行进一步判断,有效降低面试的时间成本,减少主观因素对面试的影响,同时提升了评估效率和质量,具有良好的实用性。
附图说明
[0012]图1为本专利技术的实施流程图。
[0013]图2为本专利技术的视频时序特征训练的结构图。
[0014]图3为本专利技术的回答文本时序特征训练的结构图。
[0015]图4为本专利技术的最终评分分类神经网络结构图。
具体实施方式
[0016]本专利技术提出了一种用于智能面试的行为礼仪维度评价方法,如图1所示。通过线上面试收集面试者的面试视频,从中抽取数帧获取图像数据组,同时抽取音频数据,一般面试视频要求正对摄像头,不要求全身,部分面试视频,例如要求表演舞蹈等可不正向面对摄像
头,由面试需求而定。首先进行多模态低层特征抽取,将图像输入分布式部署在函数计算上的各个基于深度学习的图像特征抽取模块,获取面试者的低层视觉相关特征;同时将音频数据输入基于自然语言处理技术的音频处理模块,获取面试者在面试过程中的语言表达方面的低层信息。在得到低层特征后,进行多模态层次式特征提取,通过先验知识计算出面试者的高层语义特征,同时对视频特征和回答文本进行时序分析,获得面试者的视频时序特征和回答文本时序特征。最后训练神经网络模型对多模态时序特征、高层语义特征进行拟合,自动分析获得该面试者的行为礼仪总体评价。
[0017]下面结合本专利技术实施例及附图,对本专利技术实例中的技术方案进行清楚、完整地描述,所描述的实例仅仅是本专利技术的一部分实例,而不是全部的实例。基于本专利技术的实例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实例,都属于本专利技术的保护范围。
[0018]本专利技术的具体实施包括以下步骤:
[0019]1.将视频预处理得到图像和音频数据。对输入的视频进行抽帧,每k帧抽取一帧得到视频帧的图像数据组,本实施例从视频里每10帧中取最后一帧,直到抽完视频所有帧;音频数据的处理方法本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于智能面试的行为礼仪维度评价方法,其特征是获得面试视频的视频帧及音频数据,首先进行多模态低层特征抽取:基于函数计算部署配置多个深度学习模块,并行地对视频帧基于深度学习进行视频图像特征提取,获取面试者的身体姿态特征、手部姿态特征和目光视线特征,同时对音频数据获取语言表达信息,包括回答文本、用词、语速、语调和音量;利用先验知识从多模态低层特征中抽取高层语义特征,高层语义特征包括面试者的姿态稳定度、手势表达、目光专注度和礼貌用语;同时对视频图像特征和回答文本进行时序分析,获得面试者的视频时序特征和回答时序特征,高层语义特征和时序特征组成面试视频的多模态层次式特征;利用多模态层次式特征训练神经网络拟合模型,得到行为礼仪等级分类器,训练好的神经网络拟合模型用于对新的面试视频进行行为礼仪维度评价。2.根据权利要求1所述的一种用于智能面试的行为礼仪维度评价方法,其特征是对面试视频每k帧抽取一帧得到视频帧的图像数据组,对图像数据组并行提取视频图像特征:1)通过人体关键点检测技术检测人体关键点,获得面试者身体动作,得到身体姿态特征;2)通过手部检测技术获得面试者手部位置框和手腕位置信息,得到手部姿态特征;3)通过视线检测技术检测面试者的双眼视线俯仰角和偏航角,得到目光视线特征。3.根据权利要求1所述的一种用于智能面试的行为礼仪维度评价方法,其特征是对音频数据的处理为:通过语音识别技术获得面试者的回答文本,基于自然语言处理分析,得到回答文本特征,包括停顿时间、停顿次数、思考时间、回答时间、停顿比值、回答文本及长度、语速、各类词语各自的频次、词汇量和音量信息。4.根据权利要求1所述的一种用于智能面试的行为礼仪维度评价方法,其特征是高层语义特征的获取为:1)姿态稳定度:由面试者身体姿态特征中的身体的姿态和动作的特征进行统计分析而得;2)手势表达:由面试者手部姿态特征中的手部、手腕位置进行统计分析而得;3)目光专注度:由面试者目光视线特征中的双眼视线俯仰角和偏航角特征进行统计分析而得;4)礼貌用语:由面试者语言表达信息中的问候语和感谢词的次数数据拟合而得。5.根据权利要求4所述的一种用于智能面试的行为礼仪维度评价方法,其特征是高层语义特征具体为:1)姿态稳定度为一个浮点数,根据所抽取的帧中相邻两帧的人物左肩和右肩移动距离是否出现晃动现象,对晃动次数做非线性归一化计算得到姿态稳定度;晃动判定:左右肩分别计算晃动情况,计算公式为:dist
h
=sqrt[(x
i

x
i
‑1)^2+(y
i

y
i
‑1)^2]若某一帧至少其中一肩的晃动值dist
h
大于设定阈值,则判定为出现晃动现象,统计所有帧的晃动次数,进行非线性归一化,公式如下:
其中x
i
,y
i
是抽取...

【专利技术属性】
技术研发人员:江辉
申请(专利权)人:南京智能情资创新科技研究院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1