【技术实现步骤摘要】
一种将短文本分类应用于视频中的状态判断方法
本专利技术涉及状态判断方法,尤其涉及一种将短文本分类应用于视频中的状态判断方法。
技术介绍
目前,用人单位与求职者大多是通过现场或者视频会议的方式进行面试。在面试对话系统的技术方面,文本分类方法经过长期的研究在很多场景下已经得到了应用;短文本分析是自然语言处理领域的一项基础任务,能够有效帮助用户从海量的短文本资源中发掘有用的信息;但是短文本分类问题起步较晚,且一直也没有什么通用的,效果良好的方法,短文本分类的重点在特征处理环节和分类算法上面。现有面试对话系统的问题及缺陷如下:面试效率:现场面试需要用人单位和求职者同时有足够的时间才能够完成,占用彼此的时间。视频面试虽然可以足不出户利用连通了互联网的电脑,通过视频摄像头和耳麦进语音、视频、文字的方式进行即时沟通交流,但还是需要约定好同一时间,浪费人力和时间。面试效果:不同的面试官,对问题会有不同的评价,同一面试官,因为不同的职场经验、面试技能和面试现场的认知状态下也会有不同的判断。另外虽然从国际人力资源以及人才管理领域引入的competency(国内翻译为胜任力、素质、能力)的概念,但从不同的翻译与缺乏知识系统的应用来看,产生非常多的不同的评估标准自然在所难免,最终导致评估效果的不确定性以及不利于持续的科学研究。目前流行的文本分类方法主要存在以下四个问题:一、由于短文本提供的词语少,提供的有效信息有限,以及关键词出现在不同的上下文环境中表达不同的语义,即短文本在进行语义特征向量表示时存在数据稀疏性和语义敏感性问题。二、基于主题模型的短文本信息扩展技术,能在一定程度上 ...
【技术保护点】
1.一种将短文本分类应用于视频中的状态判断方法,其特征在于,包括以下步骤:S1、对视频过程中的原始文本进行包括分词、去除停用在内的预处理;S2、对预处理后的文本进行向量化,将原始文本中的短文本转化形成一个映射矩阵;对映射矩阵与权值为1的核矩阵进行一维卷积运算,得到文本中潜在的多尺度的候选语义单元;S3、找出每个候选语义单元最近邻词表示,计算候选语义单元和向量空间中所有词表示向量的欧式距离,确定满足欧式距离预设阈值条件的最近邻词表示,基于最近邻词表示构建语义拓展矩阵;S4、用多个不同宽度、包含不同权值的核矩阵分别对短文本的映射矩阵和语义扩展矩阵进行二维卷积运算,提取局部卷积特征,并生成多层局部卷积特征矩阵;S5、对多层局部卷积特征矩阵进行下采样,得到短文本的全局特征矩阵;将全局特征矩阵进行非线性正切变换,并转换为语义特征向量;S6、将短文本的语义特征向量赋予分类器,对短文本的类别进行预测。
【技术特征摘要】
1.一种将短文本分类应用于视频中的状态判断方法,其特征在于,包括以下步骤:S1、对视频过程中的原始文本进行包括分词、去除停用在内的预处理;S2、对预处理后的文本进行向量化,将原始文本中的短文本转化形成一个映射矩阵;对映射矩阵与权值为1的核矩阵进行一维卷积运算,得到文本中潜在的多尺度的候选语义单元;S3、找出每个候选语义单元最近邻词表示,计算候选语义单元和向量空间中所有词表示向量的欧式距离,确定满足欧式距离预设阈值条件的最近邻词表示,基于最近邻词表示构建语义拓展矩阵;S4、用多个不同宽度、包含不同权值的核矩阵分别对短文本的映射矩阵和语义扩展矩阵进行二维卷积运算,提取局部卷积特征,并生成多层局部卷积特征矩阵;S5、对多层局部卷积特征矩阵进行下采样,得到短文本的全局特征矩阵;将全局特征矩阵进行非线性正切变换,并转换为语义特征向量;S6、将短文本的语义特征向量赋予分类器,对短文本的类别进行预测。2.根据权利要求1所述的将短文本分类应用于视频中的状态判断方法,其特征在于,步骤S2包括以下内容:词向量训练:将分好词的语料文本word2vec来训练,在训练过程中生成一组向量,将每个词映射到一个n维词向量;文本预处理:利用训练好的词向量模型将待训练样本转化为以词向量为元素的序列表示,构建映射矩阵PM,用于后续神经网络的训练;利用短文本对应的映射矩阵PM,对所述短文本中的候选语义单元进行检测;候选语义单元Si的一维卷积运算的具体计算公式为:其中,Ewin是采用的核矩阵,所有核矩阵Ewin中的所有权值为1,Si是短文本中存在的第i个候选的语义单元,1≤i≤l-m+1,l-m+1为候选语义单元的数量,l是短文本的长度,m是所述核矩阵的宽度;候选语义单元Si的计算公式为:其中,PMwin,i是核矩阵Ewin在短文本的映射矩阵PM上第i次滑动时所覆盖的子矩阵,是所述子矩阵PMwin,i的第j列,j=1,2...,|PMwin,i|;由于卷积核矩阵Ewin的尺度可以调整,因此随着m值的变化,可以检测到多尺度的候选语义单元。3.根据权利要求2所述的将短文本分类应用于视频中的状态判断方法,其特征在于:在步骤S2中,组成映射矩阵采用的是word2vec中的skip-gram模型,将状态判断模块数据集表示为50维的词向量形式;转化为词向量形式后将每一句话转化为一个矩阵的形式。4.根据权利要求2所述的将短文本分类应用于视频中的状态判断方法,其特征在于,步骤S3包括:利用所述候选语义单元Si和词表LT,为所述短文本构建语义扩展矩阵EM,作为对所述短文本的信息补充。5.根据权利要求4所述的将短文本分类应用于视频中的状态判断方法,其特征在于,步骤S3具体包括:对短文本进行语义扩展的具体操作为:在卷积神经网络的第二层,计算每一个候选语义单元与向量空间中所有词的语义向量表示或称词表示向量的欧式距离,并找出每个候选语义单元的最近邻词表示,选出所有满足欧式距离预设阈值条件的最近邻词表示,构建语义扩展矩阵,作为所述短文本的扩展信息;所述候选语义单元与其最近邻词表示向量之间的欧式距离小于所述预设阈值,候选语义单元为有效语义单元,则将有效语义单元的最近邻词表示用于构建语义扩展矩阵;所述候选语义单元与其最近邻词表示向量之间的欧式距离不小于所述预...
【专利技术属性】
技术研发人员:刘志伟,方小雷,
申请(专利权)人:南京葡萄诚信息科技有限公司,
类型:发明
国别省市:江苏,32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。