The invention aims to provide a natural language processing method for analyzing personality traits by using the stream of consciousness of a convolutional neural network. The method uses the same architecture to train the corresponding convolution neural networks for five personality traits. Each convolution neural network is a binary classifier. The classifier can predict the corresponding features as positive or negative, corresponding to whether the character is owned or not. The word is composed of N element feature vector, then it is integrated into a sentence, and then the sentence is aggregated into a complete document. The obtained values are then combined with the semantic features of the document level, and the document representation is formed at the final classification stage. The invention realizes automatic detection of a person's personality by processing and analyzing natural language.
【技术实现步骤摘要】
一种自然语言处理方法及装置
本专利技术属于数据挖掘领域,基于心理学的五因素人格理论,针对五种人格特质使用相同的架构来分别训练相应的卷积神经网络,在过程中还用到了word2vec技术进行相应的处理。
技术介绍
个性是个体表现、情绪、动机和思维模式的综合,对生活有极大的左右能力,会影响生活选择、幸福、健康和许多其他的表现,也是一个人能否施展才能,有效完成工作的基础,个性缺陷会使其所拥有的才能和能力大打折扣。一个人个性特点的自动检测在实际应用中非常重要,通过检测可以把人的所有个性都了解清楚,以准确、全面地了解一个人的整体个性。因此亟需能够帮助实现个性检测的技术方案。
技术实现思路
本专利技术要解决的问题是基于五因素人格理论为基础提出一种自然语言处理方法及装置,通过对自然语言的处理及分析从而实现一个人个性特点的自动检测。为了达到上述目的,本专利技术采取的技术方案为:一种自然语言处理方法,包括:(1)自然语言预处理及特征提取;所述特征提取包括文档级特征提取和词级特征提取,实现词向量化、句子向量化、文档向量化;(2)使用深度卷积神经网络分类;所述神经网络基于五大人格特性建立五个单独的神经分类器,所述五个单独的神经分类器具有相同的架构。进一步的,步骤(1)所述自然语言预处理及特征提取的具体过程包括:(11)预处理:包括句子拆分、数据清理和统一;(12)文档级特征提取:使用Mairesse基线的特性值,提取全局特征,包括字数统计及句子平均长度;(13)过滤:将没有包含个性线索的句子删除;(14)词级特征提取:在连续的向量空间中每个单词用词向量表示,使用word2vec方式嵌入 ...
【技术保护点】
1.一种自然语言处理方法,其特征在于,包括:(1)自然语言预处理及特征提取;所述特征提取包括文档级特征提取和词级特征提取,实现词向量化、句子向量化、文档向量化;(2)使用深度卷积神经网络分类;所述神经网络基于五大人格特性建立五个单独的神经分类器,所述五个单独的神经分类器具有相同的架构。
【技术特征摘要】
1.一种自然语言处理方法,其特征在于,包括:(1)自然语言预处理及特征提取;所述特征提取包括文档级特征提取和词级特征提取,实现词向量化、句子向量化、文档向量化;(2)使用深度卷积神经网络分类;所述神经网络基于五大人格特性建立五个单独的神经分类器,所述五个单独的神经分类器具有相同的架构。2.根据权利要求1所述的一种自然语言处理方法,其特征在于,步骤(1)所述自然语言预处理及特征提取的具体过程包括:(11)预处理:包括句子拆分、数据清理和统一;(12)文档级特征提取:使用Mairesse基线的特性值,提取全局特征,包括字数统计及句子平均长度;(13)过滤:将没有包含个性线索的句子删除;(14)词级特征提取:在连续的向量空间中每个单词用词向量表示,使用word2vec方式嵌入,为文档提供一个可变长度特征集,文档被表示成一个句子的可变数量,表示固定长度词特征向量的可变数量。3.根据权利要求1所述的一种自然语言处理方法,其特征在于,步骤(2)的具体过程包括:(21)输入:输入一个四维的实数数组RD×S×W×E,D是数据集中的文档数量,S是文档间最大句子数量,W是文档间句子的最大词数量,E是词嵌入的长度;(22)词向量聚集成句子向量:使用三个卷积过滤器从每个句子中提取一元模型、二元模型和三元模型,经过最大池化层,句子向量变成这三个卷积过滤器汇总特征向量的串联形式;(23)句子向量聚集成文档向量:每个句子处理完后,文档向量成为一个所有句子向量集合而成的可变字符串;(24)将文档级特征加入到文档向量中:使用个性检测文档级特征集;(25)分类:使用由完全联通层组成的两层感知器,柔性最大值传输函数作为输出;(26)训练:利用负对数可能性作为训练的目标函数,随机地初始化神经网络参数。4.根据权利要求3所述的一种自然语言处理方法,其特征在于,步骤(22)包括:(221)在每个句子s∈RW×E中使用n×E的卷积过滤器,将卷积过滤器作用于s上,为给定的句子提供特征图谱,将sigmoid函数应用在特征图谱上;(222)在每个特征图谱应用最大池化技术,将其缩小;(223)在文档中的所有句子间共享神经网络参数,即使用虚拟词将所有句子都填补成同样大小,但不需要用虚拟句子将所有文档填补成同样大小。5.一种自然语言处理装置,其特征在于,包...
【专利技术属性】
技术研发人员:赵伟,武新,崔维力,曹昕雅,
申请(专利权)人:天津南大通用数据技术股份有限公司,
类型:发明
国别省市:天津,12
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。