一种自然语言处理方法及装置制造方法及图纸

技术编号:18575962 阅读:117 留言:0更新日期:2018-08-01 10:58
本发明专利技术旨在提供一种通过使用卷积神经网络的意识流来分析人格特质的自然语言处理方法。该方法针对五种人格特质使用相同的架构来分别训练相应的卷积神经网络,每个卷积神经网络是一个二进制分类器,该分类器可以预测相应的特征为正值或负值,对应着是否拥有该人格特质。将单词组成n元特征向量,再将其整合成句子,再将句子聚合成一个完整的文档,获得的值随后与文档级别的语义特征结合,并在最后分类阶段形成文档表示。本发明专利技术通过对自然语言的处理及分析从而实现一个人个性特点的自动检测。

A method and device for Natural Language Processing

The invention aims to provide a natural language processing method for analyzing personality traits by using the stream of consciousness of a convolutional neural network. The method uses the same architecture to train the corresponding convolution neural networks for five personality traits. Each convolution neural network is a binary classifier. The classifier can predict the corresponding features as positive or negative, corresponding to whether the character is owned or not. The word is composed of N element feature vector, then it is integrated into a sentence, and then the sentence is aggregated into a complete document. The obtained values are then combined with the semantic features of the document level, and the document representation is formed at the final classification stage. The invention realizes automatic detection of a person's personality by processing and analyzing natural language.

【技术实现步骤摘要】
一种自然语言处理方法及装置
本专利技术属于数据挖掘领域,基于心理学的五因素人格理论,针对五种人格特质使用相同的架构来分别训练相应的卷积神经网络,在过程中还用到了word2vec技术进行相应的处理。
技术介绍
个性是个体表现、情绪、动机和思维模式的综合,对生活有极大的左右能力,会影响生活选择、幸福、健康和许多其他的表现,也是一个人能否施展才能,有效完成工作的基础,个性缺陷会使其所拥有的才能和能力大打折扣。一个人个性特点的自动检测在实际应用中非常重要,通过检测可以把人的所有个性都了解清楚,以准确、全面地了解一个人的整体个性。因此亟需能够帮助实现个性检测的技术方案。
技术实现思路
本专利技术要解决的问题是基于五因素人格理论为基础提出一种自然语言处理方法及装置,通过对自然语言的处理及分析从而实现一个人个性特点的自动检测。为了达到上述目的,本专利技术采取的技术方案为:一种自然语言处理方法,包括:(1)自然语言预处理及特征提取;所述特征提取包括文档级特征提取和词级特征提取,实现词向量化、句子向量化、文档向量化;(2)使用深度卷积神经网络分类;所述神经网络基于五大人格特性建立五个单独的神经分类器,所述五个单独的神经分类器具有相同的架构。进一步的,步骤(1)所述自然语言预处理及特征提取的具体过程包括:(11)预处理:包括句子拆分、数据清理和统一;(12)文档级特征提取:使用Mairesse基线的特性值,提取全局特征,包括字数统计及句子平均长度;(13)过滤:将没有包含个性线索的句子删除;(14)词级特征提取:在连续的向量空间中每个单词用词向量表示,使用word2vec方式嵌入,为文档提供一个可变长度特征集,文档被表示成一个句子的可变数量,表示固定长度词特征向量的可变数量。进一步的,步骤(2)的具体过程包括:(21)输入:输入一个四维的实数数组RD×S×W×E,D是数据集中的文档数量,S是文档间最大句子数量,W是文档间句子的最大词数量,E是词嵌入的长度;(22)词向量聚集成句子向量:使用三个卷积过滤器从每个句子中提取一元模型、二元模型和三元模型,经过最大池化层,句子向量变成这三个卷积过滤器汇总特征向量的串联形式;(23)句子向量聚集成文档向量:每个句子处理完后,文档向量成为一个所有句子向量集合而成的可变字符串;(24)将文档级特征加入到文档向量中:使用个性检测文档级特征集;(25)分类:使用由完全联通层组成的两层感知器,柔性最大值传输函数作为输出;(26)训练:利用负对数可能性作为训练的目标函数,随机地初始化神经网络参数。更进一步的,步骤(22)包括:(221)在每个句子s∈RW×E中使用n×E的卷积过滤器,将卷积过滤器作用于s上,为给定的句子提供特征图谱,将sigmoid函数应用在特征图谱上;(222)在每个特征图谱应用最大池化技术,将其缩小;(223)在文档中的所有句子间共享神经网络参数,即使用虚拟词将所有句子都填补成同样大小,但不需要用虚拟句子将所有文档填补成同样大小。本专利技术的另一方面,还提供了一种自然语言处理装置,包括:预处理及特征提取模块,用于自然语言预处理及特征提取;所述特征提取包括文档级特征提取和词级特征提取,实现词向量化、句子向量化、文档向量化;分类模块,用于使用深度卷积神经网络分类;所述神经网络基于五大人格特性建立五个单独的神经分类器,所述五个单独的神经分类器具有相同的架构。进一步的,预处理及特征提取模块包括:预处理单元,用于句子拆分、数据清理和统一;文档级特征提取单元,用于文档级特征提取,使用Mairesse基线的特性值,提取全局特征,包括字数统计及句子平均长度;过滤单元,用于过滤,将没有包含个性线索的句子删除;词级特征提取单元,用于词级特征提取,在连续的向量空间中每个单词用词向量表示,使用word2vec方式嵌入,为文档提供一个可变长度特征集,文档被表示成一个句子的可变数量,表示固定长度词特征向量的可变数量。进一步的,分类模块包括:输入单元,用于输入一个四维的实数数组RD×S×W×E,D是数据集中的文档数量,S是文档间最大句子数量,W是文档间句子的最大词数量,E是词嵌入的长度;第一聚集单元,用于词向量聚集成句子向量,使用三个卷积过滤器从每个句子中提取一元模型、二元模型和三元模型,经过最大池化层,句子向量变成这三个卷积过滤器汇总特征向量的串联形式;第二聚集单元,用于句子向量聚集成文档向量,每个句子处理完后,文档向量成为一个所有句子向量集合而成的可变字符串;特征加入单元,用于将文档级特征加入到文档向量中,使用个性检测文档级特征集;分类单元,用于使用由完全联通层组成的两层感知器,柔性最大值传输函数作为输出;训练单元,用于利用负对数可能性作为训练的目标函数,随机地初始化神经网络参数。更进一步的,第一聚集单元包括:第一子单元,用于在每个句子s∈RW×E中使用n×E的卷积过滤器,将卷积过滤器作用于s上,为给定的句子提供特征图谱,将sigmoid函数应用在特征图谱上;第二子单元,用于在每个特征图谱应用最大池化技术,将其缩小;第三子单元,用于在文档中的所有句子间共享神经网络参数,即使用虚拟词将所有句子都填补成同样大小,但不需要用虚拟句子将所有文档填补成同样大小。本专利技术提出的一种自然语言处理方法与装置,与现有技术相比,有益效果为:通过对自然语言的处理及分析从而实现一个人个性特点的自动检测,处理过程中,1、可以保留邻域的联系和空间的局部特点;2、由于是居于共享卷积核的结果,所以处理实际尺寸的高维度图像也毫无难度;3、实现了特征提取的封装。附图说明图1是本专利技术实施例的示意图;图2是本专利技术实施例所述文档向量化的示意图。具体实施方式下面结合具体实施例对本专利技术做进一步说明。本专利技术的方法包括输入数据的预处理、过滤、特征提取和分类,使用两种特性:一个是文档级文本特征的固定数量,另一种可以组合成输入文本的变长表示中的每个字的语义特征,这个变长表示被放入卷积神经网络分层处理。本专利技术包括如下步骤:(1)预处理:包括句子拆分、数据清理和统一,比如还原成小写字母;(2)文档级特征提取:使用Mairesse基线的特性值,其中包括字数统计及句子平均长度等全局特征;(3)过滤:文章中的有些句子可能没有包含个性线索,在语义特征提取中,这些句子会因为以下两个原因被过滤掉:第一,会产生降低分类器性能的噪音,第二,删除这些句子可以极大的降低输入规模,同时又不会影响结果,故将这些句子在下一阶段进行前删除;(4)词级特征提取:在连续的向量空间中每个单词用词向量表示,使用word2vec方式嵌入,为文档提供一个可变长度特征集,文档被表示成一个句子的可变数量,表示固定长度词特征向量的可变数量;(5)分类:使用深度卷积神经网络,其原始层分层地处理文本,在输入中,每个词根据word2vec方法表示一个固定长度特征向量,句子代表词向量的可变数量。在某些层中,该可变长度向量又被还原成每个句子的固定长度向量,这是在连续向量空间中的一种句子嵌入,在该水平中,文档代表固定长度句子嵌入的一个可变数量,最后在最深层,这个可变长度文档向量又被还原成一个固定长度文档向量。该固定长度特征向量依据能够提供固定长度文档向量的文档级特征串联,之后再进入分类阶段使用。本专利技术有五个单独的神经分类本文档来自技高网...

【技术保护点】
1.一种自然语言处理方法,其特征在于,包括:(1)自然语言预处理及特征提取;所述特征提取包括文档级特征提取和词级特征提取,实现词向量化、句子向量化、文档向量化;(2)使用深度卷积神经网络分类;所述神经网络基于五大人格特性建立五个单独的神经分类器,所述五个单独的神经分类器具有相同的架构。

【技术特征摘要】
1.一种自然语言处理方法,其特征在于,包括:(1)自然语言预处理及特征提取;所述特征提取包括文档级特征提取和词级特征提取,实现词向量化、句子向量化、文档向量化;(2)使用深度卷积神经网络分类;所述神经网络基于五大人格特性建立五个单独的神经分类器,所述五个单独的神经分类器具有相同的架构。2.根据权利要求1所述的一种自然语言处理方法,其特征在于,步骤(1)所述自然语言预处理及特征提取的具体过程包括:(11)预处理:包括句子拆分、数据清理和统一;(12)文档级特征提取:使用Mairesse基线的特性值,提取全局特征,包括字数统计及句子平均长度;(13)过滤:将没有包含个性线索的句子删除;(14)词级特征提取:在连续的向量空间中每个单词用词向量表示,使用word2vec方式嵌入,为文档提供一个可变长度特征集,文档被表示成一个句子的可变数量,表示固定长度词特征向量的可变数量。3.根据权利要求1所述的一种自然语言处理方法,其特征在于,步骤(2)的具体过程包括:(21)输入:输入一个四维的实数数组RD×S×W×E,D是数据集中的文档数量,S是文档间最大句子数量,W是文档间句子的最大词数量,E是词嵌入的长度;(22)词向量聚集成句子向量:使用三个卷积过滤器从每个句子中提取一元模型、二元模型和三元模型,经过最大池化层,句子向量变成这三个卷积过滤器汇总特征向量的串联形式;(23)句子向量聚集成文档向量:每个句子处理完后,文档向量成为一个所有句子向量集合而成的可变字符串;(24)将文档级特征加入到文档向量中:使用个性检测文档级特征集;(25)分类:使用由完全联通层组成的两层感知器,柔性最大值传输函数作为输出;(26)训练:利用负对数可能性作为训练的目标函数,随机地初始化神经网络参数。4.根据权利要求3所述的一种自然语言处理方法,其特征在于,步骤(22)包括:(221)在每个句子s∈RW×E中使用n×E的卷积过滤器,将卷积过滤器作用于s上,为给定的句子提供特征图谱,将sigmoid函数应用在特征图谱上;(222)在每个特征图谱应用最大池化技术,将其缩小;(223)在文档中的所有句子间共享神经网络参数,即使用虚拟词将所有句子都填补成同样大小,但不需要用虚拟句子将所有文档填补成同样大小。5.一种自然语言处理装置,其特征在于,包...

【专利技术属性】
技术研发人员:赵伟武新崔维力曹昕雅
申请(专利权)人:天津南大通用数据技术股份有限公司
类型:发明
国别省市:天津,12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1