对文本进行情感分类的方法、装置及终端制造方法及图纸

技术编号:21060342 阅读:40 留言:0更新日期:2019-05-08 07:03
本发明专利技术适用于计算机技术领域,提供了一种对文本进行情感分类的方法、装置、终端及计算机可读存储介质。其中,所述方法包括:对目标文本进行分词处理,得到所述目标文本的词集合;利用预设的词映射矩阵将所述词集合映射到同一多维实数空间,得到所述目标文本对应的第一文本向量,其中,所述第一文本向量的任意两个词向量单元在所述多维实数空间中的距离表示与该两个词向量单元对应的词集合中的两个词单元的相关度;对所述第一文本向量进行情感分类,确定所述目标文本的情感类别。本发明专利技术能够提高对文本进行情感分类的精度。

The Method, Device and Terminal of Emotional Classification of Text

【技术实现步骤摘要】
对文本进行情感分类的方法、装置及终端
本专利技术属于计算机
,尤其涉及一种对文本进行情感分类的方法、装置、终端及计算机可读存储介质。
技术介绍
自然语言处理(NaturalLanguageProcessing,NLP)是计算机与人工智能领域中的一个重要的研究方向。目前,经常采用神经网络来进行自然语言处理。例如,可以通过卷积神经网络(ConvolutionalNeuralNetwork,CNN)或者循环神经网络(RecurrentNeuralNetwork,RNN)对文本的情感类别进行判断,如判断某文本的情感类别是消极、积极还是中性的。在将文本输入给神经网络进行处理之前,需要将文本转换为向量形式,这就需要首先将文本划分为词语单元,然而,由于文本的语义是由词语单元和词语单元的连接关系共同决定的,文本被划分成孤立的词语单元后容易产生语义丢失,而语义丢失会影响神经网络对文本的情感识别精度。
技术实现思路
有鉴于此,本专利技术提供了一种对文本进行情感分类的方法、装置、终端及计算机可读存储介质,用以解决现有技术中文本被划分成孤立的词语单元后容易产生语义丢失而影响到文本的情感识别精度的问题。本专利技术实施例的第一方面提供了一种对文本进行情感分类的方法,所述方法包括:对目标文本进行分词处理,得到所述目标文本的词集合;利用预设的词映射矩阵将所述词集合映射到同一多维实数空间,得到所述目标文本对应的第一文本向量,其中,所述第一文本向量的任意两个词向量单元在所述多维实数空间中的距离表示与该两个词向量单元对应的词集合中的两个词单元的相关度;对所述第一文本向量进行情感分类,确定所述目标文本的情感类别。本专利技术实施例的第二方面提供了一种对文本进行情感分类的装置,所述装置包括:分词单元,用于对目标文本进行分词处理,得到所述目标文本的词集合;文本向量映射单元,用于利用利用预设的词映射矩阵将所述词集合映射到同一多维实数空间,得到所述目标文本对应的第一文本向量,其中,所述第一文本向量的任意两个词向量单元在所述多维实数空间中的距离表示与该两个词向量单元对应的词集合中的两个词单元的相关度;情感分类单元,用于对所述第一文本向量进行情感分类,确定所述目标文本的情感类别。本专利技术实施例的第三方面提供了一种终端,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上任一项所述对文本进行情感分类的方法的步骤。本专利技术实施例的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上任一项所述对文本进行情感分类的方法的步骤。本专利技术与现有技术相比存在的有益效果是:本专利技术通过对目标文本进行分词处理,得到目标文本的词集合;利用预设的词映射矩阵将词集合映射到同一多维实数空间,得到与目标文本对应的文本向量,由于分词得到的每个词都被映射到同一多维实数空间,而在该多维实数空间中,任意两个词向量之间的距离可以表示该两个词的相关度,该相关度一定程度上表示了文本的语义信息;因此,基于词集合中每个词对应的词向量生成的文本向量保留了文本的语义信息;使得对该文本向量进行情感极性分析后得到的情感类别具有较好的精度。故,本专利技术能够提高对文本进行情感分类的精度。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术实施例提供的对文本进行情感分类的方法的实现流程图;图2是本专利技术实施例提供的对文本进行情感分类的装置的结构示意图;图3是本专利技术实施例提供的终端的示意图。具体实施方式以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本专利技术实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本专利技术。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本专利技术的描述。为使本专利技术的目的、技术方案和优点更加清楚,下面将结合附图通过具体实施例来进行说明。参见图1,其示出了本专利技术实施例提供的对文本进行情感分类的方法的实现流程图,详述如下:在步骤101中、对目标文本进行分词处理,得到所述目标文本的词集合。在本专利技术实施例中,目标文本表示待进行情感分类的文本,由于文本是一种非结构化的数据,计算机无法直接对其进行处理。因此,需要将目标文本进行向量化表示,并获取该目标文本对应的向量化表示后对应的文本向量,以通过计算机对该文本向量进行后续处理。在本专利技术实施例中,可以对目标文本进行分词处理,得到目标文本的词集合。例如,对于目标文本“我今天真的很高兴”,可以进行分词处理并得到词集合{我,今天,真的,很,高兴}。在实际应用中,可以采用现有的分词工具进行分词处理操作,例如,可以采用“jieba分词工具”实现中文文本的分词处理。在步骤102中、利用预设的词映射矩阵将所述词集合映射到同一多维实数空间,得到所述目标文本对应的第一文本向量。在上述多维实数空间,其中的任意两个向量之间的距离可以表示该两个向量的近似程度,也即,在上述多维实数空间中,将词集合映射得到的词向量中任意两个词向量之间的距离表示该两个词的相关度,而第一文本向量由词集合中各个词单元对应的词向量叠加得到,这就使得词集合中不同词语之间的关联语义可以通过相关度在第一文本向量中得以保留。在本专利技术实施例中,上述距离可以为欧氏距离,通过对多维实数空间中的两个向量进行余弦相似性的计算可以得到该两个向量的相关度。利用词向量之间的相关度可以表示两个词的相关度,而两个词的相关度一定程度上表示了这两个词所属文本的语义信息。可选的,在上述步骤102之前,可以通过以下步骤确定词映射矩阵:步骤A1,获取训练语料,并基于获取的所述训练语料建立第一词向量矩阵。在本专利技术实施例中,可以利用指定的爬虫程序在网络上大量搜集现有语料,根据现有语料总结出不同类型的文本形成训练语料库,在该训练语料库中,不同类别的文本样本含有一些可将该类文本与其他类别文本区分开的特征词。在本专利技术实施例中,根据获取的训练语料,可以建立第一词向量矩阵,该第一词向量矩阵的词向量可以为独热向量,基于独热编码来得到。步骤A2,对所述第一词向量矩阵进行奇异值分解,得到第二词向量矩阵。在本专利技术实施例中,奇异值往往对应着矩阵中隐含的重要信息,且重要性和奇异值大小正相关。每个矩阵都可以表示为一系列秩为1的“小矩阵”之和,而奇异值则衡量了这些“小矩阵”对于该矩阵的权值。通过对第一词向量矩阵进行奇异值分解,可以更加明确的体现各词向量的每个语义维度的权重。步骤A3,对所述第二词向量矩阵进行降维,得到所述词映射矩阵。在本专利技术实施例中,通过降维可以将第二词向量矩阵中不太重要的权值置为0,从而保留重要的语义信息,去掉可称之为噪音的语义信息。这样可使得各词向量间的语义关系更加明确,并节省系统开销。可选的,上述步骤102可以通过以下步骤实现:计算所述词集合中各词单元的权值,并基于所述各词单元的权值生成第二文本向量;利用所述词映射矩阵将所述第本文档来自技高网...

【技术保护点】
1.一种对文本进行情感分类的方法,其特征在于,所述方法包括:对目标文本进行分词处理,得到所述目标文本的词集合;利用预设的词映射矩阵将所述词集合映射到同一多维实数空间,得到所述目标文本对应的第一文本向量,其中,所述第一文本向量的任意两个词向量单元在所述多维实数空间中的距离表示与该两个词向量单元对应的词集合中的两个词单元的相关度;对所述第一文本向量进行情感分类,确定所述目标文本的情感类别。

【技术特征摘要】
1.一种对文本进行情感分类的方法,其特征在于,所述方法包括:对目标文本进行分词处理,得到所述目标文本的词集合;利用预设的词映射矩阵将所述词集合映射到同一多维实数空间,得到所述目标文本对应的第一文本向量,其中,所述第一文本向量的任意两个词向量单元在所述多维实数空间中的距离表示与该两个词向量单元对应的词集合中的两个词单元的相关度;对所述第一文本向量进行情感分类,确定所述目标文本的情感类别。2.根据权利要求1所述的对文本进行情感分类的方法,其特征在于,在所述利用预设的词映射矩阵将所述词集合映射到同一多维实数空间之前还包括:获取训练语料,并基于获取的所述训练语料建立第一词向量矩阵;对所述第一词向量矩阵进行奇异值分解,得到第二词向量矩阵;对所述第二词向量矩阵进行降维,得到所述词映射矩阵。3.根据权利要求1所述的对文本进行情感分类的方法,其特征在于,所述利用预设的词映射矩阵将所述词集合映射到同一多维实数空间,得到所述目标文本对应的第一文本向量还包括:计算所述词集合中各词单元的权值,并基于所述各词单元的权值生成第二文本向量;利用所述词映射矩阵将所述第二文本向量映射到所述多维实数空间,得到所述第一文本向量。4.根据权利要求1至3任一项所述的对文本进行情感分类的方法,其特征在于,所述对所述第一文本向量进行情感分类,确定所述目标文本的情感类别包括:将所述第一文本向量输入已训练的情感分类器,得到所述目标文本的情感类别。5.根据权利要求4所述的对文本进行情感分类的方法,其特征在于,在所述将所述第一文本向量输入已训练的情感分类器,得到所述目标文本的情感类别之前还包括:获取已标注情感类别的训练样本;将已标注情感类别的训练样本输入预先构建的情感分类器;根据输出结果对所述预先构建的情感分类器进行参数调整,直到所述训练样本的输出结果与已标注的情感类别的接近度小于预设阈值,得到已训练的情感分类器。6.根据权利要求1至3任一...

【专利技术属性】
技术研发人员:任晓德吴又奎许国杰
申请(专利权)人:中科恒运股份有限公司
类型:发明
国别省市:河北,13

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1