一种基于词向量的评论分析方法及系统技术方案

技术编号:11380040 阅读:113 留言:0更新日期:2015-05-01 00:56
本发明专利技术公开了一种基于词向量的评论分析方法及系统,涉及情感分析、自然语言处理等技术领域,旨在提供一种使用机器分析评论的方法及系统,借助机器做自动用户评论分析,提供工作效率。本发明专利技术技术要点:收集用户评论,形成评论语料库;将评论语料库的每条评论转化为维度相同的句向量;设置若干评论类型,根据人工输入的标注为每条评论标注其所属的评论类型;以所述句向量为输入,每条句向量对应的评论类型为输出训练分类器;获取一条新的评论,并将其转化为句向量;将新评论对应的句向量输入到所述分类器中,得到新评论的评论类型。

【技术实现步骤摘要】
一种基于词向量的评论分析方法及系统
本专利技术涉及情感分析、自然语言处理等

技术介绍
随着电商的不断发展,网络上用户对某产品的评论是越来越多。分析用户的评论,能够了解用户对产的看法和建议,这样有助于产品的完善,以及服务质量的提升。但是随着用户数的不断增加,相应的评论量也增长很大,如果还是依靠人工阅读评论,了解用户意见的话,将极大的降低工作效率,不能及时了解用户对产品或服务的意见或建议。
技术实现思路
针对上述情况,本专利技术提出了一种使用机器分析评论的方法及系统,借助机器做自动用户评论分析,提供工作效率。本专利技术中基于词向量的评论分析方法,包括:步骤1:收集用户评论,形成评论语料库;步骤2:将评论语料库的每条评论转化为维度相同的句向量;步骤3:设置若干评论类型,根据人工输入的标注为每条评论标注其所属的评论类型;步骤4:以所述句向量为输入,每条句向量对应的评论类型为输出训练分类器;步骤5:获取一条新的评论,并将其转化为句向量;步骤6:将新评论对应的句向量输入到所述分类器中,得到新评论的评论类型。所述步骤2进一步包括:步骤21:将每一条评论分成若干的基本分词,对基本分词去重后得到评论词库;步骤22:将每个基本分词转化为一个词向量;各个基本分词对应的词向量维度相同;步骤23:将每条评论中的基本分词对应的词向量进行叠加,得到该评论的句向量。所述步骤5进一步包括:步骤51:将新的评论分成若干基本分词;步骤52:在评论词库中查找步骤51中各个基本分词对应的词向量;步骤53:将新的评论的各个基本分词对应的词向量进行叠加,得到新的评论的句向量。所述步骤22进一步包括:将基本分词作为神经网络模型的输入,使所述神经网络模型无监督学习得到该基本分词对应的词向量。优选地,所述词向量维度为200。所属步骤3进一步包括对每个评论类型中的评论做以下处理:步骤31:计算评论类型中每一条评论中的基本分词的关键性权重;步骤32:按照关键性权重对该评论类型中全部评论的基本分词进行降序排序;步骤33:选择前n个互异的基本分词作为所述评论类型的关键词;所述n取大于0且小于等于5的自然数。本专利技术还提供了一种基于词向量的评论系统,包括:评论收集模块,用于收集用户评论,形成评论语料库;样本句向量转化模块,用于将评论语料库的每条评论转化为维度相同的句向量;评论类型标注模块,用于设置若干评论类型,根据人工输入的标注为每条评论标注其所属的评论类型;分类器训练模块,用于以所述句向量为输入,每条句向量对应的评论类型为输出训练分类器;评论句向量转换模块,用于获取一条新的评论,并将其转化为句向量;分类器,根据新评论对应的句向量计算新评论的评论类型。所述样本句向量转化模块进一步包括:样本分词模块,用于将评论语料库中的每一条评论分成若干的基本分词,对基本分词去重后得到评论词库;样本词向量转化模块,用于将每个基本分词转化为一个词向量;各个基本分词对应的词向量维度相同;样本词向量叠加模块,用于将每条评论中的基本分词对应的词向量进行叠加,得到评论语料库中各评论的句向量。所述评论句向量转换模块进一步包括:评论分词模块,用于将新的评论分成若干基本分词;评论词向量转化模块,用于在评论词库中查找新的评论中各个基本分词对应的词向量;评论词向量叠加模块,用于将新的评论的各个基本分词对应的词向量进行叠加,得到新的评论的句向量。所述样本词向量转化模块进一步用于将基本分词作为神经网络模型的输入,使所述神经网络模型无监督学习得到该基本分词对应的词向量。优选地,所述词向量维度为200。评论类型标注模块进一步包括:关键性权重计算模块,用于计算评论类型中每一条评论中的基本分词的关键性权重;排序模块,用于按照关键性权重对该评论类型中全部评论的基本分词进行降序排序;关键词选择模块,用于选择前n个互异的基本分词作为所述评论类型的关键词;所述n取大于0且小于等于5的自然数。综上所述,由于采用了上述技术方案,本专利技术的有益效果是:本专利技术实现了评论分析的自动化、机器化,大大提高了工作效率。本专利技术采用神经网络模型计算基本分词的向量,这样表示的词向量不能能够准确表示其对应的基本分词,还能体现词与词之间的关联关系,智能程度较高。本专利技术采用词向量的叠加方式的到句向量,避免了句向量维度增加,由于训练后的词向量其实是将词映射到了一个新的主题维度空间,所以将词向量进行叠加还能很好的表示句子在这样的特征空间的映射情况。这样做,不但避免了句子特征表示的向量过于稀疏,维度过多的情况,又能很好的在低维度空间表示句子特征,且不影响分类性能。具体实施方式本说明书中公开的所有特征,或公开的所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以以任何方式组合。本说明书中公开的任一特征,除非特别叙述,均可被其他等效或具有类似目的的替代特征加以替换。即,除非特别叙述,每个特征只是一系列等效或类似特征中的一个例子而已。本专利技术一个具体实施例包括以下步骤:步骤1:整理用户评论,形成评论语料库。具体的可以使用网络爬虫从各大网页上搜集用户的评论语句形成评论语料库。网络爬虫是一种自动获取网页内容的程序,是搜索引擎的重要组成部分。搜集的评论语句越多,我们得到的评论语料库就越完备。步骤2:将评论语料库的每条评论转化为维度相同的句向量:进一步包括使用分词(动词,将句子进行分段)软件将评论语句分为基本分词(名词),将评论语料库中的每个评论分词后,将得到的全部基本分词去重复后得到评论词库。在将评论词库中的每个基本分词转化为词向量。本实施例使用深度学习技术训练词向量模型:为了突出本专利技术中词向量的优势,这里先阐述传统的词包模型的局限性。传统的词包模型是将每个词表示成一个特征向量中的一个特征。假如有一个词典,词典中包含10个词,其中的词需要用10维向量表示,如词典中的“good”能够用词包模型表示:v('good')=[0,1,0,0,0,0,0,0,0,0],词典中的“bad”能够用词包模型表示为v('bad')=[0,0,1,0,0,0,0,0,0,0]等。采用这种词包模型表示词存在这样的局限,当词典中的词量很大,比如达到千万数量级别的时候,就需要千万维向量进行表示,出现维度灾难,因此需要做特征选择或者特征提取。同时,这样的表示,很难发现词与词之间的关系,比如‘fantastic’和'good'具有相似性,然而通过词包模型,很难度量它们之间的相似度。基于上述两个原因促成我们对词向量的表示做了改进。我们使用了神经网络模型,将评论词库的全部基本分词作为训练样本,输入到神经网络模型中,使神经网络模型无监督学习得到了200维的词向量特征。在其他实施例中,词向量维度也可以为50、100、150等。将评论语料库中的一条评论中的所有基本分词对应的词向量叠加后,得到该评论的句向量。假设一个评论语句S,其中wi表示该评论经过分词后的第i个基本分词,于是有:S=w1,w2,...wi,...wn,其中n表示句子的词语数目。在本实施例中,每个基本分词wi被表示成一个长度为200的向量,及:Vwi={v1,v2,v3,...,vi,...v200},其中每个维度表示该词在一个抽象维度上的值。按照本实施例的累加原理,该评论的句向量将会表示成:于是,评论语料库中的所有评论语句本文档来自技高网...

【技术保护点】
一种基于词向量的评论分析方法,其特征在于,包括:步骤1:收集用户评论,形成评论语料库;步骤2:将评论语料库的每条评论转化为维度相同的句向量;步骤3:设置若干评论类型,根据人工输入的标注为每条评论标注其所属的评论类型;步骤4:以所述句向量为输入,每条句向量对应的评论类型为输出训练分类器;步骤5:获取一条新的评论,并将其转化为句向量;步骤6:将新评论对应的句向量输入到所述分类器中,得到新评论的评论类型。

【技术特征摘要】
1.一种基于词向量的评论分析方法,其特征在于,包括:步骤1:收集用户评论,形成评论语料库;步骤2:将评论语料库的每条评论转化为维度相同的句向量;步骤3:设置若干评论类型,根据人工输入的标注为每条评论标注其所属的评论类型;步骤4:以所述句向量为输入,每条句向量对应的评论类型为输出训练分类器;步骤5:获取一条新的评论,并将其转化为句向量;步骤6:将新评论对应的句向量输入到所述分类器中,得到新评论的评论类型;所述步骤2进一步包括:步骤21:将每一条评论分成若干的基本分词,对基本分词去重后得到评论词库;步骤22:将每个基本分词转化为一个词向量;各个基本分词对应的词向量维度相同;步骤23:将每条评论中的基本分词对应的词向量进行叠加,得到该评论的句向量;所述步骤5进一步包括:步骤51:将新的评论分成若干基本分词;步骤52:在评论词库中查找步骤51中各个基本分词对应的词向量;步骤53:将新的评论的各个基本分词对应的词向量进行叠加,得到新的评论的句向量;所述词向量的向量维度与对应得到的句向量的向量维度相同。2.根据权利要求1所述的一种基于词向量的评论分析方法,其特征在于,所述步骤22进一步包括:将基本分词作为神经网络模型的输入,使所述神经网络模型无监督学习得到该基本分词对应的词向量。3.根据权利要求1所述的一种基于词向量的评论分析方法,其特征在于,所述词向量维度为200。4.根据权利要求1所述的一种基于词向量的评论分析方法,其特征在于,步骤3进一步包括对每个评论类型中的评论做以下处理:步骤31:计算评论类型中每一条评论中的基本分词的关键性权重;步骤32:按照关键性权重对该评论类型中全部评论的基本分词进行降序排序;步骤33:选择前n个互异的基本分词作为所述评论类型的关键词;所述n取大于0且小于等于5的自然数。5.一种基于词向量的评论分析系统,其特征在于,包括:评论收集模块,用于收集用户评论,形成评论...

【专利技术属性】
技术研发人员:廖博森
申请(专利权)人:成都品果科技有限公司
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1