一种评价对象的提取方法和装置制造方法及图纸

技术编号:16969584 阅读:21 留言:0更新日期:2018-01-07 06:33
本申请提供了一种评价对象的提取方法和装置,提取方法包括:遍历语料,获取所述语料中的名词和形容词;依据获取得到的名词和形容词,生成依存关系矩阵;依据预设的向量计算方法,计算所述依存关系矩阵中的每个形容词的向量和每个名词的向量;依据所述形容词的向量以及名词的向量,对所述依存关系矩阵进行扩充,所述填充后的依存关系的名词为提取的评价对象。该方案中,考虑了语料中的依存关系信息,提出了依存矩阵的概念和构造方法,基于因子分解的方法使得提取过程具有一定的推理能力,提高了从语料中提取相关产品的评价对象的准确度。

【技术实现步骤摘要】
一种评价对象的提取方法和装置
本专利技术涉及数据分析领域,更具体的说,是涉及一种评价对象的提取方法和装置。
技术介绍
随着社交网络、移动互联网的不断普及,人们发布信息的成本越来越低,越来越多的用户乐于在互联网上分享自己的观点以及对于人物、事件、产品的评论。这些评论反映了人们对于事物的观点和情感倾向,对于舆情分析以及基于大数据的预测有着重要的意义。因此,情感分析技术应运而生,情感分析也被称为观点挖掘、观点分析,情感分析的目的是从文本中挖掘用户表达的观点,通常用情感极性(例如,正向、负向、中性等)来表示。传统的情感分析主要关注一条评论整体的情感极性,然而整体的情感极性往往粒度较粗,用户无法依据整体的情感极性来判断当前产品在自己关注的某个属性上是否具有良好的口碑。一个整体口碑较好的产品不一定在每个属性上都具有良好的口碑,而不同的用户对同类别的产品关注的属性往往也存在一定的差异性。因此,如何对产品进行细粒度的情感分析成为亟待解决的问题。而如何准确地提取产品的属性是解决细粒度情感分析的基础。例如,考虑如下针对某部电影的评论:“剧情不错,特效很炫,就是票价太贵了。”这里“剧情”“特效”“票价”都是电影属性,一般把属性称为“评价对象”,用来描述评价对象的词(“不错”“很炫”“太贵”)被称为“评价词”。关于评价对象的提取,传统的方法主要可以归为两类:人工构建和关联规则挖掘,人工构建的缺点在于需要大量人力,且可移植性较差;关联规则挖掘的缺点在于没有充分考虑短语评价对象的结构特征以及评价对象的领域相关性。
技术实现思路
有鉴于此,本专利技术提供了一种评价对象的提取方法,解决如何从语料中准确地提取相关产品的评价对象,以便进行后续的细粒度情感分析,充分挖掘评论信息的价值的问题。为实现上述目的,本专利技术提供如下技术方案:一种评价对象的提取方法,包括:遍历语料,获取所述语料中的名词和形容词,所述语料中包含预置语料库中的全部评论信息;依据获取得到的名词和形容词,生成依存关系矩阵;依据预设的向量计算方法,计算所述依存关系矩阵中的每个形容词的向量和每个名词的向量;依据所述形容词的向量以及名词的向量,对所述依存关系矩阵进行扩充,所述扩充后的依存关系矩阵中的名词为提取的评价对象。上述的方法,优选的,所述遍历语料,获取所述语料中的名词和形容词之后,所述依据获取得到的名词和形容词,生成依存关系矩阵之前,还包括:接收用户的输入信息;基于所述输入信息在所述名词中选择至少一个评价对象种子以及在所述形容词中选择至少一个评价词种子,所述至少一个评价对象种子组成评价对象种子集合、所述至少一个评价词种子组成评价词种子集合。上述的方法,优选的,所述依据所述形容词的向量以及名词的向量,对所述依存关系矩阵进行扩充,包括:在所述评价词种子集合中选定任一评价词种子;依据预设的计算规则,在所述依存关系矩阵中选择N个形容词作为对所述评价词种子的推荐结果,所述N个形容词与所述评价词种子之间的向量内积是所述依存关系矩阵中每个形容词与所述评价词种子之间的向量内积最大的N个,所述N为大于1的整数;将所述评价词种子集合中的每一个评价词种子的推荐结果与所述评价对象种子集合合并,得到扩展后的评价对象集合;在所述扩展后的评价对象集合中选择任一评价对象作为候选评价对象;依据预设的计算规则,在所述依存关系矩阵中选择M个名词作为对所述候选评价对象的推荐结果,所述M个名词与所述候选评价对象之间的向量内积是所述评价对象集合中每个名词与所述候选评价对象之间的向量内积最大的M个,所述M为大于1的整数;将所述评价对象集合中的每一个评价对象的推荐结果与所述评价词种子集合合并,得到扩展后的评价词种子集合;返回执行所述在所述评价词种子集合中选定任一评价词种子步骤,选择另一评价词种子,直至所述评价对象集合中不再扩展有新的评价对象为止,对所述依存关系矩阵填充完成,填充完成后的依存关系矩阵中的名词集合即为评价对象最终提取结果。上述的方法,优选的,所述依据预设的计算规则,在所述依存关系矩阵中选择N个形容词作为对所述评价词种子的推荐结果,包括:依据所述预设的计算规则,按照形容词与所述评价词种子计算得到的向量内积的大小依次为所述评价词种子集合中的每个评价词种子推荐评价对象;从推荐的评价对象中选择向量内积排序在前的N个形容词作为第一扩展候选词;分别计算所述第一扩展候选词与所述评价对象集合中所有的评价对象种子之间的相似度;如果第一扩展候选词与所述评价对象集合中所有的评价对象种子之间相似度的最小值小于预设阈值,则将所述第一扩展候选词作为所述评价词种子的推荐结果。上述的方法,优选的,所述依据预设的计算规则,在所述依存关系矩阵中选择M个名词作为对所述候选评价对象的推荐结果,包括:依据预设的计算规则,按照名词与所述候选评价对象计算得到的向量内积大小依次为所述评价对象集合中的每个评价对象推荐评价词;从推荐的评价词中选择向量内积排序在前的M个名词作为第二扩展候选词;分别计算所述第二扩展候选词与所述评价词种子集合中所有的评价词种子之间的相似度;如果第二扩展候选词与所述评价词种子集合中所有的评价词种子之间相似度的最小值小于预设阈值,将所述第二扩展候选词作为所述评价对象的推荐结果。上述的方法,优选的,所述依据获取得到的名词和形容词,生成依存关系矩阵,包括:依据预设的句法依存分析规则,统计所述名词和所述形容词之间的依存关系;根据统计的结果,构建名词-形容词依存关系矩阵。上述的方法,优选的,所述依据获取得到的名词和形容词,生成依存关系矩阵之前,还包括:剔除出现次数小于预设数值的名词和形容词。一种评价对象的提取装置,包括:获取单元,用于遍历语料,获取所述语料中的名词和形容词,所述语料中包含预置语料库中的全部评论信息;矩阵单元,用于依据获取得到的名词和形容词,生成依存关系矩阵;计算单元,用于依据预设的向量计算方法,计算所述依存关系矩阵中的每个形容词的向量和每个名词的向量;扩充单元,用于依据所述形容词的向量以及名词的向量,对所述依存关系矩阵进行扩充,所述扩充后的依存关系矩阵中的名词为提取的评价对象。上述的装置,优选的,还包括:输入单元,用于接收用户的输入信息;选择单元,用于基于所述输入信息在所述名词中选择至少一个评价对象种子以及在所述形容词中选择至少一个评价词种子,所述至少一个评价对象种子组成评价对象种子集合、所述至少一个评价词种子组成评价词种子集合。上述的装置,优选的,所述矩阵单元,具体用于:依据预设的句法依存分析规则,统计所述名词和所述形容词之间的依存关系;根据统计的结果,构建名词-形容词依存关系矩阵。经由上述的技术方案可知,本专利技术提供了一种评价对的提取方法,包括:遍历语料,获取所述语料中的名词和形容词,所述语料中包含预置语料库中的全部评论信息;依据获取得到的名词和形容词,生成依存关系矩阵;依据预设的向量计算方法,计算所述依存关系矩阵中的每个形容词的向量和每个名词的向量;依据所述形容词的向量以及名词的向量,对所述依存关系矩阵进行扩充,所述填充后的依存关系的名词为提取的评价对象。该方案中,考虑了语料中的依存关系信息,提出了依存矩阵的概念和构造方法,基于因子分解的方法使得提取过程具有一定的推理能力,提高了从语料中提取相关产品的评价对象的准确度。附图说本文档来自技高网...
一种评价对象的提取方法和装置

【技术保护点】
一种评价对象的提取方法,其特征在于,包括:遍历语料,获取所述语料中的名词和形容词,所述语料中包含预置语料库中的全部评论信息;依据获取得到的名词和形容词,生成依存关系矩阵;依据预设的向量计算方法,计算所述依存关系矩阵中的每个形容词的向量和每个名词的向量;依据所述形容词的向量以及名词的向量,对所述依存关系矩阵进行扩充,所述扩充后的依存关系矩阵中的名词为提取的评价对象。

【技术特征摘要】
1.一种评价对象的提取方法,其特征在于,包括:遍历语料,获取所述语料中的名词和形容词,所述语料中包含预置语料库中的全部评论信息;依据获取得到的名词和形容词,生成依存关系矩阵;依据预设的向量计算方法,计算所述依存关系矩阵中的每个形容词的向量和每个名词的向量;依据所述形容词的向量以及名词的向量,对所述依存关系矩阵进行扩充,所述扩充后的依存关系矩阵中的名词为提取的评价对象。2.根据权利要求1所述的方法,其特征在于,所述遍历语料,获取所述语料中的名词和形容词之后,所述依据获取得到的名词和形容词,生成依存关系矩阵之前,还包括:接收用户的输入信息;基于所述输入信息在所述名词中选择至少一个评价对象种子以及在所述形容词中选择至少一个评价词种子,所述至少一个评价对象种子组成评价对象种子集合、所述至少一个评价词种子组成评价词种子集合。3.根据权利要求2所述的方法,其特征在于,所述依据所述形容词的向量以及名词的向量,对所述依存关系矩阵进行扩充,包括:在所述评价词种子集合中选定任一评价词种子;依据预设的计算规则,在所述依存关系矩阵中选择N个形容词作为对所述评价词种子的推荐结果,所述N个形容词与所述评价词种子之间的向量内积是所述依存关系矩阵中每个形容词与所述评价词种子之间的向量内积最大的N个,所述N为大于1的整数;将所述评价词种子集合中的每一个评价词种子的推荐结果与所述评价对象种子集合合并,得到扩展后的评价对象集合;在所述扩展后的评价对象集合中选择任一评价对象作为候选评价对象;依据预设的计算规则,在所述依存关系矩阵中选择M个名词作为对所述候选评价对象的推荐结果,所述M个名词与所述候选评价对象之间的向量内积是所述评价对象集合中每个名词与所述候选评价对象之间的向量内积最大的M个,所述M为大于1的整数;将所述评价对象集合中的每一个评价对象的推荐结果与所述评价词种子集合合并,得到扩展后的评价词种子集合;返回执行所述在所述评价词种子集合中选定任一评价词种子步骤,选择另一评价词种子,直至所述评价对象集合中不再扩展有新的评价对象为止,对所述依存关系矩阵填充完成,填充完成后的依存关系矩阵中的名词集合即为评价对象最终提取结果。4.根据权利要求3所述的方法,其特征在于,所述依据预设的计算规则,在所述依存关系矩阵中选择N个形容词作为对所述评价词种子的推荐结果,包括:依据所述预设的计算规则,按照形容词与所述评价词种子计算得到的向量内积的大小依次为所述评价词种子集合中的每个评价词种子推荐评...

【专利技术属性】
技术研发人员:沈一鲍新平
申请(专利权)人:北京奇艺世纪科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1