一种细粒度的评价信息挖掘方法及系统技术方案

技术编号:17596955 阅读:26 留言:0更新日期:2018-03-31 10:10
本发明专利技术公开了一种细粒度的评价信息挖掘方法,该方法以初始评对象种子集和初始评价词种子集为基础,利用半监督迭代法提取候选评价对象集和候选评价词集的关联结构,并分别对候选评价对象集挖掘出与候选评价词关联最紧密的评价对象作为新评价对象;同理,对候选评价词集挖据出与候选评价对象关联最紧密的评价词作为新评价词,将挖掘的新评价对象和新评价词添加到初始评价对象种子集和初始评价词种子集中,迭代交替挖掘出潜在的评价信息,最后提取出评价信息对应的评价对象和评价词;另外,需要对评价语句对应的评价信息进行可视化显示,方便用户的直观查看。本发明专利技术还公开了一种细粒度的评价信息挖掘系统。

A fine-grained evaluation information mining method and system

The invention discloses a method for evaluation of fine-grained information mining methods, the method based on the initial evaluation seed set and initial evaluation of word seed set based extraction of relational structure candidate evaluation object set and evaluation of candidate word set using semi supervised iterative method, and the evaluation of the candidate image set were excavated and the candidate evaluation words the most closely related to the evaluation object as the evaluation object; similarly, according to the close out and dig the candidate evaluation object evaluation as a new evaluation of candidate word evaluation word set, the new evaluation object and evaluation of new mining words added to the initial evaluation object seed set and initial evaluation of seed words, alternating iterative mining the potential evaluation information, finally extract the evaluation information corresponding to the evaluation and assessment of words; in addition, the visual display of the corresponding statement needs assessment evaluation information, Party A visual view of the user. The invention also discloses a fine grained evaluation information mining system.

【技术实现步骤摘要】
一种细粒度的评价信息挖掘方法及系统
本专利技术涉及网络数据处理
,特别是涉及一种细粒度的评价信息挖掘方法及系统。
技术介绍
随着社交网络、移动互联网的不断普及,人们发布信息的成本越来越低,越来越多的用户乐于在互联网上分享自己的观点以及对于人物、事件、产品的评论,而互联网公司也越发希望能通过自动化工具及技术来获取或挖掘这些评论语句所包含的观点信息。挖掘用户观点信息是指从文本中发现带有作者主观情感的内容,用户观点通常包括评价对象、评价词、评价情感、评价所有者、发表时间等信息,其中,评价词五花八门,并且更新迅速。挖掘用户观点信息主要包含文档倾向性分类和信息抽取两大方面,其中:文档倾向性分类主要侧重对文档进行情感分类研究,如褒义、贬义或中性;而信息抽取则关注于挖掘出用户观点的各组成部分,如评价所有者、评价对象、评价词等。基于信息抽取的数据挖掘首先是确定评价对象,从而准确的确定网络客户评论的主题,随后的评价词提取则是更具体、更具有针对性评价,则称挖掘评价对象与评价词构成的评价词对为细粒度的意见挖掘。目前,BingLiu等研究者主要是先对评论语句进行分词标注,然后再使用关联规则挖掘频繁项作为候选评价对象,并对其进行了剪枝处理,但是该方法候选评价对象没有进行有效地筛选,需要对提取出来的所有候选评价对象进行进一步处理,其处理结果无法保证对评论信息的识别精确度。因此,对于海量的评论信息,如何准确的实现评价对象和评价词的信息抽取是本领域技术人员亟待解决的技术问题。
技术实现思路
本专利技术的目的在于提出一种细粒度的评价信息挖掘方法及系统,以确定评价语句的信息挖掘,保证对评价语句对应的评价信息识别的精确度。为达到上述目的,本专利技术提供了以下技术方案:一种细粒度的评价信息挖掘方法,包括:获取初始评价对象种子集和初始评价词种子集;以所述初始评价对象种子集和所述初始评价词种子集作为基础,从评价语句中确定新评价对象和新评价词;将所述新评价对象和所述新评价词添加到所述初始评价对象种子集和所述初始评价词种子集,得到目标评价对象种子集和目标评价词种子集;从所述目标评价对象种子集和所述目标评价词种子集提取所述评价语句对应的评价信息,所述评论信息包括:评价对象和评价词,所述评价词为对所述评价对象进行评价的观点信息。优选的,所述以所述初始评价对象种子集和所述初始评价词种子集作为基础,从所述评价语句中确定新评价对象和新评价词,包括:以所述初始评价对象种子集和所述初始评价词种子集作为基础,根据半监督迭代法从所述评价语句中确定新评价对象和新评价词。优选的,所述以所述初始评价对象种子集和所述初始评价词种子集作为基础,根据半监督迭代法从所述评价语句中确定新评价对象和新评价词,包括:根据依存句法分析法对所述评价语句提取句法依存结构;以所述初始评价对象种子集和所述初始评价词种子集作为基础,获取所述初始评价对象种子集中初始评价对象的平均出现频次以及所述初始评价词种子集中初始评价词的平均出现频次;选取所述初始评价对象种子集中出现频次大于所述初始评价对象的平均出现频次的名词作为候选评价对象集中的候选评价对象;选取所述初始评价词种子集中出现频次大于所述初始评价词的平均出现频次的形容词作为候选评价词集中的候选评价词;以所述候选评价词集为基础,利用所述候选评价词集中的候选评价词确定新评价词;以所述候选评价对象集为基础,利用所述候选评价对象集中的候选评价对象确定新评价对象。优选的,所述利用所述候选评价词集中的候选评价词确定新评价词,包括:构建所述候选评价词集中的候选评价词与所述初始评价对象种子集的每个初始评价对象的关系矩阵,生成评价词无向加权图;对所述初始评价对象种子集的每个初始评价对象进行初始权重值加权;在所述评价词无向加权图中进行迭代传播,确定所述候选评价词集中每个候选评价词的权重值;根据所述候选评价词的权重值进行排序,确定排序在预设值之前的候选评价词作为新评价词。优选的,所述利用所述候选评价对象集中的候选评价对象确定新评价对象,包括:构建所述候选评价对象集中的候选评价对象与所述初始评价词种子集的每个初始评价词的关系矩阵,生成评价对象无向加权图;对所述初始评价词种子集的每个初始评价词进行初始权重值加权;在所述评价对象无向加权图中进行迭代传播,确定所述候选评价对象集中每个候选评价对象的权重值;根据所述候选评价对象的权重值进行排序,确定排序在预设值之前的候选评价对象作为新评价对象。优选的,所述根据半监督迭代法从所述评价语句中确定新评价对象和新评价词之后,还包括:根据所述新评价对象与所述初始评价对象种子集中的评价对象的共现频率指定所述新评价对象的类别。优选的,还包括:对所述评价语句对应的评价信息中的所述评价对象和所述评价词进行关联扩展。优选的,还包括:对所述评价语句对应的评价信息进行可视化显示。一种细粒度的评价信息挖掘系统,包括:获取模块,用于获取初始评价对象种子集和初始评价词种子集;确定模块,用于以所述初始评价对象种子集和所述初始评价词种子集作为基础,从所述评价语句中确定新评价对象和新评价词;添加模块,用于将所述新评价对象和所述新评价词添加到所述初始评价对象种子集和所述初始评价词种子集,得到目标评价对象种子集和目标评价词种子集;提取模块,用于从所述目标评价对象种子集和所述目标评价词种子集提取所述评价语句对应的评价信息,所述评论信息包括:评价对象和评价词,所述评价词用于对所述评价对象进行评价的观点信息。优选的,所述确定模块具体用于以所述初始评价对象种子集和所述初始评价词种子集作为基础,根据半监督迭代法从所述评价语句中确定新评价对象和新评价词。优选的,所述确定模块包括:提取单元,用于根据依存句法分析法对所述评价语句提取句法依存结构;获取单元,用于以所述初始评价对象种子集和所述初始评价词种子集作为基础,获取所述初始评价对象种子集中初始评价对象的平均出现频次以及所述初始评价词种子集中初始评价词的平均出现频次;第一选取单元,用于选取所述初始评价对象种子集中出现频次大于所述初始评价对象的平均出现频次的名词作为候选评价对象集中的候选评价对象;第二选取单元,用于选取所述初始评价词种子集中出现频次大于所述初始评价词的平均出现频次的形容词作为候选评价词集中的候选评价词;第一确定单元,用于以所述候选评价词集为基础,利用所述候选评价词集中的候选评价词确定新评价词;第二确定单元,用于以所述候选评价对象集为基础,利用所述候选评价对象集中的候选评价对象确定新评价对象。优选的,所述第一确定单元包括:第一构建单元,用于构建所述候选评价词集中的候选评价词与所述初始评价对象种子集的每个初始评价对象的关系矩阵,生成评价词无向加权图;第一加权单元,用于对所述初始评价对象种子集的每个初始评价对象进行初始权重值加权;第一迭代单元,用于在所述评价词无向加权图中进行迭代传播,确定所述候选评价词集中每个候选评价词的权重值;第一确定子单元,用于根据所述候选评价词的权重值进行排序,确定排序在预设值之前的候选评价词作为新评价词。优选的,所述第二确定单元包括:第二构建单元,用于构建所述候选评价对象集中的候选评价对象与所述初始评价词种子集的每个初始评价词的关系矩阵,生成评价对象无向加权图;第二加权单元,用于对所述初始评价词种本文档来自技高网...
一种细粒度的评价信息挖掘方法及系统

【技术保护点】
一种细粒度的评价信息挖掘方法,其特征在于,包括:获取初始评价对象种子集和初始评价词种子集;以所述初始评价对象种子集和所述初始评价词种子集作为基础,从评价语句中确定新评价对象和新评价词;将所述新评价对象和所述新评价词添加到所述初始评价对象种子集和所述初始评价词种子集,得到目标评价对象种子集和目标评价词种子集;从所述目标评价对象种子集和所述目标评价词种子集提取所述评价语句对应的评价信息,所述评论信息包括:评价对象和评价词,所述评价词为对所述评价对象进行评价的观点信息。

【技术特征摘要】
1.一种细粒度的评价信息挖掘方法,其特征在于,包括:获取初始评价对象种子集和初始评价词种子集;以所述初始评价对象种子集和所述初始评价词种子集作为基础,从评价语句中确定新评价对象和新评价词;将所述新评价对象和所述新评价词添加到所述初始评价对象种子集和所述初始评价词种子集,得到目标评价对象种子集和目标评价词种子集;从所述目标评价对象种子集和所述目标评价词种子集提取所述评价语句对应的评价信息,所述评论信息包括:评价对象和评价词,所述评价词为对所述评价对象进行评价的观点信息。2.根据权利要求1所述的细粒度的评价信息挖掘方法,其特征在于,所述以所述初始评价对象种子集和所述初始评价词种子集作为基础,从所述评价语句中确定新评价对象和新评价词,包括:以所述初始评价对象种子集和所述初始评价词种子集作为基础,根据半监督迭代法从所述评价语句中确定新评价对象和新评价词。3.根据权利要求2所述的细粒度的评价信息挖掘方法,其特征在于,所述以所述初始评价对象种子集和所述初始评价词种子集作为基础,根据半监督迭代法从所述评价语句中确定新评价对象和新评价词,包括:根据依存句法分析法对所述评价语句提取句法依存结构;以所述初始评价对象种子集和所述初始评价词种子集作为基础,获取所述初始评价对象种子集中初始评价对象的平均出现频次以及所述初始评价词种子集中初始评价词的平均出现频次;选取所述初始评价对象种子集中出现频次大于所述初始评价对象的平均出现频次的名词作为候选评价对象集中的候选评价对象;选取所述初始评价词种子集中出现频次大于所述初始评价词的平均出现频次的形容词作为候选评价词集中的候选评价词;以所述候选评价词集为基础,利用所述候选评价词集中的候选评价词确定新评价词;以所述候选评价对象集为基础,利用所述候选评价对象集中的候选评价对象确定新评价对象。4.根据权利要求3所述的细粒度的评价信息挖掘方法,其特征在于,所述利用所述候选评价词集中的候选评价词确定新评价词,包括:构建所述候选评价词集中的候选评价词与所述初始评价对象种子集的每个初始评价对象的关系矩阵,生成评价词无向加权图;对所述初始评价对象种子集的每个初始评价对象进行初始权重值加权;在所述评价词无向加权图中进行迭代传播,确定所述候选评价词集中每个候选评价词的权重值;根据所述候选评价词的权重值进行排序,确定排序在预设值之前的候选评价词作为新评价词。5.根据权利要求3所述的细粒度的评价信息挖掘方法,其特征在于,所述利用所述候选评价对象集中的候选评价对象确定新评价对象,包括:构建所述候选评价对象集中的候选评价对象与所述初始评价词种子集的每个初始评价词的关系矩阵,生成评价对象无向加权图;对所述初始评价词种子集的每个初始评价词进行初始权重值加权;在所述评价对象无向加权图中进行迭代传播,确定所述候选评价对象集中每个候选评价对象的权重值;根据所述候选评价对象的权重值进行排序,确定排序在预设值之前的候选评价对象作为新评价对象。6.根据权利要求1所述的细粒度的评价信息挖掘方法,其特征在于,所述根据半监督迭代法从所述评价语句中确定新评价对象和新评价词之后,还包括:根据所述新评价对象与所述初始评价对象种子集中的评价对象的共现频率指定所述新评价对象的类别。7.根据权利要求1所述的细粒度的评价信息挖掘方法,其特征在于,还包括:对所述评价语句对应的评价信息中的所述评价对象和所述评价词进行关联扩展。8.根据权利要求1所述的细粒度的评价信息挖掘方法,其特征在于,还包括:对所述评价语句对应的评价信息进行可视化显示。9.一种细粒度的评价信息挖掘...

【专利技术属性】
技术研发人员:谢忠玉鲍新平丁希晨沈一
申请(专利权)人:北京奇艺世纪科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1