情感信息的提取方法及装置制造方法及图纸

技术编号:16101822 阅读:42 留言:0更新日期:2017-08-29 22:31
本发明专利技术公开了一种情感信息的提取方法及装置,涉及自然语言处理技术领域,解决了现有的情感信息提取准确率低的问题。本发明专利技术的主要技术方案为:获取待提取情感信息的语料;通过情感词典对概率标注模型进行修正;根据所述修正的概率标注模型对所述语料进行标签标注,所述标注的标签中包括评价对象标签和情感词标签;从所述语料的标注结果中提取所述评价对象标签对应的词语和所述情感词标签对应的词语。本发明专利技术主要用于从目标文本中提取情感信息。

【技术实现步骤摘要】
情感信息的提取方法及装置
本专利技术涉及自然语言处理
,尤其涉及一种情感信息的提取方法及装置。
技术介绍
随着互联网的飞速发展,人们越来越多地在网络上表达自己的观点与情感,这类文本往往以商品评论、论坛评论、博客的形式存在,并且大部分文本能很好的反映人们的看法和意见。而通过人工的方法来分析这些海量文本中的情感信息需要耗费大量的时间,人力和物力,在这种背景下,情感分析技术应运而生,并在自然语言处理研究领域得到了广大研究者的关注,具有很大的应用价值。而情感分析技术研究主要集中于情感信息提取工作,即提取文本信息中的:评价词语(PolarityWord)和评价对象(OpinionTarget)。评价词语即情感词,指带有情感色彩的词语,在情感信息抽取中起着非常重要的作用。评价对象指某段评论中所讨论的主题,具体表现为评论文本中评价词语所修饰的对象。目前,现有的情感信息抽取方法主要分为两类:人工构建和关联规则挖掘。而现有的两类方法对情感评价对象抽取来说,主要存在以下问题:人工构建的方法相当耗时耗力,并且构建出来的评价对象集合,对新出现的对象不能很好的识别;基于关联规则的抽取方法没有充分考虑短语评价对象的结构特征以及评价对象的领域相关性,会产生很多的噪声。
技术实现思路
鉴于上述问题,提出了本专利技术,以便提供一种克服上述问题或者至少部分地解决上述问题的情感信息的提取方法及装置。为达到上述目的,本专利技术主要提供如下技术方案:一方面,本专利技术实施例提供了一种情感信息的提取方法,该方法包括:获取待提取情感信息的语料;通过情感词典对概率标注模型进行修正;根据所述修正的概率标注模型对所述语料进行标签标注,所述标注的标签中包括评价对象标签和情感词标签;从所述语料的标注结果中提取所述评价对象标签对应的词语和所述情感词标签对应的词语。另一方面,本专利技术实施例还提供一种情感信息的提取装置,该装置包括:获取单元,用于获取待提取情感信息的语料;修正单元,用于通过情感词典对概率标注模型进行修正;标注单元,用于根据所述修正的概率标注模型对所述语料进行标签标注,所述标注的标签中包括评价对象标签和情感词标签;提取单元,用于从所述语料的标注结果中提取所述评价对象标签对应的词语和所述情感词标签对应的词语。借由上述技术方案,本专利技术实施例提供的技术方案至少具有下列优点:本专利技术实施例提供的一种情感信息的提取方法及装置,首先获取待提取情感信息的语料,然后通过情感词典对概率标注模型进行修正,再根据所述修正的概率标注模型对所述语料进行标签标注,所述标注的标签中包括评价对象标签和情感词标签,最后从所述语料的标注结果中提取所述评价对象标签对应的词语和所述情感词标签对应的词语。与目前通过人工构建方法或关联规则挖掘方法进行提取情感信息相比,本专利技术实施例通过使用情感词典指导概率标注模型的方式,提高概率标注模型中标注数据的准确性,且使用情感词典指导概率标注模型的方法能够有效利用评价对象的上下文环境,有效的建立了评价对象和情感词之间的对应关系,另外使用概率标注模型有效的减少了人工工作的成本,因此通过本专利技术实施例可以提高概率标注的准确性,从而提高了情感信息提取的准确性。附图说明通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:图1为本专利技术实施例提供的一种情感信息的提取方法流程图;图2为本专利技术实施例提供的另一种情感信息的提取方法流程图;图3为本专利技术实施例提供的一种情感信息的提取装置的组成框图;图4为本专利技术实施例提供的另一种情感信息的提取装置的组成框图。具体实施方式下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。为使本专利技术技术方案的优点更加清楚,下面结合附图和实施例对本专利技术作详细说明。本专利技术实施例提供了一种情感信息的提取方法,如图1所示,所述方法包括:101、获取待提取情感信息的语料。其中,所述待提取情感信息的语料具体可以为商品评论、论坛评论、博客等带有情感语气的文本数据,本专利技术实施例不做具体限定。102、通过情感词典对概率标注模型进行修正。对于本专利技术实施例,通过情感词典对概率标注模型进行修正具体可以为:首先根据情感词典对待提取情感信息的语料进行标注情感词标签,即标注出待提取情感信息语料中和情感词典对应的词语标签,然后将通过情感词典标注的待提取情感信息的语料送入概率标注模型中,根据待提取情感信息语料中已标注的情感词标签,及情感词的上下文等信息指导概率标注模型,即通过情感词典在待提取情感信息语料中标注的情感词标签对概率标注模型进行修正,从而使得概率标注模型更加准确,进而提高了语料标准的准确性。例如,当一个句子中存在情感词典中的一个词语时,该词语的标签将不通过概率标注模型来确定,而是直接打上情感词标签,然后将打上情感词标签的句子送入到概率标注模型中,并且在概率标注模型计算其他标签时,要考虑通过情感词典标注情感词标签的上下文信息,以减少将其他副词或者形容词打上情感词标签的可能性,同时降低了当前词语满足特征被打上情感词之外的其他标签的概率。从而使得概率标注模型更加准确,进而提高了对待提取情感信息的语料标注标签的准确性。103、根据所述修正的概率标注模型对所述语料进行标签标注。其中,所述标注的标签中包括评价对象标签和情感词标签,情感词标签指带有情感色彩的词语,在情感信息抽取中起着非常重要的作用,评价对象标签是抽取待提取情感信息的语料中情感表达所面向的对象,该任务是情感信息抽取任务研究最为广泛的一项任务。在本专利技术实施例中,标注的标签中除了包括评价对象标签和情感词标签,还包括连接词标签、标点符号标签、助词标签等,本专利技术实施例不做具体限定。在本专利技术实施例中,对所述语料进行标注的标签为表1中的标签模型集合,其中通过标签名称SBV和VOB表示评价对象标签,标签名称OB表示情感词标签。需要说明的是,通过本专利技术标注的评价对象标签中包括评价对象和感情词的对应关系,如SBV表示评价对象位于情感词前,构成评价对象-评价词语结构;VOB表示评价对象位于情感词后,构成评价词语-评价对象结构。从而通过本专利技术实施例标注的标签,可以更准确地建立评价词语和评价对象之间的对应关系,提高概率标注的准确性。表1104、从所述语料的标注结果中提取所述评价对象标签对应的词语和所述情感词标签对应的词语。在本专利技术实施例中,通过步骤103标注的标签,结合标签的实际意义,将待提取情感信息语料中的SBV和VOB评价对象标签抽取出来,并且将与他们对应的OB标签抽取出来,从而完成了评价对象与情感词的抽取工作。本专利技术实施例通过使用情感词典指导概率标注模型的方式,提高概率标注模型中数据标注的准确性,且使用情感词典指导概率标注模型的方法能够有效利用评价对象的上下文环境,有效的建立评价对象和情感词之间的对应关系,另外使用概率标注模型有效的减少了人工工作的成本,因此通过本专利技术实本文档来自技高网...
情感信息的提取方法及装置

【技术保护点】
一种情感信息的提取方法,其特征在于,包括:获取待提取情感信息的语料;通过情感词典对概率标注模型进行修正;根据所述修正的概率标注模型对所述语料进行标签标注,所述标注的标签中包括评价对象标签和情感词标签;从所述语料的标注结果中提取所述评价对象标签对应的词语和所述情感词标签对应的词语。

【技术特征摘要】
1.一种情感信息的提取方法,其特征在于,包括:获取待提取情感信息的语料;通过情感词典对概率标注模型进行修正;根据所述修正的概率标注模型对所述语料进行标签标注,所述标注的标签中包括评价对象标签和情感词标签;从所述语料的标注结果中提取所述评价对象标签对应的词语和所述情感词标签对应的词语。2.根据权利要求1所述的方法,其特征在于,所述概率标注模型为条件随机场模型,所述条件随机场模型为所述概率标注模型中的一种,所述通过情感词典对概率标注模型进行修正包括:通过情感词典对条件随机场模型进行修正;所述根据所述修正的概率标注模型对所述语料进行标签标注包括:根据所述修正的条件随机场模型对所述语料进行标签标注。3.根据权利要求2所述的方法,其特征在于,所述根据所述修正的条件随机场模型对所述语料进行标签标注之前,所述方法还包括:对训练语料进行分词处理;通过预置标签模型集合,结合所述训练语料的上下文语义特征、单字特征及分词词性与词性的边界位置的结合特征对所述训练语料进行标签标注;其中,所述预置标签模型集合中包括所述评价对象标签和所述情感词标签,所述评价对象标签中包含有评价所述评价对象的情感词的位置信息;根据所述标注标签的训练语料生成所述条件随机场模型。4.根据权利要求2所述的方法,其特征在于,所述通过情感词典对条件随机场模型进行修正包括:查询所述语料中与所述情感词典中相同的词语;将所述相同的词语标注上所述情感词标签;通过所述情感词典标注的情感词标签及所述情感词标签对应的上下文信息修正所述条件随机场模型。5.根据权利要求3所述的方法,其特征在于,从所述语料的标注结果中提取所述评价对象标签对应的词语和所述情感词标签对应的词语包括:从所述语料的标注结果中提取标注所述评价对象标签的词语和与所述评价对象标签对应的情...

【专利技术属性】
技术研发人员:韩旭红
申请(专利权)人:北京国双科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1