一种情感特征的识别方法及装置制造方法及图纸

技术编号:17939535 阅读:70 留言:0更新日期:2018-05-15 19:59
本发明专利技术公开了一种情感特征的识别方法及装置,涉及信息技术领域,解决了现有技术中情感特征识别的效率较低和准确率较低的问题。本发明专利技术的主要技术方案为:首先获取目标产品的评论数据,所述产品评论数据包括产品评论文本数据;然后按照预置处理规则对所述产品评论文本数据进行处理,得到包含相同情感词的多个句子;最后将所述多个句子之间包含所述情感词的最长公共子串确定为目标产品的情感特征。本发明专利技术适用于情感特征的识别。

A method and device for recognition of emotional features

The invention discloses an emotion feature recognition method and device, which relates to the field of information technology, and solves the problem of low efficiency and low accuracy in the recognition of emotional features in the existing technology. The main technical scheme of the invention is as follows: first, the review data of the target product is obtained, the product review data includes the text data of the product review, and then the text data of the product review is processed according to the preprocessing rules, and multiple sentences containing the same emotional words are obtained; finally, the multiple sentences are included. The longest common substring of the emotion word is determined as the emotional characteristic of the target product. The invention is suitable for the recognition of emotional features.

【技术实现步骤摘要】
一种情感特征的识别方法及装置
本专利技术涉及信息
,尤其涉及一种情感特征的识别方法及装置。
技术介绍
随着信息技术的不断发展,越来越多的用户在网络上购买产品并对购买的产品进行评论。在实际应用中,产品评论直接影响产品营销。近年来,随着产品评论对产品营销的影响越来越大,从产品评论数据中识别出情感特征,然后根据情感特征进行自然语言处理中的情感分析、观点挖掘越来越重要。其中,情感特征是指能够表达正面、负面或者中立的字符串。例如,根据情感特征可以分析有关产品文章中作者对该产品的评价倾向。目前,在进行情感特征识别时,通常采用人工方式识别产品评论数据中的情感特征。然而,由于产品评论数据中的情感特征的数量庞大,若采用人工方式识别产品评论数据中的情感特征,需要投入大量的人力成本、时间成本且人工识别过程中容易出错,导致情感特征识别的效率较低和准确率较低。
技术实现思路
鉴于上述问题,提出了本专利技术,以便提供一种克服上述问题或者至少部分地解决上述问题的情感特征的识别方法及装置。为达到上述目的,本专利技术主要提供如下技术方案:一方面,本专利技术提供了一种情感特征的识别方法,所述方法包括:获取目标产品的评论数据,所述评论数据包括产品评论文本数据;按照预置处理规则对所述产品评论文本数据进行处理,得到包含相同情感词的多个句子;将所述多个句子之间包含所述情感词的最长公共子串确定为情感特征。另一方面,本专利技术提供了一种情感特征的识别装置,所述装置包括:获取单元,用于获取目标产品的评论数据,所述评论数据包括产品评论文本数据;处理单元,用于按照预置处理规则对所述获取单元获取的所述产品评论文本数据进行处理,得到包含相同情感词的多个句子;确定单元,用于将所述处理单元处理得到的所述多个句子之间包含所述情感词的最长公共子串确定为情感特征。借由上述技术方案,本专利技术提供的一种情感特征的识别方法及装置。首先获取目标产品的评论数据,所述评论数据包括产品评论文本数据;然后按照预置处理规则对所述产品评论文本数据进行处理,得到包含相同情感词的多个句子;最后将所述多个句子之间包含所述情感词的最长公共子串确定为情感特征。与目前采用人工方式识别产品评论数据中的情感特征相比,本专利技术通过按照预置处理规则对所述产品评论文本数据进行处理,得到包含相同情感词的多个句子,然后将所述多个句子之间包含所述情感词的最长公共子串确定为情感特征,实现了自动识别情感特征,避免了投入大量的人力成本、时间成本且能够正确识别情感特征,从而提高了情感特征识别的效率和准确率。附图说明通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:图1为本专利技术实施例提供的一种情感特征的识别方法流程图;图2为本专利技术实施例提供的另一种情感特征的识别方法流程图;图3为本专利技术实施例提供的一种情感特征的识别装置结构示意图;图4为本专利技术实施例提供的另一种情感特征的识别装置结构示意图。具体实施方式下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。为使本专利技术技术方案的优点更加清楚,下面结合附图和实施例对本专利技术作详细说明。本专利技术实施例提供了一种情感特征的识别方法,如图1所示,所述方法包括:101、获取目标产品的评论数据。其中,所述评论数据包括产品评论文本数据。所述目标产品可以为电脑、手机、电视等。需要说明的是,所述产品评论数据可以为从购物类的网站上抓取的,具体可以为通过爬虫程序从购物类的网站上抓取的。例如,产品评论文本数据为“考虑了很久才购买的,这个是新款,绝对正品。性价比高,值得推荐,期待装机效果。”。102、按照预置处理规则对产品评论文本数据进行处理,得到包含相同情感词的多个句子。其中,预置处理规则可以根据用户的需求进行配置,也可以根据系统默认模式进行配置,本专利技术实施例不做限定。例如,预置处理规则可以为先对产品评论文本数据进行分句处理,然后对分句处理后的句子进行分词处理,最后根据预置情感词典和分词处理得到的词语,从所述分句处理得到的句子中筛选出包含情感词的句子并从包含情感词的句子中获取包含相同情感词的多个句子。例如,产品评论文本数据为“考虑了很久才购买的,这个是新款正品。性价比高,值得推荐,期待装机效果。”和“很薄很轻便但是很坚固,感觉很耐用。非常值得购买,性价比高,质量非常不错。”。对产品评论文本数据“考虑了很久才购买的,这个是新款正品。性价比高,值得推荐,期待装机效果。”进行分句处理后得到的句子为:句子1和句子2。其中,句子1为“考虑了很久才购买的,这个是新款正品。”;句子2为“性价比高,值得推荐,期待装机效果。”。对句子1进行分词处理后的词语为:考虑/了/很久/才/购买/的/这个/是/新款/正品。对句子2进行分词处理后的词语为:性价/比/高/值得/推荐/期待/装机/效果。根据预置情感词典可以获知上述词语中“高”为情感词,则包含情感词的句子为句子2。同样的,对产品评论文本数据“很薄很轻便但是很坚固,感觉很耐用。非常值得购买,性价比高,质量非常不错。”进行分词处理得到的句子为句子3和句子4。其中,句子3为“很薄很轻便但是很坚固,感觉很耐用。”;句子4为“非常值得购买,性价比高,质量非常不错。”。对句子3进行分词处理后的词语为:很/薄/很/轻便/但是/很/坚固感觉/很/耐用。对句子4进行分词处理后的词语为:非常/值得/购买/性价/比/高/质量/非常/不错。根据预置情感词典可以获知上述词语中“高”、“不错”为情感词,则包含情感词的句子为句子4。经过上述分析可知,包含情感词的句子为句子2、句子4。其中,句子2和句子4包含相同情感词“高”,则最后得到包含相同情感词的句子为句子2和句子4。103、将包含相同情感词的多个句子之间包含情感词的最长公共子串确定为目标产品的情感特征。其中,情感特征是指能够表达正面、负面或者中立的字符串。需要说明的,可以通过基于动态规划的最长公共子串算法,来查找多个句子之间包含情感词的最长公共子串,也可以通过基于暴力解法的最长公共子串算法,来查找多个句子之间包含情感词的最长公共子串。在实际应用中,为了简化最长公共子串计算的复杂度,节省系统资源通常通过基于动态规划的最长公共子串算法,来查找多个句子之间包含情感词的最长公共子串。例如,包含相同情感词的句子有句子2“性价比高,值得推荐,期待装机效果。”和句子4“非常值得购买,性价比高,质量非常不错。”。其中,句子2和句子4包含相同情感词“高”,句子2和句子4之间包含情感词“高”的最长公共子串为“性价比高”,则将“性价比高”确定为情感特征。本专利技术实施例提供的一种情感特征的识别方法。首先获取目标产品的评论文本数据;然后按照预置处理规则对所述产品评论文本数据进行处理,得到包含相同情感词的多个句子;最后将所述多个句子之间包含所述情感词的最长公共子串确定为情感特征。与目前采用人工方式识别产品评论数据中的情感特征相本文档来自技高网...
一种情感特征的识别方法及装置

【技术保护点】
一种情感特征的识别方法,其特征在于,包括:获取目标产品的评论数据,所述评论数据包括产品评论文本数据;按照预置处理规则对所述产品评论文本数据进行处理,得到包含相同情感词的多个句子;将所述多个句子之间包含所述情感词的最长公共子串确定为所述目标产品的情感特征。

【技术特征摘要】
1.一种情感特征的识别方法,其特征在于,包括:获取目标产品的评论数据,所述评论数据包括产品评论文本数据;按照预置处理规则对所述产品评论文本数据进行处理,得到包含相同情感词的多个句子;将所述多个句子之间包含所述情感词的最长公共子串确定为所述目标产品的情感特征。2.根据权利要求1所述的方法,其特征在于,所述按照预置处理规则对所述产品评论文本数据进行处理,得到包含相同情感词的多个句子包括:按照预设分句规则对所述产品评论文本数据进行分句处理;按照预设分词规则对分句处理得到的句子进行分词处理;根据预置情感词典和分词处理得到的词语,从所述分句处理得到的句子中筛选出包含情感词的句子,所述预置情感词典中保存有不同的情感词;从所述包含情感词的句子中获取包含相同情感词的多个句子。3.根据权利要求1所述的方法,其特征在于,所述评论数据还包括所述产品评论文本数据的评价等级,所述将所述包含情感词的最长公共子串确定为所述目标产品的情感特征之后,所述方法还包括:查找所述目标产品的情感特征对应的评价等级;将所述评价等级与所述目标产品的情感特征进行关联,得到所述情感特征对应的情感类别。4.根据权利要求3所述的方法,其特征在于,所述将所述目标评论文本数据的评价等级与所述目标产品的情感特征进行关联,得到所述情感特征对应的情感类别之后,所述方法还包括:获取所述产品评论文本数据的评价等级对应的评价值;根据所述评价值确定所述多个句子的情感值,并获取所述多个句子包含的词语个数;将所述多个句子的情感值与所述词语个数的商确定为所述情感特征在所述多个句子中的情感值,所述情感特征在所述多个句子中为一个词语;将所述情感特征在所述多个句子中的情感值的平均值确定为所述情感特征的情感值。5.根据权利要求4所述的方法,其特征在于,所述将所述情感特征在所述多个句子中的情感值的平均值确定为所述情感特征的情感值之后,所述方法还包括:获取情感类别相同的各个情感特征以及所述各个情感特征分别对应的情感值;根据所述各个情感特征分别对应的情感值,统计各个情感类别...

【专利技术属性】
技术研发人员:朱波
申请(专利权)人:北京国双科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1