对评论文本进行评价的方法和装置制造方法及图纸

技术编号:7996290 阅读:205 留言:0更新日期:2012-11-22 05:07
本发明专利技术提出了一种对评论文本进行评价的方法和装置。该方法,包括:使用回归模型对待评价的评论文本进行评价,其中所述评论回归模型是根据由历史评论文本集合结合各个历史评论文本对应的评价在考虑了评论者和/或评论对象的因素下形成的训练样本集合而获得的。本发明专利技术实施例将评论者和/或评论对象的因素考虑进回归模型,以使评价更贴近于实际,能够更加真实、完全地反映评论的极性和强度。

【技术实现步骤摘要】

本专利技术涉及语义分析领域,特别是涉及一种对评论文本进行评价的方法和装置
技术介绍
随着因特网的发展,越来越多的人在网上发布信息,其中包括了很多评论者对产品、事件、政策等的评论。由于网上的评论通常数量庞大而且评论的对象(例如产品、时间、政策等)繁杂,因此需要通过评价来分析评论者的评论。其中,评论可以是评论者输入的一段文字,评价可以是评论者进行的分类或打分等操作。评论者在评论的同时可以进行评价。分类一般是把评论分为正面、负面(有的时候加上中性)等几个极性。打分是给评论一个分数,用来评价这个评论的极性和强度。这样,第三方可以快速地通过评价来了解评论者的评论。 然而,现在有些网站并不提供评论的评价机制,也有些网站早期并没有提供评价机制,这些情况下需要系统自动对评论进行评价。以评价机制中的打分为例,一个典型的打分方式是星级。例如很多购物网站允许评论者用I 5颗星衡量商品,5颗星代表最好,I颗星代表最差;这里I 5就是分数。相对于星级,更细致的方式是给出一个连续值,例如4. 3。这种方式的好处是商品能更细致地排序例如当评论者搜索相机的时候,两个满足评论者需求但都是4颗星的相机是无法区分相对优劣的。而如果相机A打分为4. 1,B打分为4. 4,就可以容易地区分开了 ;排序的时候可以把B排在A的前面,使评论者可以先看到更好的商品。当然,一般购物等网站都不要求评论者直接给出连续值评分。文献l,Bo Pang 和 Lillian Lee.等人的论文 Seeing stars !Exploiting classrelationships for sentiment categorization with respect to rating scales,Proceedings of the 43rd Annual Meeting of the ACL, pages I15—124,Ann Arbor,2005年6月,介绍了一种根据评论的本文自动对评论打分的方法。该方法主要分三步首先从预先收集的包含评论者打分的评论中提取文本和对应的分数,形成训练样本集;然后根据文本中的词形成向量,并建立回归模型;最后用训练样本集对回归模型进行求解,最后得到回归模型的参数。这样就可以根据这些参数和回归模型一起对新的、没有分数的评论进行自动打分。在此,通过引用的方式将文献I并入本文。文献I中介绍的方法的缺点在于仅仅考虑了评论的文本,造成评价无法真实、完全地反映评论的极性和强度。
技术实现思路
考虑到现有技术的上述缺陷,本专利技术提出了一种对评论文本进行评价的方法和装置。其中,将评论者和/或评论对象的因素考虑进回归模型。根据本专利技术的第一方面,提出了一种对评论文本进行评价的方法,包括使用评价回归模型对待评价的评论文本进行评价;其中,所述评论回归模型是根据由历史评论文本集合结合各个历史评论文本对应的评价在考虑了评论者和/或评论对象的因素下形成的训练样本集合而获得的。根据本专利技术的第二方面,提出了一种对评论文本进行评价的装置,其中,该装置包括第一获取模块,用于获取待评价的评论文本;评价模块,用于通过评价回归模型对待评价的评论文本进行评价,其中所述评论回归模型是根据由历史评论文本集合结合各个历史评论文本对应的评价在考虑了评论者和/或评论对象的因素下形成的训练样本集合而获得的。根据本专利技术的第三方面,提出了一种用于获取评价评论文本的回归模型的方法,包括获取历史评论文本集合和各个历史评论文本对应的评价;根据评论者和/或评论对象进行区分对所述历史评论文本集合进行区分;以及使用由所述区分的历史评论文本集合结合各个历史评论文本对应的评价形成的训练样本集合来求解所述评价回归模型。·根据本专利技术的实施例对评论文本进行的自动评价,由于考虑了评论者和/或评论对象,能够更加真实、完全地反映评价的极性和强度,并且有助于第三方通过该分数来了解评论者的评论所传达的评价。附图说明通过下面结合附图说明本专利技术的优选实施例,将使本专利技术的上述及其它目的、特征和优点更加清楚,其中图I是示出了根据本专利技术的一个实施例的对评论文本进行评价的方法的流程图;图2是示出了根据本专利技术的一个实施例的确定评价回归模型的流程图;图3示出了根据本专利技术的一个实施例的使用回归模型对待评价的评论文本进行评价的过程;图4示出了用于实现根据本专利技术的一个实施例的用于对评论文本进行评价的装置;图5示出了用于实现根据本专利技术的一个实施例的用于获取评论回归模型的装置;图6示出了用于实现根据本专利技术的另一个实施例的用于对评论文本进行评价的>J-U ρ α装直。在本专利技术的所有附图中,相同或相似的附图标记标识表示相同或相似的结构和步骤。具体实施例方式下面将结合附图参考若干示例性实施例来描述本专利技术的原理和精神。应当理解,给出这些实施例仅是为了使本领域技术人员能够更好地理解进而实现本专利技术,而并非以任何方式限制本专利技术的范围。在描述过程中省略了对于本专利技术来说是不必要的细节和功能,以防止对本专利技术的理解造成混淆。正如现有技术中指出的,文献I中介绍的方法的缺点在于仅仅考虑了评论的文本,造成评价无法真实、完全地反映评论的极性和强度。这是由于不同评论者即使使用相同的词,其真正表达的评价的极性和强度可能是不同的。例如一个比较宽容的人可能对很多商品都说“好”,真实的含义可能是“还行”、“凑合”,而一个比较严格的人如果说某个商品“好”,那么可能是“非常好”、“很棒”。所以,如果脱离了评论者,仅仅考虑“好”这个词,并不能真正地、完全地反映评价的极性和强度。同样的,同一个词在评价不同的评论对象(即商品)时也可能有不同的含义。例如“大”这个词,如果是手机声音大,那么是个好的特性,而如果是吸尘器声音大,那么类似噪音大,是个不好的特性。所以脱离了评论对象(例如手机或吸尘器)而单独考虑词本身,也不能真正地、完全地反映评价的极性和强度。而如果可以将不同的评论者区分开,和/或将对不同的评论对象区分开,则可以提高评价的极性和强度。为此,本专利技术提出了能够克服上述问题的用于对评论文本进行评价的方法和装置。同时,提出了一种考虑了评论者和/或评论对象的回归模型。下面参考附图进行详细 描述。图I是示出了根据本专利技术的一个实施例的对评论文本进行评价的方法的流程图100。图I所示的方法100从步骤SllO开始。在步骤SllO中,获取待评价的评论文本。如上所述,该待评价的评论文本可以是未提供评价机制的网站上的评论对应于的文本,或者其他没有包含评价的评论对应的文本。在步骤S120中,使用回归模型对待评价的评论文本进行评价。在步骤S120中使用的评价机制可以是分类、打分(例如星级评价机制)、或者任何其他的可以统计的评价机制。应该理解,回归模型是一种对统计关系进行定量描述的数学模型,可以表征一组自变量对于应变量的影响。在本专利技术的实施例中,将评论者和评论对象的因素考虑进打分模型,建立了基于评论文本、评论者和评论对象三个因素的回归模型。由于该回归模型与多个因素相关联,所以也称为多元回归模型。本专利技术的用于评价的回归模型可以使用训练样本集合进行训练来获得。训练样本集合可以由历史评论文本集合结合其对应的评价来形成。作为训练样本,每条历史评论文本已经对应一个评价,例如分数。这种历史评论文本例如可以从众多提供评本文档来自技高网
...

【技术保护点】
一种对评论文本进行评价的方法,包括:使用回归模型对待评价的评论文本进行评价;其中,所述评论回归模型是根据由历史评论文本集合结合各个历史评论文本对应的评价在考虑了评论者和/或评论对象的因素下形成的训练样本集合而获得的。

【技术特征摘要】

【专利技术属性】
技术研发人员:赵凯胡长建许洪志王大亮
申请(专利权)人:日电中国有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1