提取商品属性信息的方法和设备技术

技术编号:4128886 阅读:205 留言:0更新日期:2012-04-11 18:40
公开了一种用于从包括评论语句的评论信息中提取商品属性信息的方法和设备。所述方法包括:a)对评论信息执行预处理;b)从预处理后的评论信息中提取出候选商品属性信息,并将出现次数满足预定条件的候选商品属性信息提取作为高频商品属性信息;c)通过利用从评论信息中获取的模板,进行基于模板的商品属性信息提取,以从评论信息中提取出补充商品属性信息;和d)根据预定过滤方法,对所述高频商品属性信息和补充商品属性信息进行过滤,并输出过滤后的商品属性信息。利用根据本发明专利技术实施例的方法和设备,可无指导地自动提取商品属性信息,而且在保证提取高频商品属性信息的同时,兼顾了商品属性信息提取过程中可能漏掉的非高频商品属性信息。

【技术实现步骤摘要】

本专利技术总体上涉及网络信息处理领域,并且尤其涉及一种无指导的、从互联网上 的众多用户评论信息中自动提取商品属性(product feature)信息的方法和设备
技术介绍
随着互联网的快速发展,互联网上的信息量每天都在以惊人的速度增长。越来越 多的人喜欢在网上发表他们对人、事、物的意见,网络上出现了大量的含有个人观点和评论 的信息。如何分析和监测网络上的评论信息,如何减轻人们阅读大量相关评论信息的工作 量,已经成为自然语言处理领域中的一个研究热点。在对评论信息进行分析时,如何从评论信息中提取出所关注的评论内容是一个基 本问题。例如,在购买电子商品“手机”之前,人们往往习惯于先查看一下网络上已有的关于 该商品的评论。此时,商品的属性、例如体积、屏幕大小、分辨率等都是所关注的评论内容。对于如何从商品评论信息中提取出商品的属性信息,首先想到的是基于词典的匹 配方法。它的前提是已经具有了一部涉及特定领域的属性词典。但是,基于词典的匹配方 法存在以下一个或多个问题 词典的覆盖率问题词典中收录的词汇相对有限,很难覆盖评论信息中的所有属 性词汇,例如,很难覆盖新出现的网络用语、缩写等;·与词典的简单匹配欠缺灵活性,例如,对于词典里收录的属性词“屏幕分辨率”, 评论信息中出现的诸如“屏幕的分辨率”、“高分辨率的屏幕”等用语都很难被匹配上,从而 使得难以提取出正确的商品属性信息;以及·词典的获取问题词典的构建是一件费时费力的工程。然而,由于词典匹配方法的局限性,目前,对于商品属性的提取,越来越多地采用 了从网上发表的商品评论信息中自动提取商品属性信息的技术。目前,与其相关的代表性研究主要包括· Minqing Hu 禾口 Bing Liu 所著的“Mining Opinion Features in Customer Reviews,,(参见 Proceedings of Nineteeth NationalConference on Artificial Intelligence (AAAI-2004),第 755 760 页,2004 年 7 月,美国圣约瑟);· Minqing Hu 禾口 Bing Liu 所 著 的“Mining and Summarizing Customer Reviews,,(参见 Proceedings of the tenth ACM SIGKDD international conference on Knowledge discovery and data mining,第 168 177 页,2004 年 8 月 22 25 日,美国华 盛顿州西雅图);以及· A.M. Popescu 禾口 o. Etzioni 所 著 的 “Extracting Product Features and Opinions from Reviews,,(参 见 Proceedings of the Human Language Technology Conference/Conference on Empirical Methods in Natural Language Processing (HLT-EMNLP-05),第 339-346 页,2005 年,加拿大温哥华)。在上述这些研究中,Bing Liu等人釆用了基于关联规则挖掘(Associate RuleMining)和词频统计的被评论特征提取方法,而Popescu等人采用了基于点互信息的属性词提取。其中,对词语的出现频率信息的利用有利于从评论信息中提取出高频的商品特征, 但是往往忽略了低频的商品特征。
技术实现思路
在下文中给出了关于本专利技术的简要概述,以便提供关于本专利技术的某些方面的基本 理解。应当理解,这个概述并不是关于本专利技术的穷举性概述。它并不是意图确定本专利技术的 关键或重要部分,也不是意图限定本专利技术的范围。其目的仅仅是以简化的形式给出某些概 念,以此作为稍后论述的更详细描述的前序。本专利技术旨在至少解决现有技术中存在的上述问题之一,实现商品属性信息的自动 提取,从而至少部分地弥补人工费时费力的缺点、或者基于词典提取的词典覆盖率及灵活 性差等缺点。为此,本专利技术的一个目的是提供一种用于从包括评论语句的评论信息中提取商品 属性信息的方法和设备,其能够无指导地自动提取商品属性信息,并且能够通过基于模板 的商品信息提取过程提取出在高频商品属性信息提取过程中被漏掉的非高频商品属性信 息,作为对高频商品属性信息的补充。本专利技术的另一个目的是提供在被计算设备执行时使计算设备能够执行上述方法 的处理过程的计算机程序代码,以及其上存储有该计算机程序代码的计算机可读存储介质 及计算机程序产品。为了实现上述目的,根据本专利技术的一个方面,提供了一种用于从包括评论语句的 评论信息中提取商品属性信息的方法,其包括如下步骤a)对评论信息执行包括分句、分 词、词性标注在内的预处理;b)从经预处理后的评论信息中提取出候选商品属性信息,并 将在评论信息中出现的次数满足预定条件的候选商品属性信息提取作为高频商品属性信 息;c)通过利用根据所提取出的高频商品属性信息从评论信息中获取的模板,进行基于模 板的商品属性信息提取,以从评论信息中提取出补充商品属性信息;以及d)根据预定的过 滤方法,对所提取出的高频商品属性信息和补充商品属性信息进行过滤,并输出过滤后的 商品属性信息。根据本专利技术的另一个方面,还提供了一种用于从包括评论语句的评论信息中提取 商品属性信息的设备,其包括预处理单元,用于对评论信息执行包括分句、分词、词性标注 在内的预处理;高频商品属性信息提取单元,用于从经预处理后的评论信息中提取出候选 商品属性信息,并将在评论信息中出现的次数满足预定条件的候选商品属性信息提取作为 高频商品属性信息;补充商品属性信息提取单元,用于通过利用根据所提取出的高频商品 属性信息从评论信息中获取的模板,进行基于模板的商品属性信息提取,以从评论信息中 提取出补充商品属性信息;以及过滤单元,用于根据预定的过滤方法,对所提取出的高频商 品属性信息和补充商品属性信息进行过滤,并输出过滤后的商品属性信息。依据本专利技术的其它方面,还提供了相应的计算机程序代码、计算机可读存储介质 和计算机程序产品。本专利技术的一个优点在于,在根据本专利技术实施例的用于从评论信息中提取商品属性 信息的方法和系统中,首先从经过包括分句、分词、词性标注等在内的预处理的评论信息中提取出高频商品属性信息,然后基于高频商品属性信息获取相应的模板,并利用模板从预处理后的评论信息中进一步提取商品属性信息。这样,通过利用根据本专利技术实施例的方法 和系统,可以无指导地并且高效地从给定评论信息集合中自动提取出商品属性信息,消除 了人工提取信息费时费力的缺点,可以提高信息提取效率和缩短信息提取周期。本专利技术的又一个优点在于,在根据本专利技术实施例的用于从评论信息中提取商品属 性信息的方法和系统中,没有采用基于词典的信息提取技术,而是在从经过预处理的评论 信息中利用统计信息提取出高频商品属性信息后,利用模板从评论信息中进一步提取商品 属性信息。这样,在保证提取高频商品属性信息的基础上,通过引入基于所提取的高频商品 属性信息而获取的模板再次从评论信本文档来自技高网
...

【技术保护点】
一种用于从包括评论语句的评论信息中提取商品属性信息的方法,包括如下步骤:a)对评论信息执行包括分句、分词、词性标注在内的预处理;b)从经预处理后的评论信息中提取出候选商品属性信息,并将在评论信息中出现的次数满足预定条件的候选商品属性信息提取作为高频商品属性信息;c)通过利用根据所提取出的高频商品属性信息从评论信息中获取的模板,进行基于模板的商品属性信息提取,以从评论信息中提取出补充商品属性信息;以及d)根据预定的过滤方法,对所提取出的高频商品属性信息和补充商品属性信息进行过滤,并输出过滤后的商品属性信息。

【技术特征摘要】
一种用于从包括评论语句的评论信息中提取商品属性信息的方法,包括如下步骤a)对评论信息执行包括分句、分词、词性标注在内的预处理;b)从经预处理后的评论信息中提取出候选商品属性信息,并将在评论信息中出现的次数满足预定条件的候选商品属性信息提取作为高频商品属性信息;c)通过利用根据所提取出的高频商品属性信息从评论信息中获取的模板,进行基于模板的商品属性信息提取,以从评论信息中提取出补充商品属性信息;以及d)根据预定的过滤方法,对所提取出的高频商品属性信息和补充商品属性信息进行过滤,并输出过滤后的商品属性信息。2.一种用于从包括评论语句的评论信息中提取商品属性信息的设备,包括预处理单元,用于对评论信息执行包括分句、分词、词性标注在内的预处理;高频商品属性信息提取单元,用于从经预处理后的评论信息中提取出候选商品属性信 息,并将在评论信息中出现的次数满足预定条件的候选商品属性信息提取作为高频商品属 性信息;补充商品属性信息提取单元,用于通过利用根据所提取出的高频商品属性信息从评论 信息中获取的模板,进行基于模板的商品属性信息提取,以从评论信息中提取出补充商品 属性信息;以及过滤单元,用于根据预定的过滤方法,对所提取出的高频商品属性信息和补充商品属 性信息进行过滤,并输出过滤后的商品属性信息。3.根据权利要求2所述的设备,其中,所述补充商品属性信息提取单元进一步包括模板获取器,用于基于所提取出的高频商品属性信息,从经预处理后的评论信息中提取高频商品属性信息的上下文信息,由此获取模板;以及商品属性信息提取器,用于利用所获取的模板从经预处理后的评论信息中提取商品属 性信息,并将其输出作为补充商品属性信息。4.根据权利要求3所述的设备,其中,所述模板获取器通过下述方式获取模板基于所提取出的每一个高频商品属性信息,从经预处理后的评论信息中提取每一个高 频商品属性信息的上下文信息,从而构成一个候选模板;用每一个候选模板在评论信息中包括的所有评论语句中进行匹配,并统计出候选模板 在所有评论语句中被匹配上的频度;以及基于对候选模板的频度统计结果,从所有候选模板中选择满足预定条件的候选模板, 并将其输出作为从评论信息中获取的模板。5.根据权利要求4所述的设备,其中,在所述补充商品属性信息提取单元确定要循环 执行基于模板的商品属性信息提取的情况下,模板获取器基于所获取的补充商品属性信息 从评论信息中重新获取模板,而且商品属性信息提取器基于新获取的模板执行商品属性信 息提取,并重复这个过程,直到满足循环结束条件为止。6.根据权利要求3至5中任意一项所述的设备,其中,所述商品属性...

【专利技术属性】
技术研发人员:张姝夏迎炬孟遥于浩
申请(专利权)人:富士通株式会社
类型:发明
国别省市:JP[日本]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1