The invention proposes a method of product feature extraction based on pattern matching. The specific steps are as follows: 1, comment corpus acquisition; 2, Chinese Natural Language Processing; 3, product feature extraction. The innovation point of the whole method in step 3 is the five criteria that the product features must be satisfied, and steps 1 and 2 are the basic work of product feature extraction. The aim of the invention is to provide a convenient and efficient method for extracting product features. It is an extension of the existing method of product feature extraction. By using the invention, the researchers can quickly and effectively extract the product features, and improve the accuracy, recall and F value of the product feature extraction.
【技术实现步骤摘要】
基于模式匹配的产品特征提取方法
:本专利技术属于文本挖掘领域,涉及一种基于模式匹配的产品特征提取方法,是一种无监督的产品特征提取方法。
技术介绍
:随着网络技术的发展和网络应用服务的多样化,人们可以随时随地通过电子产品获得或分享信息,以用户为中心的Web2.0时代已悄然而至。现代生活节奏快,工作负荷较重,网络购物以其方便、快捷的特点吸引越来越多的人通过互联网购买产品,因此,电子商务在我国得到了蓬勃的发展。截止2016年12月,中国网民规模达7.31亿人,互联网普及率为53.2%,其中网络购物用户规模达到4.67亿,占网民比例为63.8%。制造企业与电商为了能更好地掌握产品的市场情况,电子商务网站一般都允许消费者发表产品相关的评论。这些产品评论文本中蕴含着丰富的、有价值的信息,有效利用这些评论文本可以帮助制造企业改进产品的设计、提升产品的质量,提高市场竞争力,也可以帮助电商采取合适的经营销售策略,扩大市场份额。为了给制造企业和电商提供更为自动化、智能化的文本挖掘工具,国内外专家学者开展了大量的研究。针对英文网络评论文本的挖掘与利用,国外专家们提出了多种有效的挖掘方法 ...
【技术保护点】
基于模式匹配的产品特征提取方法,其特征在于:该方法包括下述步骤:步骤1:评论语料库获取利用网络爬虫工具,从大型电商平台上采集某个指定产品的产品使用评论信息,并保存到本地数据库,然后对保存的评论信息进行预处理,降低数据中的噪音,得到真实、可靠、非结构化的评论语料库;步骤2:中文自然语言处理利用中文自然语言处理工具对评论语料分别进行初次分词及词性标注、新词识别、优化分词及词性标注、句法分析和情感分析等操作,获得结构化的情感分析结果并保存到数据库中;步骤3:产品特征提取定义产品特征的五个准则,按照这五个准则对情感分析结果进行产品特征标注,提取标注为产品特征的词语,生成产品特征集合。
【技术特征摘要】
1.基于模式匹配的产品特征提取方法,其特征在于:该方法包括下述步骤:步骤1:评论语料库获取利用网络爬虫工具,从大型电商平台上采集某个指定产品的产品使用评论信息,并保存到本地数据库,然后对保存的评论信息进行预处理,降低数据中的噪音,得到真实、可靠、非结构化的评论语料库;步骤2:中文自然语言处理利用中文自然语言处理工具对评论语料分别进行初次分词及词性标注、新词识别、优化分词及词性标注、句法分析和情感分析等操作,获得结构化的情感分析结果并保存到数据库中;步骤3:产品特征提取定义产品特征的五个准则,按照这五个准则对情感分析结果进行产品特征标注,提取标注为产品特征的词语,生成产品特征集合。2.如权利要求1所述的基于模式匹配的产品特征提取方法,其特征在于:步骤3中,产品特征五个准则具体如下:一、产品特征不能是停用词;二、产品特征是在评论语料中频繁出现的名词或名词短语;三、产品特征与支配词的依存关系为“SBV”,且支配词是情感词;四、产品...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。