一种基于商品评论新词提取方法技术

技术编号：24684238 阅读：79 留言：0更新日期：2020-06-27 08:11

本发明专利技术公开了一种基于商品评论的新词提取方法。该方法具体为：对商品评论集采用预处理、计算各词与邻接字的共现频率及互信息得到潜在词集；分别计算潜在词在该商品及同类商品下出现的频率、自由度；通过计算初步候选词集支持度进行筛选，得到最终候选词集；最后再与已登录词词典做对比，筛选出新词。本发明专利技术旨在提供一种准确、高效的方法提取出网购评论中的新词，以便于网络购物平台或网络商家进行市场分析、用户满意度调查等需要进行评论情感倾向性分析的工作，且利于专有词典的扩充。

A new word extraction method based on commodity review

全部详细技术资料下载

【技术实现步骤摘要】
一种基于商品评论新词提取方法
本专利技术设计中文自然语言处理
，特别涉及一种从商品评论中提取新词的方法。
技术介绍
随着互联网的不断发展与进步，人们交流的范围不断扩大，词汇也在不断地发展变化。这种变化最显著的表现即新词的不断涌现，这些新词也在网购评论下被广泛使用，而且这些新词中往往包含着很多用户的情感、态度等重要信息。为了更好地对网络购物平台进行市场分析，用户满意度调查等工作。其中基于商品评论的新词提取是工作的基础，也是决定工作质量至关重要的一部分。网购商品评论有着重复率高、口语化、表达随意等特点，针对其特点进行新词提取作为进行市场分析、用户满意度调查等评论情感分析工作的基础，对提高准确度有重要意义。现有的中文新词识别技术可以分为两种：一是基于规则的新词识别，但是该方法人工编写和维护规则复杂性相对较高；二是基于统计的新词识别，一般常用方法有HMM、SVM、过滤规则等等，此方法的不足是人工标注语料费时费力；若过滤低频新词以保证精度，会导致低频新词难以识别。针对以上不足，提出本专利技术，针对同类商品评论下新词重复率高的特点，通过根据相关性结合同类商品评论进行预处理、计算互信息、词拓展、自由度及支持度等方法，一层层进行判断和筛选，在自动识别新词的基础上尽可能地保证准确率。
技术实现思路
鉴于上述问题，本专利技术提出了一种从商品评论中提取新词的方法，以便克服上述问题或者至少部分解决上述问题。本专利技术中涉及相关定义如下：定义1：共现频率：对于文本域D中字串w与左(右)...

【技术保护点】
1.一种基于商品评论的新词提取方法，方法包括下述步骤：/n步骤1、利用网络爬虫工具，采集的商品的评论信息，保存到本地数据库。/n步骤2、然后对保存的语料信息进行降噪处理和分词预处理。/n步骤3、对预处理后的语料信息进行词拓展处理，提取出潜在词集。/n步骤4、通过对潜在词集的频数、自由度计算进行初步候选词集筛选。/n步骤5、对初步候选词集进行支持度计算筛选出最终候选词集。/n步骤6、与已有词典进行比对，筛选出新词集合。/n

【技术特征摘要】
1.一种基于商品评论的新词提取方法，方法包括下述步骤：
步骤1、利用网络爬虫工具，采集的商品的评论信息，保存到本地数据库。
步骤2、然后对保存的语料信息进行降噪处理和分词预处理。
步骤3、对预处理后的语料信息进行词拓展处理，提取出潜在词集。
步骤4、通过对潜在词集的频数、自由度计算进行初步候选词集筛选。
步骤5、对初步候选词集进行支持度计算筛选出最终候选词集。
步骤6、与已有词典进行比对，筛选出新词集合。

2.根据权利要求1所述的一种基于商品评论的新词提取方法，所述步骤4中的频数计算方法如下：
输入潜在词集，计算词在其所在商品评论中出现的频...

【专利技术属性】
技术研发人员：张顺香，朱海洋，尹畅，金鸣，徐善山，余宏斌，
申请(专利权)人：安徽理工大学，
类型：发明
国别省市：安徽;34

全部详细技术资料下载我是这个专利的主人