一种基于商品评论新词提取方法技术

技术编号:24684238 阅读:79 留言:0更新日期:2020-06-27 08:11
本发明专利技术公开了一种基于商品评论的新词提取方法。该方法具体为:对商品评论集采用预处理、计算各词与邻接字的共现频率及互信息得到潜在词集;分别计算潜在词在该商品及同类商品下出现的频率、自由度;通过计算初步候选词集支持度进行筛选,得到最终候选词集;最后再与已登录词词典做对比,筛选出新词。本发明专利技术旨在提供一种准确、高效的方法提取出网购评论中的新词,以便于网络购物平台或网络商家进行市场分析、用户满意度调查等需要进行评论情感倾向性分析的工作,且利于专有词典的扩充。

A new word extraction method based on commodity review

【技术实现步骤摘要】
一种基于商品评论新词提取方法
本专利技术设计中文自然语言处理
,特别涉及一种从商品评论中提取新词的方法。
技术介绍
随着互联网的不断发展与进步,人们交流的范围不断扩大,词汇也在不断地发展变化。这种变化最显著的表现即新词的不断涌现,这些新词也在网购评论下被广泛使用,而且这些新词中往往包含着很多用户的情感、态度等重要信息。为了更好地对网络购物平台进行市场分析,用户满意度调查等工作。其中基于商品评论的新词提取是工作的基础,也是决定工作质量至关重要的一部分。网购商品评论有着重复率高、口语化、表达随意等特点,针对其特点进行新词提取作为进行市场分析、用户满意度调查等评论情感分析工作的基础,对提高准确度有重要意义。现有的中文新词识别技术可以分为两种:一是基于规则的新词识别,但是该方法人工编写和维护规则复杂性相对较高;二是基于统计的新词识别,一般常用方法有HMM、SVM、过滤规则等等,此方法的不足是人工标注语料费时费力;若过滤低频新词以保证精度,会导致低频新词难以识别。针对以上不足,提出本专利技术,针对同类商品评论下新词重复率高的特点,通过根据相关性结合同类商品评论进行预处理、计算互信息、词拓展、自由度及支持度等方法,一层层进行判断和筛选,在自动识别新词的基础上尽可能地保证准确率。
技术实现思路
鉴于上述问题,本专利技术提出了一种从商品评论中提取新词的方法,以便克服上述问题或者至少部分解决上述问题。本专利技术中涉及相关定义如下:定义1:共现频率:对于文本域D中字串w与左(右)侧的单字共同出现的频率。{例如“这件衣服颜色很正,很喜欢,朋友们也都很喜欢,要链接。”在这段文本域中,“喜”字与右侧单字“欢”共同出现2次。}定义2:词拓展:当该组合新词共现频率达到阈值时初步确定将其组合成词。定义3:互信息:表示一个词x和相邻的字y之间的关联程度,关联程度越大,组成新词的可能性越大。{例:“质量好””,则互信息是衡量“质量”和“好”之间的关联程度。}定义4:自由度:是指如果字串w可以作为一个新词的话,则可以灵活地和左(右)邻字搭配,应用于各种环境中。定义5:支持度:候选词c在该商品下出现的频率与与c长度相同的候选词在词典中出现的频率之比与候选词c在同类商品下出现的频率与与c长度相同的候选词在词典中出现的频率之比的和。本专利技术的技术方案具体是这样实现的:一种商品评论下新词提取方法,包括以下步骤:步骤1.使用网络爬虫对淘宝和京东的网购评论进行爬取,然后将爬取商品评论语料保存到本地。步骤2.然后对保存的语料信息进行降噪处理和分词预处理。步骤3.预处理后的语料信息进行步骤3.1潜在词拓展处理,提取出潜在词集。步骤3.1.对预处理后的词分别计算词与左右邻接字的共现频率,通过设定阈值进行初步过滤,将词和其左右字共现频率达到阈值的词再通过互信息计算其合并概率,如果互信息达到阈值将其合并成一个词在继续向左或向右拓展,否则输入到潜在词集合。步骤4.计算潜在词在该词所在商品评论下出现的频数如过达到阈值将其提取到初步候选词集,否则执行步骤4.1。步骤4.1.根据商品相关性随机抽取10件同类商品下的300条评论集合计算该潜在词的频数如果大于设定阈值也加入初步候选词集合,否则执行步骤4.2。步骤4.2.对频数小于阈值的潜在词集进行自由度的计算如果达到设定阈值也将其加入初步候选词集合。步骤5.对所述筛选完成的初步候选词集合进行支持度(SUP)计算达到设定阈值加入到最终候选词集合。步骤6.将最终候选词集合与已登录词词库进行对比筛选出新词集合上述方案中,本专利技术提供的基于商品评论的新词提取方法能够针对同类商品评论新词重复率高的特点对可能出现的新词进行多次判断筛选,因此能够极大的增加新词提取的准确性。优选的,在所述步骤2中,对保存的语料信息进行降噪处理和分词预处理包括:(1)降噪处理:将保存的语料信息进行停用词过滤,特殊符号过滤。(2)分词处理:使用哈工大的LTP分词工具进行分词处理。优选的,在所述步骤3中对词与左右邻接字共现的频率和互信息的计算方法如下:经过统计新词的出现很多是在原有词的左端或右端加上字构成新词。所以计算词与左(右)邻接字的共现频率,如果达到设定阈值,继续计算词与左(右)邻接字的互信息,否则直接输入到潜在词集。计算词与左(右)邻接字的互信息进行二次筛选如果达到阈值将词与左(右)邻接字合并,继续判断合并后的词与下一个左(右)邻接字的词频,否则输入到潜在词集。互信息的计算公式为其中p(x,y)表示词x与x左端或右端邻接的字y共同出现在语料集中的概率,p(x)、p(y)表示词x和字y单独出现在语料集中的概率。I(x,y)的值越大,表示x,y两者的关联程度越大,也就越有可能组成新词。优选的,在所述步骤5中对初步候选词集合进行支持度的计算来进一步筛选得到最终候选词集合,其中支持度的计算方法如下:由于在成词的过程中不同字数的词的成词难度是不同的,比如五个字、三个字的词的成词难度大于两个字的词,因此五个字、三个字的词的比例也远小于两个字的词。所以在计算候选词支持度时设置候选词在评论中出现的频率与该候选词相同长度的词在词典中出现的频率相比较计算出支持度作为筛选标准。但有时一个商品下的评论集合初步候选词数量可能不足为了保证精度根据商品相关性随机抽取10件同类商品下的300条评论集合进行候选词支持度计算,然后将结果求和得到候选词支持度。具体公式如下:候选词c的支持度其中P(c1)表示候选词c在该商品下评论中出现的频率,Pn(c)表示与c长度相同的候选词在词典中出现的频率,P(c2)表示候选词c在同类10件商品300条下评论中出现的频率,Pn(c)表示与c长度相同的候选词在词典中出现的频率。与现有专利技术相比,本专利技术的有益效果是:本专利技术提供的基于商品评论的新词提取方法能对商品评论集合中的网络新词、词典中未收录词进行有效的提取。根据同类商品评论相关性高的特点,采用根据商品相关性随机抽取的方法扩大计算集合,极大增加了新词提取的准确性。附图说明图1为基于商品评论的新词提取方法流程示意图。图2为提取潜在词集细节步骤流程示意图。图3为从潜在词集中提取出初步候选词集流程示意图。图4为从初步候选词集中提取最终候选词集流程示意图。具体实施方法下面结合附图对本专利技术进行详细说明:本专利技术提供的针对商品评论的新词提取方法,如图1所示,可大致描述为个步骤:步骤1,获取商品评论集合:使用爬虫工具对淘宝和京东的网购评论进行爬取,然后将爬取商品评论语料保存到本地。步骤2,文档预处理:将获得的评论集合文档进行降噪、分词处理,得到预处理集。步骤3,词拓展处理:对预处理集进行词拓展得到潜在词集。步骤4,初步候选词集筛选:通过词频、自由度筛选出初步候选词集。步骤5,最终候选词集筛选本文档来自技高网...

【技术保护点】
1.一种基于商品评论的新词提取方法,方法包括下述步骤:/n步骤1、利用网络爬虫工具,采集的商品的评论信息,保存到本地数据库。/n步骤2、然后对保存的语料信息进行降噪处理和分词预处理。/n步骤3、对预处理后的语料信息进行词拓展处理,提取出潜在词集。/n步骤4、通过对潜在词集的频数、自由度计算进行初步候选词集筛选。/n步骤5、对初步候选词集进行支持度计算筛选出最终候选词集。/n步骤6、与已有词典进行比对,筛选出新词集合。/n

【技术特征摘要】
1.一种基于商品评论的新词提取方法,方法包括下述步骤:
步骤1、利用网络爬虫工具,采集的商品的评论信息,保存到本地数据库。
步骤2、然后对保存的语料信息进行降噪处理和分词预处理。
步骤3、对预处理后的语料信息进行词拓展处理,提取出潜在词集。
步骤4、通过对潜在词集的频数、自由度计算进行初步候选词集筛选。
步骤5、对初步候选词集进行支持度计算筛选出最终候选词集。
步骤6、与已有词典进行比对,筛选出新词集合。


2.根据权利要求1所述的一种基于商品评论的新词提取方法,所述步骤4中的频数计算方法如下:
输入潜在词集,计算词在其所在商品评论中出现的频...

【专利技术属性】
技术研发人员:张顺香朱海洋尹畅金鸣徐善山余宏斌
申请(专利权)人:安徽理工大学
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1