【技术实现步骤摘要】
一种对电商产品评论词汇的歧义消除方法及装置
本公开涉及自然语言处理
,特别涉及一种对产品评论词汇的歧义消除方法及装置。
技术介绍
一词多义是自然语言固有的特征。在用计算机做自然语言处理时,这种多义性给分析结果带来很大影响。研究发现,词项的具体涵义主要取决于上下文,即单词出现的语境是决定词义的要素。基于统计学习的词义消歧技术以语料库为知识源,从标注或未标注语料中学习各种不同的词义特征。通过计算给定文本中词汇在上下文中的概率权重,选择具有最大概率权重的词义作为最佳结果输出,如贝叶斯分类器、最大熵分类法等。统计方法又分为有指导和无指导的两类。有指导的词义消歧模型需要事先对训练语料进行词义标注,而无指导的方法没有此要求。当前主流的机器学习方法,如决策树(DecisionTree)、支持向量机(SupportVectorMachine,SVM)、最大熵(MaximumEntropy,ME)都可以用于统计词义消歧。下面以贝叶斯为例具体说明:贝叶斯消歧方法将词语序列的上下文看作是一个无结构词集,通过对上下文窗口中众多词汇信息的整合来消除歧义。具体步骤是:首先需要一个语料库 ...
【技术保护点】
一种对产品评论词汇的歧义消除方法,其特征在于,包括:获取针对指定产品的历史评论文本,从所述历史评论文本中提取产品历史特征词和对应的历史情感词;根据所述历史特征词与对应的各历史情感词之间的同现关系,筛选出最频繁出现的历史特征词和历史情感词组合;根据最频繁出现的历史特征词和历史情感词组合生成所述历史特征词的义项标注;获取针对指定产品输入的新评论文本,从所述新评论文本中提取产品新特征词和对应的新情感词组合;根据所述新特征词和新情感词组合,查询与所述新特征词和新情感词组合匹配的历史特征词和历史情感词组合,将匹配的历史特征词的义项标注作为所述新特征词的词义。
【技术特征摘要】
1.一种对产品评论词汇的歧义消除方法,其特征在于,包括:获取针对指定产品的历史评论文本,从所述历史评论文本中提取产品历史特征词和对应的历史情感词;根据所述历史特征词与对应的各历史情感词之间的同现关系,筛选出最频繁出现的历史特征词和历史情感词组合;根据最频繁出现的历史特征词和历史情感词组合生成所述历史特征词的义项标注;获取针对指定产品输入的新评论文本,从所述新评论文本中提取产品新特征词和对应的新情感词组合;根据所述新特征词和新情感词组合,查询与所述新特征词和新情感词组合匹配的历史特征词和历史情感词组合,将匹配的历史特征词的义项标注作为所述新特征词的词义。2.根据权利要求1所述的方法,其特征在于,所述获取针对指定产品的历史评论文本,从所述历史评论文本中提取产品历史特征词和对应的历史情感词,包括:对所述历史评论文本进行分词操作,得到若干历史特征词和历史情感词;统计每个历史特征词和每个历史情感词在所述历史评论文本中的出现次数,计算每个历史特征词和每个历史情感词在所述历史评论文本中的支持度;将所述历史特征词和历史情感词按支持度降序进行排列形成频繁项列表,根据设定的最小支持度阈值,筛选出支持度大于等于最小支持度阈值的历史特征词和历史情感词,分别写入特征词事务数据库和情感词事务数据库。3.根据权利要求2所述的方法,其特征在于,所述根据历史特征词与对应的各历史情感词之间的同现关系,筛选出最频繁出现的历史特征词和历史情感词组合,包括:扫描所述特征词事务数据库,将所述历史特征词生成特征词频繁一项集;扫描所述情感词事务数据库,将所述历史情感词生成情感词频繁一项集;将所述历史特征词与所述历史情感词组合生成“历史特征词-历史情感词”频繁二项集;根据所述历史评论文本的频繁二项集中每个“历史特征词-历史情感词”组合出现的次数,利用关联规则挖掘算法筛选出最频繁出现的历史特征词和历史情感词组合。4.根据权利要求3所述的方法,其特征在于,所述根据所述历史评论文本的频繁二项集中每个“历史特征词-历史情感词”组合出现的次数,利用关联规则挖掘算法筛选出最频繁出现的历史特征词和历史情感词组合,包括:将所述“历史情感词-历史特征词”频繁二项集作为候选项集,计算频繁二项集中每个组合的支持度;将频繁二项集中的每个组合按照支持度降序排序,将大于等于最小支持度阈值的组合构成频繁二项表;创建FP-Growth树根节点null,根据所述频繁二项表,依次将每个“历史情感词-历史特征词”组合作为一个事务从表中抽出,与所述根节点结合,构成一个从根节点null->特征词->情感词的路径,通过路径对所述事务进行编码,并将路径上所有节点的频度计数为1,生成若干路径,形成频繁模式FP-Growth树;根据所述频繁模式FP-Growth树,由频繁项表生成关联规则,得到所述历史特征词所关联的历史情感词共同构成的“历史特征词-历史情感词”的最频繁同现关系。5.根据权利要求4所述的方法,其特征在于,所述根据频繁模式FP-Growth树,由频繁项表生成关联规则,得到所述历史特征词所关联的历史情感词共同构成的“历史特征词-历史情感词”的最频繁同现关系,包括:计算所述频繁二项集中每个“历史情感词-历史特征词”组合的置信度;根据每个“历史情感词-历史特征词”组合的支持度和置信度计算结果,对每个“历史情感词-历史特征词”组合构建条件模式基及条件FP-Growth树,遍历整个频繁二项集,直到FP-Growth树为空,或者FP-Growth树仅包含一条单一的路径;将生成所述路径的所有子路径的组合中的每个组合...
【专利技术属性】
技术研发人员:谷云松,黄侃,于英,
申请(专利权)人:深圳美云智数科技有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。