【技术实现步骤摘要】
本专利技术涉及计算机应用
,特别涉及一种基于主题模型的自展式特征选择方法及系统。
技术介绍
随着互联网的快速兴起,在线购物为人们带来了便利的购物方式,同时广大电商网站允许已购买产品的顾客对产品进行评论以供后来的潜在消费者参考,此类信息在网站上迅速膨胀,构成了海量数据。这些评论信息,尤其是某些热销产品的评论信息,对业界和科研人员来说都是极其宝贵的参考材料,在观点挖掘、产品预测等方面都有着极大的参考价值。生产企业可以通过顾客的产品评论改进自己的产品;营销团队通过对产品评论进行分析比较能够得到该产品的销售趋势或根据不同产品间的比较得到热点产品;科研人员可以通过产品评论进行顾客的情感分析等。然而这些工作全都离不开观点挖掘。观点挖掘,也称为情绪分析,是对于人们关于某一实体的特征、组件、属性等所产生的观点、态度和情绪进行挖掘和分析的一种技术,是自然语言处理学科中重要的一个领域,得到了学术界和业界的重视。结合产品评论,观点挖掘能十分有效地反应用户的对于某具体事物的具体观点,具有实时性、话题敏感性和多变性的特点。观点挖掘作为自然语言处理的重要组成部分,也是机器学习中的一个 ...
【技术保护点】
一种基于主题模型的自展式特征选择方法,其特征在于,包括以下步骤:S1:获取原始评论数据;S2:选取主题模型,并根据所述主题模型对所述原始评论数据进行特征降维、显式特征词和观点词的抽取,并根据所述显式特征词和观点词生成语义关联规则;以及S3:根据所述语义关联规则进行所述显式特征词和观点词的匹配,得到显式特征词与特征词之间的关联,特征词与观点词之间的关联,观点词与观点词之间的关联,链式地形成特征词和观点词的关联规则,以完成观点挖掘。
【技术特征摘要】
1.一种基于主题模型的自展式特征选择方法,其特征在于,包括以下步骤:S1:获取原始评论数据;S2:选取主题模型,并根据所述主题模型对所述原始评论数据进行特征降维、显式特征词和观点词的抽取,并根据所述显式特征词和观点词生成语义关联规则;以及S3:根据所述语义关联规则进行所述显式特征词和观点词的匹配,得到显式特征词与特征词之间的关联,特征词与观点词之间的关联,观点词与观点词之间的关联,链式地形成特征词和观点词的关联规则,以完成观点挖掘。2.根据权利要求1所述的基于主题模型的自展式特征选择方法,其特征在于,还包括:获取隐式特征评论,并根据所述显示特征词与特征词之间的关联、特征词与观点词之间的关联、观点词与观点词之间的关联三者之间的传导性,将隐式特征评论中的观点词根据所述语义关联规则得到相匹配的特征词。3.根据权利要求1所述的基于主题模型的自展式特征选择方法,其特征在于,所述主题模型为潜在的狄利克雷分布LDA。4.根据权利要求3所述的基于主题模型的自展式特征选择方法,其特征在于,所述S2进一步包括:S21:将所述原始评论数据的初始特征空间设置为空;S22:从所述原始评论数据中挑选一个特征,并计算在所述特征下每个单词的条件概率;S23:设置一个阈值,以保留条件概率大于所述阈值的单词,并滤除条件概率小于所述阈值的词汇;S24:重复执行所述步骤S22至步骤S23,直至得到足够维度的特征。5.根据权利要求4所述的基于主题模型的自展式特征选择方法,其特征在于,所述原始评论数据中每个单词都具有其唯一的主题,则原始评论数据中每个词的优化目标如下式: Pr o ( z , w , θ | α , β ) = Pr o ( θ | α ) Π n = 1 N [ Pr o ( z n | θ ) Pr o ( w n | z n , β ) ] , ]]>其中z表示原始评论数据中每个单词都对应的主题,w表示原始评论数据中的单词,θ表示满足以α为超参数的狄利克雷分布,N表示原始评论数据中的单词数量。6.一种...
【专利技术属性】
技术研发人员:徐华,张帆,孙晓民,邓俊辉,
申请(专利权)人:清华大学,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。