基于滑动窗口技术的细粒度主题提取方法技术

技术编号:19342215 阅读:44 留言:0更新日期:2018-11-07 13:54
本发明专利技术涉及基于滑动窗口技术的细粒度主题提取方法,解决了现有技术的不足,技术方案为:步骤S1,把评论作为滑动窗口的集合;步骤S2,计算采样词的主题归属于全局主题或是局部主题以及所属窗口的条件概率分布;步骤S3,构建关于滑动窗口、全部主题或局部主题的联合概率分布函数;步骤S4,分别计算词wd,n选择的概率,滑动窗口v选择的概率,全局主题z的选择概率,以及局部主题z选择的概率;步骤S5,根据步骤S4的计算结果将大于设定值的全局主题和局部主题提取并显示。

Fine grained topic extraction method based on sliding window technology

The present invention relates to a fine-grained topic extraction method based on sliding window technology, which solves the shortcomings of the existing technology. The technical scheme is as follows: (1) taking comments as a set of sliding windows; (2) calculating the conditional probability distribution of the subject of sampled words belonging to global or local topics and the window to which they belong; 4. Calculate the probability of word WD and N selection, the probability of sliding window V selection, the probability of global topic Z selection, and the probability of local topic Z selection. 5. According to the result of the calculation of 65507 Global themes and local themes are extracted and displayed.

【技术实现步骤摘要】
基于滑动窗口技术的细粒度主题提取方法
本专利技术涉及电子商务平台的评论数据主题抽取,具体涉及一种电子商务平台的基于滑动窗口技术的细粒度主题提取方法。
技术介绍
随着移动互联网和电子商务技术的发展,各种类型的购物网站层次不穷,极大的方便了消费者的生活。但是由于线上购物不同于线下实体店购物,消费者无法感知产品质量、切身体验商品。与此同时,电子商务网站上出现了海量的产品在线评论,随着网购群体数量的迅猛增长,产品评论数据呈现爆发式增长,这些评论数据存在着巨大的商业价值。一方面,消费者在进行购物决策时,可以把这些评论内容作为参考,更加深入的了解所关注的产品,以做出更好的购物决策,另一方面,商家或者行业组织等可以通过挖掘消费者反馈的评论内容。类似的专利百度腾讯等都已有所申请,在此不做具体展开。然而,目前现有针对主题抽取的方法有基于人工定义的方法、基于频率的方法以及基于有监督学习方法。但是,随着海量数据的增长,这些方法在进行主题抽取都存在着一定的局限性。例如,基于人工定义的方法时间和人力成本较大,且针对不同领域定义时,需要不同领域内的专家参与特征词定义,适应力较差;基于频率的方法存在着无法将相关特本文档来自技高网...

【技术保护点】
1.一种基于滑动窗口技术的细粒度主题提取方法,其特征在于,包括以下步骤:步骤S1,把评论作为滑动窗口的集合;步骤S2,计算采样词的主题归属于全局主题或是局部主题以及所属窗口的条件概率分布;步骤S3,构建关于滑动窗口、全部主题或局部主题的联合概率分布函数;步骤S4,分别计算词wd,n选择的概率,滑动窗口v选择的概率,全局主题z的选择概率,以及局部主题z选择的概率;步骤S5,根据步骤S4的计算结果将大于设定值的全局主题和局部主题提取并显示。

【技术特征摘要】
1.一种基于滑动窗口技术的细粒度主题提取方法,其特征在于,包括以下步骤:步骤S1,把评论作为滑动窗口的集合;步骤S2,计算采样词的主题归属于全局主题或是局部主题以及所属窗口的条件概率分布;步骤S3,构建关于滑动窗口、全部主题或局部主题的联合概率分布函数;步骤S4,分别计算词wd,n选择的概率,滑动窗口v选择的概率,全局主题z的选择概率,以及局部主题z选择的概率;步骤S5,根据步骤S4的计算结果将大于设定值的全局主题和局部主题提取并显示。2.根据权利要求1所述的基于滑动窗口技术的细粒度主题提取方法,其特征在于,所述步骤S2中,通过计算条件概率分布函数,获得采样词的主题是属于全局主题还是局部主题以及所属窗口的条件概率分布:P(vd,n=v,rd,n=r,zd,n=z|v′,r′,z′)上式中v′表示滑动窗口向量,r表示是所在的滑动窗口是全部主题还是局部主题,r′表示上下文或全局或局部的向量,z指的是文档的全部主题还是局部主题,z′表示主题向量。3.根据权利要求1所述的基于滑动窗口技术的细粒度主题提取方法,其特征在于,步骤S3中,构建关于滑动窗口、全部/局部主题的联合概率分布函数:P(w,v,r,z)=P(w|r,z)P(v,r,z)上式中,w表示词向量。4.根据权利要求3所述的基于滑动窗口技术的细粒度主题提取方法,其特征在于,P(v,r,z)=P(v)P(r|v)P(z|r,v);上式中的W表示词汇表的大小,nwgl,z代表的是词w出现在...

【专利技术属性】
技术研发人员:徐文庆孟鹏陈晓峰肖果黄泰文金正明
申请(专利权)人:浙江新能量科技股份有限公司
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1