【技术实现步骤摘要】
一种基于商品评论的主题模型推断方法
本专利技术属于短文本商品评论信息主题模型
,涉及一种基于商品评论的主题模型推断方法。
技术介绍
电子商务平台的飞速发展,使得越来越多的用户参与其中,已累积了大量的用户评论信息。因此,研究用户商品的评论信息及其蕴含的知识越来越受到学术和企业界的重视,其中评论信息主题模型的研究是基础。迄今为止,主题模型推断方法主要有基于词对的主题模型、基于标签的主题模型等。上述模型虽然都能较好地提取出传统文本中隐含的主题,且对于短文本评论信息也能通过将其聚合成长的伪文档或限制文档主题分布数量达到解决数据稀疏的问题。但短文本的用户商品评论信息由于没有足够的上下文,具有语义稀疏的特点,虽然可通过引入外部知识,利用外部语料库信息进行词嵌入训练,以增加词的语义信息。但在实际应用上仍存在着一些缺陷,比如在外部知识训练的词嵌入模型中,一些词存在语义编码信息与短文本中不一致的现象,使得主题模型在主题一致性上表现较差;此外对词进行语义相似度增强时,没有考虑词相关性的强弱,而笼统的进行统一语义相似度增强,这也导致了主题分 ...
【技术保护点】
1.一种基于商品评论的主题模型推断方法,其特征在于,具体按照如下步骤实施:/n步骤1,对评论信息文献集D进行文本预处理,并将经过预处理的评论信息放入词汇表V中;/n步骤2,利用步骤1的文献集D进行建模,生成主题模型并确定要求解的隐藏变量主题-词项的后验概率分布p(w|z=k);/n步骤3,利用步骤1的文献集D进行局部词嵌入训练,利用外部语料库,即谷歌语料库进行全局词嵌入训练,得到局部词嵌入模型和全局词嵌入模型,利用局部词嵌入模型与全局词嵌入模型分别获得词汇表V中词的向量表示;/n步骤4,对步骤3中获得词的全局与局部嵌入向量分别进行余弦相似度计算,然后根据余弦相似度计算进一步 ...
【技术特征摘要】
1.一种基于商品评论的主题模型推断方法,其特征在于,具体按照如下步骤实施:
步骤1,对评论信息文献集D进行文本预处理,并将经过预处理的评论信息放入词汇表V中;
步骤2,利用步骤1的文献集D进行建模,生成主题模型并确定要求解的隐藏变量主题-词项的后验概率分布p(w|z=k);
步骤3,利用步骤1的文献集D进行局部词嵌入训练,利用外部语料库,即谷歌语料库进行全局词嵌入训练,得到局部词嵌入模型和全局词嵌入模型,利用局部词嵌入模型与全局词嵌入模型分别获得词汇表V中词的向量表示;
步骤4,对步骤3中获得词的全局与局部嵌入向量分别进行余弦相似度计算,然后根据余弦相似度计算进一步得到词与词之间的语义相似性,进而进行语义增强计算;
步骤5,利用步骤4中得到的词的语义增强结果与GibbsSampling过程对步骤2主题模型中的隐藏变量主题-词项的后验概率分布p(w|z=k)进行计算,从而完成对主题模型的推断,实现文档的主题概率近似计算。
2.根据权利要求1所述的一种基于商品评论的主题模型推断方法,其特征在于,所述步骤1中对评论信息进行文本预处理的具体操作为:
将文本进行分词、文本中的字母转换成小写、删除文本中出现次数小于4的词、去除停用词、删除文本字数小于4的短文本。
3.根据权利要求1所述的一种基于商品评论的主题模型推断方法,其特征在于,所述步骤2中的主题模型具体为:给定文献集D,文献集中的文档d,词汇表V和预定义的K个主题,假设每个文档d都只与一个特定的主题k相关,主题概率p(z),表示为θ,其中z表示为主题变量,服从一个参数为α的先验Dirichlet分布Dirichlet(α);主题-词项概率p(w|z=k),表示为φk,服从一个参数为β的先验Dirichlet分布Dirichlet(β);文档的主题服从一个参数为θ的多项式分布Multionmial(θ),有p(z=k)=θk,并且∑kθk=1,其中,k=1,...,K;文档d中的Nd个词每个词都由主题-词项多项式分布独立产生,p(w|d)表示为文档d中词w的概率。
4.根据权利要求3所述的一种基于商品评论的主题模型推断方法,其特征在于,所述步骤2中利用步骤1的文献集D进行建模具体过程为:
步骤2.1,采样一个主题概率θ~Dirichlet(α);
步骤2.2,对于每个主题k∈{1,...,K},采样一个主题-词分布φk~Dirichlet(β);
步骤2.3,对于每个文档d∈D,采样一个主题zd~Multionmial(θ);
步骤2.4,遍历每个词采样一个词其中,为隐藏变量,即主题-词项的后验概率分布p(w|z=k)。
5.根据权利要求4所述的一种基于商品评论的主题模型推断方法,其特征在于,所述步骤3具体为:
用谷歌Word2vec的skip-gram开发工具训练全局词嵌入与局部词嵌入模型,完成词到向量的映射过程,其中:
全局词嵌入模型训练:
用谷歌语料库数据集进行词嵌入训练,嵌入空间维度设置为300维,以获取外部知识;
局部词嵌入模型训练:
用步骤1中的文献集D进行词嵌入训练,嵌入空间维度设置为30维,以获得评论信息中词的上下文信息;
从嵌入...
【专利技术属性】
技术研发人员:张晓滨,高娟,
申请(专利权)人:西安工程大学,绍兴市柯桥区西纺纺织产业创新研究院,
类型:发明
国别省市:陕西;61
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。