The method of enhancing the semantic relevance and theme cohesion of the subject terms of the BTM theme model belongs to the cross field of text mining and machine learning, including the following contents: (1) text corpus acquisition and preprocessing; (2) construction of word vector model; (3) modeling of BTM theme model; (4) semantic correlation calculation between words; (5) The modeling of topic models combined with two word meaning. The double word extension thematic model of the invention has obvious improvement in the theme cohesion TC value and Js distance value than the traditional topic model.
【技术实现步骤摘要】
增强BTM主题模型主题词语义相关性和主题凝聚度方法
本专利技术属于文本挖掘和机器学习的交叉领域,具体涉及文本主题模型与词向量计算模型,尤其涉及到文本主题模型的主题词语义增强以及在短文本商品评论中的应用。
技术介绍
现代社会购物是人们一种不可替代的生活方式,而通过电商进行购物更是其中一条极其重要的途径,大到家用电器,小到锅碗瓢盆,各种商品应有尽有。但是对于如何选择要购买的商品,消费者一般的步骤为,首先选择自己要购买的商品的种类,然后看具体某个商品的商品详情,最后查看商品评论,参考已买过的人的建议,选择自己是否要购买此商品。以上三个步骤就是购买商品的大体过程,但是对于某些商品来说,商品评论特别多,一一查看明显费时费力,并且得出的结果也不尽相同,并且针对商品的某个具体属性,无法做到有针对性的查找。针对文本挖掘的算法主题模型来说,专家有很多的解决办法,但是对于将其应用到商品短文本评论这一关键问题上,这些方法仍存在一些问题,主要有:1)虽然现在有很多学者利用BTM主题模型来处理短文本评论,但是该模型提取出的主题词主要是基于词共现的方式,缺乏深层的语义相关性。2)在主题表征方面,传统BTM主题模型无法明显的看出究竟是什么主题,也就是主题内部的语义表达不是特别突出,造成最后的主题凝聚度偏低。由此可见,现有的文本主题模型,在主题词语义相关性和主题凝聚度等方面存在问题,尚无法解决短文本主题挖掘这一问题。
技术实现思路
本专利技术提供主题词语义相关性以及主题凝聚度高的一种应用于短文本商品评论的主题模型的改进方法。本专利技术的技术方案,一种用于增强BTM主题模型主题词语义相关性和主 ...
【技术保护点】
1.增强BTM主题模型主题词语义相关性和主题凝聚度方法,包括下述内容:(1)文本语料获取以及预处理:即从电商在线评论中,通过爬虫程序将手机商品里面的评论抓取下来,然后通过分词程序以及停用词词表,对语料进行预处理;(2)词向量模型构建:利用大规模的语料,训练语义相关的词向量,确定词向量的维度,选择合适维度的词向量;(3)BTM主题模型的建模:即用吉布斯采样算法,提取语料中的文档‑主题矩阵A以及主题‑主题词矩阵B;(4)词语之间语义相关性计算:即用已经建立好的词向量模型,通过余弦距离,计算出每条短文本商品评论中,通过分词之后的,任意两个词语之间的语义相关性,并选取合适的主题词语义阈值C,主题词语义阈值C的取值范围为0~1;然后在吉布斯采样中将不同语义距离的词语扩展不同的相关词语数量;(5)结合双词语义相关的主题模型的建模:即将语义距离值C作为筛选条件,选择不同数量的相关词语融入到主题模型吉布斯采样的过程中,实现双词BTM主题模型的构建。
【技术特征摘要】
1.增强BTM主题模型主题词语义相关性和主题凝聚度方法,包括下述内容:(1)文本语料获取以及预处理:即从电商在线评论中,通过爬虫程序将手机商品里面的评论抓取下来,然后通过分词程序以及停用词词表,对语料进行预处理;(2)词向量模型构建:利用大规模的语料,训练语义相关的词向量,确定词向量的维度,选择合适维度的词向量;(3)BTM主题模型的建模:即用吉布斯采样算法,提取语料中的文档-主题矩阵A以及主题-主题词矩阵B;(4)词语之间语义相关性计算:即用已经建立好的词向量模型,通过余弦距离,计算出每条短文本商品评论中,通过分词之后的,任意两个词语之间的语义相关性,并选取合适的主题词语义阈值C,主题词语义阈值C的取值范围为0~1;然后在吉布斯采样中将不同语义距离的词语扩展不同的相关词语数量;(5)结合双词语义相关的主题模型的建模:即将语义距离值C作为筛选条件,选择不同数量的相关词语融入到主题模型吉布斯采样的过程中,实现双词BTM主题模型的构建。2.如权利要求1所述的增强BTM主题模型主题词语义相关性和主题凝聚度的方法,其特征在于步骤1:利用word2vec计算语义距离;步骤2:确定语义距离阈值C以及利用Nbz=Nbz+γ*10对词对数量进行扩展,;步骤3:利用...
【专利技术属性】
技术研发人员:谢珺,李思宇,谷兴龙,杨云云,续欣莹,
申请(专利权)人:太原理工大学,
类型:发明
国别省市:山西,14
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。