【技术实现步骤摘要】
短文本主题分布的推理方法、系统、计算机设备和存储介质
本申请涉及大数据领域,特别是涉及一种短文本主题分布的推理方法、系统、计算机设备和存储介质。
技术介绍
主题模型是一类从文本数据中挖掘并抽取主题,为了设计出适用于短文本数据的主题模型,研究人员通常会使用几种比较有用策略。第一种,限制每一篇短文本的主题数量,,通过DirichletMultinomialMixtureModel(DMM)模型进行获取,其中通过该模型假定每个短文本只包含一个主题。这种策略通过限制目标数据中的主题信息,进一步简化主题模型,以期能够更准确的进行主题的挖掘、抽取和分配。第二种,在包含足够主题信息的单词模式上建立主题模型。典型的代表是AttentionalSegmentsTopicModel(ASTM),ASTM会抽取出短文本中的segment模式,具体而言是数个语义相似的单词组成的集合。从segment这样模式中获得的主题具有很好的代表性。第三种,从外部的语料中获得新的信息,并将其补充到目标短文本数据的主题模型中。这种方法是针对目标数据短文本自身的信息 ...
【技术保护点】
1.一种短文本主题分布的推理方法,其特征在于,包括以下步骤:/n抽取单位时间内短文本中出现的共现词对,整合所述共现词对获取词组集合;/n根据语义相似度和历史共现度对所述词组集合进行关联,获取所述词组集合的动态关联度,并以词组矩阵形式存储所述动态关联度;/n从所述词组集合中抽取主题名称,并根据所述动态关联度修正所述主题名称;/n统计修正后的所述短文本中主题名称,获取所述短文本的主题分布。/n
【技术特征摘要】
1.一种短文本主题分布的推理方法,其特征在于,包括以下步骤:
抽取单位时间内短文本中出现的共现词对,整合所述共现词对获取词组集合;
根据语义相似度和历史共现度对所述词组集合进行关联,获取所述词组集合的动态关联度,并以词组矩阵形式存储所述动态关联度;
从所述词组集合中抽取主题名称,并根据所述动态关联度修正所述主题名称;
统计修正后的所述短文本中主题名称,获取所述短文本的主题分布。
2.根据权利要求1所述的短文本主题分布的推理方法,其特征在于,所述抽取单位时间内短文本中出现的共现词对,整合所述共现词对获取词组集合;包括:
预处理单位时间内的短文本,获取所述短文本的数据集合信息;
从所述数据集合信息中抽取出现在同一个短文本中的单词,将所述单词组合为所述共现词对;
将所述共现词对整合为一个全局级别的所述词组集合。
3.根据权利要求1所述的短文本主题分布的推理方法,其特征在于,所述根据语义相似度和历史共现度对所述词组集合进行关联,获取所述词组集合的动态关联度,并以词组矩阵形式存储所述动态关联度;包括:
通过相似度模型训练所述词组集合获取词嵌入向量,使用余弦相似度计算所述词组集合对词嵌入向量上的所述语义相似度,根据所述语义相似度生成词组矩阵;
对历史短文本中高度重要的共现词对进行关联,获取所述共现词对的历史共现度,量化所述历史共现度并动态更新所述词组矩阵,获取所述词组集合的动态关联度;
将所述动态关联度存储到所述词组矩阵中。
4.根据权利要求1所述的短文本主题分布的推理方法,其特征在于,所述从所述词组集合中抽取主题名称,并根据所述动态关联度修正所述主题名称;包括:
根据权重吉布斯采样算法对所述词组集合进行迭代,抽取和分配所述词组集合,推理得到所述短文本的主题名称;
根据所述动态关联度对所述主题名称进行修正,获取偏向和强调的所述主题名称。
5.一种短文本主题分布的推理系统,其特征在于,包括:
词组集合模块,用于抽取单位时间内短文本中出现的共现词对,整合所述共现词对...
【专利技术属性】
技术研发人员:廖清,郭颐冰,黄裕涛,漆舒汉,刘洋,
申请(专利权)人:哈尔滨工业大学深圳,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。