一种基于词性特征和语义增强的短文本主题建模方法技术

技术编号:24756446 阅读:36 留言:0更新日期:2020-07-04 09:14
本发明专利技术公开了一种基于词性特征和语义增强的短文本主题建模方法,包括:(a)自定义词性特征;(b)计算各个单词间的语义相似度(c)生成建模文档;和(d)在模型的吉布斯采样推断过程中,对特定的单词进行语义增强。以解决现有的短文本主题模型无法对一个主题进行全面、具体的分析,也无法很好地解决短文本中存在的稀疏性的问题。

A short text topic modeling method based on part of speech features and semantic enhancement

【技术实现步骤摘要】
一种基于词性特征和语义增强的短文本主题建模方法
本专利技术涉及语言处理领域,特别涉及一种基于词性特征和语义增强的短文本主题建模方法。
技术介绍
随着社交网络和移动设备的快速发展,短文本媒体逐渐成为人们日常生活中一种重要的信息来源,从这些短文本语料中挖掘潜在主题对于许多基于内容的分析任务来说十分重要,例如内容表征、用户兴趣分析、新兴主题发现和突发事件检测等。与传统的新闻报道和科技文献等长文本相比,短文本通常具备内容简短、编写随意、数据量大和内容繁杂等特点,这无疑给基于短文本的主题分析任务带来了巨大的挑战。传统的主题模型,如概率潜在语义分析模型(ProbabilisticLatentSemanticAnalysis,PLSA)和潜在狄利克雷分配模型(LatentDirichletAllocation,LDA),通常基于文档层级的单词共现模式进行建模,以挖掘出语料中的潜在主题。但是,由于短文本长度的限制,基于文档层级的单词共现模式在短文本语料中十分稀少,传统的主题模型不再适用。而现有的短文本主题模型大多是针对短文本语料中存在的稀疏性问本文档来自技高网...

【技术保护点】
1.一种基于词性特征和语义增强的短文本主题建模方法,其特征在于,包括:/n(a)自定义词性特征/n(b)计算各个单词间的语义相似度/n(c)生成建模文档;和/n(d)在模型的吉布斯采样推断过程中,对特定的单词进行语义增强。/n

【技术特征摘要】
1.一种基于词性特征和语义增强的短文本主题建模方法,其特征在于,包括:
(a)自定义词性特征
(b)计算各个单词间的语义相似度
(c)生成建模文档;和
(d)在模型的吉布斯采样推断过程中,对特定的单词进行语义增强。


2.根据权利要求1的短文本主题建模方法,其特征在于,在步骤(a)之中还包括以下步骤:
(a1)根据语料特性和用户需求定义与主题相关的词性特征集;
(a2)进行预处理操作,并将每个单词根据词性标注的结果归入不同的词性特征。


3.根据权利要求1的短文本主题建模方法,其特征在于,在步骤(b)之中还包括以下步骤:
(b1)通过计算外部词嵌入和本地词嵌入的加权平均获取单词的联合词嵌入;
(b2)然后通过计算联合词嵌入之间的余弦距离来衡量不同单词间的语义相似度,获得每个单词与其语义相关的单词的集合。


4.根据权利要求1的短文本主题建模方法,其特征在于,在步骤(c)之中还包括以下步骤:
(c1)首先根据词性标注的结果判别该单词的词性特征;
(c2)若为地点和对象特征,则从对应的主题特征-单词分布中采样该单词;
(c3)否则,另外引入一个开关变量,来决定该单词是与主题相关的关键词还是全局背景单词。


5.根据权利要求1的短文本主题建模方法,其特征在于,在步骤(d)之中还包括以下步骤:
(d1)首先为每...

【专利技术属性】
技术研发人员:赵博
申请(专利权)人:江苏鸿程大数据技术与应用研究院有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1