一种基于LDA的主题词嵌入消歧方法及系统技术方案

技术编号:24757360 阅读:22 留言:0更新日期:2020-07-04 09:26
本发明专利技术涉及一种基于LDA的主题词嵌入消歧方法及系统,属于语义分析技术领域。本发明专利技术方法包括:主题模型训练步骤:基于Wiki语料库结合LDA算法训练主题模型;主题词向量生成步骤:根据Wiki语料库和主题模型,利用Word2Vec训练出主题词向量;上下文向量生成步骤:利用主题模型和主题词向量,计算出歧义词所在上下文的向量表示;有监督词义消歧步骤:将上下文向量与其他传统语义特征结合,利用SVM进行词义消歧。

A LDA based method and system for topic word embedding disambiguation

【技术实现步骤摘要】
一种基于LDA的主题词嵌入消歧方法及系统
本专利技术涉及一种基于LDA的主题词嵌入消歧方法及系统,属于语义分析

技术介绍
自然语言具有天生的歧义性,很多单词普遍有多个词义,如“cricket”,该单词既可表示为一种运动,也可表示为一种昆虫,但在特定的上下文中,每个单词都有一个确定的词义。词义消歧是一种根据特定的上下文确定歧义词的正确词义的方法,被认为是AI-Complete问题。词义消歧是自然语言处理方向历史最悠久的任务之一,同时它也是很多自然语言处理中的一个关键基础任务,在机器翻译、信息检索、信息抽取等领域应用广泛。词义消歧目前常用的解决方案可粗略分为以下三大类:1、基于有监督机器学习算法的词义消歧方法:有监督词义消歧方法最明显的特点就是需要利用人工词义注释的数据,而这些方法也都基于一个假设:一个单词的上下文能够提供足够的证据来对这个单词进行消歧。然而由于人工词义标注是一件又困难又非常耗时的事情,所以很快会到达“知识获取瓶颈”,因此有监督词义消歧方法不具有扩展性,并且对于一个新的语言,它都得做大量类似的重复工本文档来自技高网...

【技术保护点】
1.一种基于LDA的主题词嵌入消歧方法,其特征在于:/nStep1:基于大规模无词义标注的Wiki语料库,利用online LDA算法方式训练出主题模型;/nStep2:基于主题模型,将Wiki语料库的每篇文档归类到各个主题下分别形成各种的主题文档集,然后对每个主题文档集用Word2Vec训练出每个主题下的词向量,即为主题词向量;/nStep3:基于小规模有词义标注的SemCor语料库,利用主题模型和主题词向量计算出上下文向量;/nStep4:将上下文向量和其他传统语义特征串联,利用SVM训练并测试消歧模型。/n

【技术特征摘要】
1.一种基于LDA的主题词嵌入消歧方法,其特征在于:
Step1:基于大规模无词义标注的Wiki语料库,利用onlineLDA算法方式训练出主题模型;
Step2:基于主题模型,将Wiki语料库的每篇文档归类到各个主题下分别形成各种的主题文档集,然后对每个主题文档集用Word2Vec训练出每个主题下的词向量,即为主题词向量;
Step3:基于小规模有词义标注的SemCor语料库,利用主题模型和主题词向量计算出上下文向量;
Step4:将上下文向量和其他传统语义特征串联,利用SVM训练并测试消歧模型。


2.根据权利要求1所述的基于LDA的主题词嵌入消歧方法,其特征在于所述Step1具体为:
Step1.1:对于Wiki语料库做分词处理,将每篇文档中非单词的符号去掉进行分词,转换为一篇文档一行的形式;
Step1.2:之后利用WordNet对语料库进行词形还原;
Step1.3:然后利用预设的停用词集合去掉语料库中所有停用词,生成新的Wiki语料库;
Step1.4:最后基于Wiki语料库,利用onlineLDA训练出主题模型,包括文档-主题概率分布p(ti|d)和词-主题概率分布p(tj|w),其中,d表示当前文档,w表示当前单词,ti表示第i个主题。


3.根据权利要求2所述的基于LDA的主题词嵌入消歧方法,其特征在于所述Step2具体为:
Step2.1:根据主题模型的文档-主题概率分布p(ti|d)获取每篇文档的主题分布,将每篇文档归类到概率最大的一个主题下,进而为每个主题生成各自的主题文档集Dt;
Step2.2:基于每个主题文档集,利用Word2Vec训练出每个文档集中每个单词的词向量,即为主题词向量其表示主题t下单词w的向量表示。

<...

【专利技术属性】
技术研发人员:唐季林贾连印陈明鲜张崇德
申请(专利权)人:昆明理工大学
类型:发明
国别省市:云南;53

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1