当前位置: 首页 > 专利查询>中山大学专利>正文

一种基于主题模型和向量空间的一词多义分析方法技术

技术编号:15746596 阅读:41 留言:0更新日期:2017-07-03 02:15
本发明专利技术提供了一种基于主题模型和向量空间的一词多义分析方法,包括:S1、以式(1)作为目标函数,建立一词多义的主题模型;S2、读取整个文档集合D的数据;S3、主题‑词分布

A method of polysemy analysis based on topic model and vector space

The present invention provides a method of analysis, polysemy and topic model based on the vector space, including: S1 type (1) as the objective function, subject model of polysemy; S2, read the entire document collection of D data; S3, theme word distribution

【技术实现步骤摘要】
一种基于主题模型和向量空间的一词多义分析方法
本专利技术涉及自然语言处理领域,具体涉及一种基于主题模型和向量空间的一词多义分析方法。
技术介绍
随着人工智能技术的蓬勃发展,自然语言处理作为一种革新的语言研究模式,结合了计算机科学、语言学、数学于一体的智能科学,广泛应用于机器翻译、问答系统、信息检索和文档处理等方面。由于大部分字词并不仅有一个意思,即存在一词多义的现象,如果仅用单一的词向量表示每个字词,将无法消除歧义现象,为了解决这个问题,上下文信息或主题向量被用于辅助一词多义的研究中,然而这些研究都把主题模型、词向量、主题向量三者孤立开来,简单的利用现成的结果作为先验知识来辅助训练模型。主题模型用于挖掘一个文档集合的潜藏主题信息,每个主题表示一个相关概念,具体表现为一系列相关的词,实现形式为主题-词分布。词向量模型则利用文本中的上下文信息,将每个词映射到一个低维实值空间中,并包含语法语义等信息,从而可使用欧氏距离或余弦夹角来衡量词向量的相似度。主题向量直接将主题映射到向量空间中,近似表示一个主题的语义中心。主题模型、词向量、主题向量都可用于文档表示中,主要应用于文档聚类、文档分类等任务中。这三者在文本挖掘中都各具特点,主题模型的全局信息以及词向量的局部信息相结合已被研究证实有助于提高原模型的效果,但是这些研究都是都有较大的局限性,他们大多都将三者独立开,要么先训练单独训练其中一两项,然后借助训练结果来提高另一项的效果;要么直接使用较大训练集的训练结果作为外部知识,辅助其他小数据集的模型训练。
技术实现思路
针对现有技术中存在的问题,本专利技术通过对文本文档集进行建模,借鉴主题模型、词向量以及主题向量的优点,提出了一种基于主题模型和向量空间的一词多义分析方法,以更好地挖掘文档集合潜藏的主题信息。为实现上述目的,本专利技术采用以下技术方案:一种基于主题模型和向量空间的一词多义分析方法,包括以下步骤:S1、以式(1)作为目标函数,建立一词多义的主题模型:其中为文本文档集合,M为集合中的文档数,Nm为第m篇文档的词的数量,c为上下文信息窗口大小,wm,n表示第m篇文档第n个词,K表示主题数目,tk表示第k个主题向量,表示主题模型中的主题-词分布,表示wm,n的主题编号;S2、读取整个文档集合的数据;S3、主题-词分布初始化:首先,采用GibbsLDA算法对文本文档集合中的每个词进行主题采样;然后,对主题模型的主题-词分布进行初始化估计;S4、主题采样:针对文档中的每一个词wm,n,计算出该词属于每个主题的概率,然后采用累加分布的方式采样出其对应的主题编号zm,n∈[1,K];S5、主题向量更新:对于每个主题向量tk,k∈[1,K],根据式(5)重新计算出其向量表示:其中,为指示函数,当x取值为真,其结果为1,否则为0。表示词wm,n所对应的词向量表示,W表示文档集合的词汇表大小,nk,w表示词w被分配到主题k下的数目;S6、词向量训练:构造一棵哈夫曼树,叶子节点为词汇表中的每个词w,非叶子结点作为辅助向量u,采用随机梯度下降的方式求解式(1)所示的目标函数;S7、循环执行S4至S6若干次,以进行若干次迭代;S8、将得出的词向量和主题向量输出并存储;S9、判断是否一词多义:将待分析的词的词向量和主题向量相拼接,组成一个新向量,代表整个上下文环境,然后计算该新向量的余弦值,当余弦值小于设定阈值时,认定该词具有一词多义现象;反之认定该词不具有一词多义现象。进一步地,在S3中,主题采样过程中所使用的更新规则如式(2)所示:其中,-(m,n)表示在统计时除去当前词,W表示文本文档集合的词汇数,nm,k表示第m篇文档中属于主题k的词的数量,zm,n表示词wm,n所分配的主题编号,表示词wm,n被分配到主题k下的数目,nk'表示被分配到主题k下所有词的数目,α为狄利克雷对称超参数;对主题模型的主题-词分布进行初始化估计所使用的公式为式(3):其中,表示初始化估计的主题-词分布,β表示狄利克雷对称超参数。进一步地,在S4中,根据式(4)计算出该词属于每个主题的概率:进一步地,在S6中,具体包括以下步骤:S601、更新主题-词分布根据式(6)计算中每个分量的梯度;针对每个分量,定义其约束为其中,L(wm,n+j)表示从哈夫曼树根节点到叶子节点wm,n+j的路径长度(节点数目,包含根节点和叶子节点),表示该路径上节点i→i+1的哈夫曼编码,σ(x)=1/(1+e-x),表示该路径上第i个非叶子结点;S602、更新词向量w:根据式(7)计算每个词的梯度,并利用辅助向量来更新;S603、更新哈夫曼树非叶子结点辅助向量u:根据式(8)计算哈夫曼树路径上的非叶子结点向量u,使之能影响词向量w的训练质量;进一步地,在S9中,所设定的阈值为0.6。本专利技术提供的一种基于主题模型和向量空间的一词多义分析方法,可以训练出更优质的词向量、主题向量,使其在一词多义的研究分析中表现出更合理的解释,而且主题模型的表现也明显优于原始模型LDA。本专利技术通过主题模型、词向量、主题向量这三者的交叉学习来相互提高,能够有效应用于相似性评估、文档分类、主题相关性等任务。附图说明图1是本专利技术实施例提供的一种基于主题模型和向量空间的一词多义分析方法的流程示意图。具体实施方式下面将结合附图和具体的实施例对本专利技术的技术方案进行详细说明。为了充分借助主题模型、词向量和主题向量的内在特性,考虑到文本数据一词多义现象普遍性,为更好地挖掘文档集合潜藏的主题信息并训练更高质量的词向量以及主题向量,本专利技术提供了一种基于主题模型和向量空间的一词多义分析方法。具体地,本专利技术根据自然语言处理的基本规则,做出如下合理假设:1、主题模型中的主题-词分布可以利用其较高概率的一系列词表示一个具体的概念,其数值意义为某一个词出现在该主题下的概率大小,可通过主题相关性来评估挖掘的主题质量。2、文本中的每个词都可以映射到低维实值向量空间中,即词向量,该向量包含了该词的语法语义等信息,并可使用欧氏距离或余弦等数学方式来评估他们之间的差异。3、主题向量与主题模型中的主题-词分布并不是完全孤立的,主题向量可视为该概率分布在词向量空间的一个语义中心映射,与词向量紧密关联。基于上述假设,本专利技术提出了一种基于主题模型和向量空间的一词多义分析方法,如图1所示,所述方法包括如下步骤:S1、以式(1)作为目标函数,建立一词多义的主题模型:其中为文本文档集合,M为集合中的文档数,Nm为第m篇文档的词的数量,c为上下文信息窗口大小,wm,n表示第m篇文档第n个词,K表示主题数目,tk表示第k个主题向量,表示主题模型中的主题-词分布,表示wm,n的主题编号;S2、读取整个文本文档集合的数据;S3、主题-词分布初始化:首先,采用GibbsLDA算法对文本文档集合中的每个词进行主题采样;然后,对主题模型的主题-词分布进行初始化估计;其中,主题采样过程中所使用的更新规则如式(2)所示:其中,-(m,n)表示在统计时除去当前词,W表示文本文档集合的词汇数,nm,k表示第m篇文档中属于主题k的词的数量,zm,n表示词wm,n所分配的主题编号,表示词wm,n被分配到主题k下的数目,nk'表示被分配到主题k下所有词的数目,α为狄利克雷对称超参数本文档来自技高网...
一种基于主题模型和向量空间的一词多义分析方法

【技术保护点】
一种基于主题模型和向量空间的一词多义分析方法,其特征在于,包括以下步骤:S1、以式(1)作为目标函数,建立一词多义的主题模型:

【技术特征摘要】
1.一种基于主题模型和向量空间的一词多义分析方法,其特征在于,包括以下步骤:S1、以式(1)作为目标函数,建立一词多义的主题模型:其中为文本文档集合,M为集合中的文档数,Nm为第m篇文档的词的数量,c为上下文信息窗口大小,wm,n表示第m篇文档第n个词,K表示主题数目,tk表示第k个主题向量,表示主题模型中的主题-词分布,表示wm,n的主题编号;S2、读取整个文档集合的数据;S3、主题-词分布初始化:首先,采用GibbsLDA算法对文本文档集合中的每个词进行主题采样;然后,对主题模型的主题-词分布进行初始化估计;S4、主题采样:针对文档中的每一个词wm,n,计算出该词属于每个主题的概率,然后采用累加分布的方式采样出其对应的主题编号zm,n∈[1,K];S5、主题向量更新:对于每个主题向量tk,k∈[1,K],根据式(5)重新计算出其向量表示:其中,为指示函数,当x取值为真,其结果为1,否则为0。表示词wm,n所对应的词向量表示,W表示文档集合的词汇表大小,nk,w表示词w被分配到主题k下的数目;S6、词向量训练:构造一棵哈夫曼树,叶子节点为词汇表中的每个词w,非叶子结点作为辅助向量u,采用随机梯度下降的方式求解式(1)所示的目标函数;S7、循环执行S4至S6若干次,以进行若干次迭代;S8、将得出的词向量和主题向量输出并存储;S9、判断是否一词多义:将待分析的词的词向量和主题向量相拼接,组成一个新向量,代表整个上下文环境,然后计算该新向量的余弦值,当余弦值小于设定阈值时,认定该词具有一词多义现象;反之认定该词不具有一词多义现象。2.根据权利要求1所述的分析方法,其特征在于,在S3中,主题采样过程中所使用的更新规则如式(2)所...

【专利技术属性】
技术研发人员:罗嘉文卓汉逵
申请(专利权)人:中山大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1