一种基于主题模型和向量空间的一词多义分析方法技术

技术编号：15746596 阅读：41 留言：0更新日期：2017-07-03 02:15

本发明专利技术提供了一种基于主题模型和向量空间的一词多义分析方法，包括：S1、以式(1)作为目标函数，建立一词多义的主题模型；S2、读取整个文档集合D的数据；S3、主题‑词分布

A method of polysemy analysis based on topic model and vector space

The present invention provides a method of analysis, polysemy and topic model based on the vector space, including: S1 type (1) as the objective function, subject model of polysemy; S2, read the entire document collection of D data; S3, theme word distribution

全部详细技术资料下载

【技术实现步骤摘要】
一种基于主题模型和向量空间的一词多义分析方法
本专利技术涉及自然语言处理领域，具体涉及一种基于主题模型和向量空间的一词多义分析方法。
技术介绍
随着人工智能技术的蓬勃发展，自然语言处理作为一种革新的语言研究模式，结合了计算机科学、语言学、数学于一体的智能科学，广泛应用于机器翻译、问答系统、信息检索和文档处理等方面。由于大部分字词并不仅有一个意思，即存在一词多义的现象，如果仅用单一的词向量表示每个字词，将无法消除歧义现象，为了解决这个问题，上下文信息或主题向量被用于辅助一词多义的研究中，然而这些研究都把主题模型、词向量、主题向量三者孤立开来，简单的利用现成的结果作为先验知识来辅助训练模型。主题模型用于挖掘一个文档集合的潜藏主题信息，每个主题表示一个相关概念，具体表现为一系列相关的词，实现形式为主题-词分布。词向量模型则利用文本中的上下文信息，将每个词映射到一个低维实值空间中，并包含语法语义等信息，从而可使用欧氏距离或余弦夹角来衡量词向量的相似度。主题向量直接将主题映射到向量空间中，近似表示一个主题的语义中心。主题模型、词向量、主题向量都可用于文档表示中，主要应用于文档聚类、文档分类等任务中。这三者在文本挖掘中都各具特点，主题模型的全局信息以及词向量的局部信息相结合已被研究证实有助于提高原模型的效果，但是这些研究都是都有较大的局限性，他们大多都将三者独立开，要么先训练单独训练其中一两项，然后借助训练结果来提高另一项的效果；要么直接使用较大训练集的训练结果作为外部知识，辅助其他小数据集的模型训练。
技术实现思路
针对现有技术中存在的问题，本专利技术通过对文本文档集进...
一种基于主题模型和向量空间的一词多义分析方法

【技术保护点】
一种基于主题模型和向量空间的一词多义分析方法，其特征在于，包括以下步骤：S1、以式(1)作为目标函数，建立一词多义的主题模型：

【技术特征摘要】
1.一种基于主题模型和向量空间的一词多义分析方法，其特征在于，包括以下步骤：S1、以式(1)作为目标函数，建立一词多义的主题模型：其中为文本文档集合，M为集合中的文档数，Nm为第m篇文档的词的数量，c为上下文信息窗口大小，wm,n表示第m篇文档第n个词，K表示主题数目，tk表示第k个主题向量，表示主题模型中的主题-词分布，表示wm,n的主题编号；S2、读取整个文档集合的数据；S3、主题-词分布初始化：首先，采用GibbsLDA算法对文本文档集合中的每个词进行主题采样；然后，对主题模型的主题-词分布进行初始化估计；S4、主题采样：针对文档中的每一个词wm,n，计算出该词属于每个主题的概率，然后采用累加分布的方式采样出其对应的主题编号zm,n∈[1,K]；S5、主题向量更新：对于每个主题向量tk,k∈[1,K]，根据式(5)重新计算出其向量表示：其中，为指示函数，当x取值为真，其结果为1，否则为0。表示词wm,n所对应的词向量表示，W表示文档集合的词汇表大小，nk,w表示词w被分配到主题k下的数目；S6、词向量训练：构造一棵哈夫曼树，叶子节点为词汇表中的每个词w，非叶子结点作为辅助向量u，采用随机梯度下降的方式求解式(1)所示的目标函数；S7、循环执行S4至S6若干次，以进行若干次迭代；S8、将得出的词向量和主题向量输出并存储；S9、判断是否一词多义：将待分析的词的词向量和主题向量相拼接，组成一个新向量，代表整个上下文环境，然后计算该新向量的余弦值，当余弦值小于设定阈值时，认定该词具有一词多义现象；反之认定该词不具有一词多义现象。2.根据权利要求1所述的分析方法，其特征在于，在S3中，主题采样过程中所使用的更新规则如式(2)所...

【专利技术属性】
技术研发人员：罗嘉文，卓汉逵，
申请(专利权)人：中山大学，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人