In this invention, a text semantic label extraction method based on word clustering is disclosed. The text data input by the user, according to the word vector mapping and the clustering operation, finally reflect the cluster centroid to return the word item, and return it to the user as a semantic label. This method is based on the distributed representation hypothesis of Hinton. On the basis of neural network language model, this method uses word embedding generation technology, and proposes a keyword extraction method for text. This model uses vectors in low dimensional space as the semantic representation of words, and uses clustering algorithm to compute the semantic distribution of word items in low dimensional space, and decodes semantic information by using vector to word mapping, thus extracting semantic labels of text. The experimental results obtained by this method are remarkable.
【技术实现步骤摘要】
一种基于词项聚类的文本语义标签抽取方法
本专利技术属于数据挖掘领域,涉及一种基于词项聚类的文本语义标签抽取方法。
技术介绍
随着互联网的发展,互联网基础设施的快速增长,使得大量用户数据的收集变得越来月容易,而这些数据中有很大一部分就是自然语言形式的文本数据。而使用语义标签的方式对文本打上更概括更抽象的语义标签,使得文本数据的分析以及挖掘都变得更加便捷。文本作为人思想的高层次抽象表达,形式丰富语义复杂,对计算机而言纯粹的文本是不可理解的,因而将文本转化成计算机可处理的数学表达形式,是计算机处理文本的基础。本专利单词分布式表示假说,在语言模型的基础上,采用词嵌入生成技术,提出了一种文本的关键词抽取方法。本模型使用低维空间中的向量作为单词的语义表示,采用聚类算法对低维空间中词项的分布进行语义计算,并使用向量到单词映射的方式对语义信息解码,从而抽取出文本的语义标签。
技术实现思路
本专利技术所涉及的文本语义标签抽取是从文本中抽取出可代表文本语义信息的词语的过程,对自然语言的处理也有重要的应用价值。本方法基于Hinton的单词分布式表示假说,在神经网络语言模型的基础上,采用词嵌入生成技术,提出了一种文本的关键词抽取方法。本模型使用低维空间中的向量作为单词的语义表示,采用聚类算法对低维空间中词项的分布进行语义计算,并使用向量到单词映射的方式对语义信息解码,从而抽取出文本的语义标签。本专利技术采用的技术方案为一种基于词项聚类的文本语义标签抽取方法,步骤总体上分为两步,其流程图如图1所示,该方法具体步骤为:步骤一:词项在高维几何空间的向量映射。在所给的文本数据集上,以词项分布 ...
【技术保护点】
1.一种基于词项聚类的文本语义标签抽取方法,其特征在于,该方法具体步骤为:步骤一:词项在高维几何空间的向量映射;在所给的文本数据集上,以词项分布式假说的表示形式建立文本数据的语言模型,采用梯度下降算法同时对语言模型和词向量表示迭代训练,得到所有词项对应的向量;步骤1.1:对文本数据集进行数据预处理;中文数据集中,首先对中文文本进行分词处理,将完整的句子划分成词语的集合;由于自然语言中存在很多无语义的连词、代词等词语,所以最后需要进行去停用词处理,滤掉无语义的词项;步骤1.2:建立n元语言模型;CBOW语言模型中,CBOW语言模型的方法是,根据分布式假说,将词项W映射为d维空间中的向量表示,那么词项W写为W‑>V∈Rd;此时向量V中每个值均为待定的系数,文本语料中词项的共现关系即出现在同一句话中的词项提供确定这些系数的依据;依据N元语言模型理论,将一个完整的句子视为词项连接的序列,而序列中从第t‑n到t+n个元素作为一个子单元,将第t‑n到第t‑1个元素和第t+1到t+n个元素作为模型的输入,第t个元素作为模型的标注值,以第n个单词的上下文信息预测第n个出现的概率;模型的结构主要分为输入 ...
【技术特征摘要】
1.一种基于词项聚类的文本语义标签抽取方法,其特征在于,该方法具体步骤为:步骤一:词项在高维几何空间的向量映射;在所给的文本数据集上,以词项分布式假说的表示形式建立文本数据的语言模型,采用梯度下降算法同时对语言模型和词向量表示迭代训练,得到所有词项对应的向量;步骤1.1:对文本数据集进行数据预处理;中文数据集中,首先对中文文本进行分词处理,将完整的句子划分成词语的集合;由于自然语言中存在很多无语义的连词、代词等词语,所以最后需要进行去停用词处理,滤掉无语义的词项;步骤1.2:建立n元语言模型;CBOW语言模型中,CBOW语言模型的方法是,根据分布式假说,将词项W映射为d维空间中的向量表示,那么词项W写为W->V∈Rd;此时向量V中每个值均为待定的系数,文本语料中词项的共现关系即出现在同一句话中的词项提供确定这些系数的依据;依据N元语言模型理论,将一个完整的句子视为词项连接的序列,而序列中从第t-n到t+n个元素作为一个子单元,将第t-n到第t-1个元素和第t+1到t+n个元素作为模型的输入,第t个元素作为模型的标注值,以第n个单词的上下文信息预测第n个出现的概率;模型的结构主要分为输入层、映射层和输出层三层,图2为n=2时的CBOW模型:输入层输入的是词项W(t)所处的上下文V(t-2)、V(t-1)、V(t+1)、V(t+2),其中V(t-2)、V(t-1)、V(t+1)、V(t+2)分别为W(t)所处的上下文词项W(t-2)、W(t-1)、W(t+1)、W(t+2)对应的分布式表示向量;映射层用以合并输入层各项的值,计算各个维度上的和,生成映射层向量有输出层根据映射层的值计算出输出W(t);步骤1.3:使用预处理过后的文本数据,使用层次softmax,对语言模型以及词向量训练过程加速;层次softmax为了加速模型的计算,以树形结构替代之前输出层的扁平结构,以词项在语料中出现频率构成的Huffman树作为模型的输出层;为了便于模型更新,Huffman树结构中引入以下计法:a>pw:从根节点出点到达词项W对应叶子节点的路径;b>lw...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。