一种改进词向量模型的语义计算方法技术

技术编号:16455966 阅读:119 留言:0更新日期:2017-10-25 20:32
本发明专利技术提供一种改进词向量模型的语义计算方法,包括以下步骤:S1:语料预处理;S2:词性标注,对语料预处理后得到的词语进行标注词性;S3:向量初始化,对词性标注后得到的词语和词性进行向量化;S4:上下文向量整合,对词语的上下文词语向量及词性向量进行计算整合;S5:构建哈夫曼树并训练网络,优化目标函数并判断误差是否达到阈值;S6:向量获取,获取词语向量和词性向量;S7:向量应用,应用词语向量和词性向量进行语义计算。相比于现有技术,本发明专利技术在向量中加入了词性的因素,并对现有的Word2vec模型进行改进。同时,根据该改进后的模型进行了创新的应用,拓展了Word2vec进行语义计算的功能。

A semantic computing method based on improved word vector model

The present invention provides an improved model of semantic word vector calculation method, which comprises the following steps: S1: data preprocessing; S2: tagging of POS tagging of corpus preprocessed words; S3: vector initialization of POS tagging after words and POS in to S4: context vector quantization; the integration of context vector and part of speech of words to calculate vector integration; S5: Construction of Huffman tree and training network, the optimization objective function and determine whether the error reaches the threshold; S6: vector acquisition, acquisition of words and POS vector vector; S7: vector application, application of words and POS vector vector for semantic computation. Compared with the existing technology, the present invention adds the part of speech factor to the vector, and improves the existing Word2vec model. At the same time, according to the improved model, the application of innovation is expanded, and the semantic computing function of Word2vec is expanded.

【技术实现步骤摘要】
一种改进词向量模型的语义计算方法
本专利技术涉及信息科学领域,具体是一种改进Word2vec词向量模型的语义计算方法及系统。
技术介绍
将自然语言交给机器学习算法来处理,需要将语言进行数学化处理,词向量化就是一种方式。进行词向量化最简单的方式为独热码表示法(One-hotRepresentation),该方法通过创建一个词表库,并对词库中的每个词进行顺序编号来赋予每个词一个向量,向量的分量只有一个1,其他全为0。这种词向量表示法有2个缺点:(1)容易产生维数灾难;(2)不能很好的刻画词与词之间的相似性,即语义鸿沟。为了克服这种缺陷,Hinton在1986年提出分布式表示方法(DistributedRepresentation),其基本思想是通过训练将每个词映射成一个固定长度的k维实数短向量(k为正整数),然后将所有向量映射到向量空间,每个向量对应空间上的一个点,在空间上计算向量与向量之间的距离,就可以判断它们之间的相似度。分布式表示法的一种生成词向量的方式是利用神经网络算法,该方法通过训练神经网络最终得到词向量和语言模型。Bengio于2003年提出神经网络语言模型(NeuralNe本文档来自技高网...
一种改进词向量模型的语义计算方法

【技术保护点】
一种改进词向量模型的语义计算方法,其特征在于:包括以下步骤:S1:语料预处理,对语料进行清理,规范化,分词操作;S2:词性标注,对语料预处理后得到的词语进行标注词性;S3:向量初始化,对词性标注后得到的词语和词性进行向量化;S4:上下文向量整合,对词语的上下文词语向量及词性向量进行计算整合;S5:构建哈夫曼树并训练网络,优化目标函数并判断误差是否达到阈值;S6:向量获取,获取词语向量和词性向量;S7:向量应用,应用词语向量和词性向量进行语义计算。

【技术特征摘要】
1.一种改进词向量模型的语义计算方法,其特征在于:包括以下步骤:S1:语料预处理,对语料进行清理,规范化,分词操作;S2:词性标注,对语料预处理后得到的词语进行标注词性;S3:向量初始化,对词性标注后得到的词语和词性进行向量化;S4:上下文向量整合,对词语的上下文词语向量及词性向量进行计算整合;S5:构建哈夫曼树并训练网络,优化目标函数并判断误差是否达到阈值;S6:向量获取,获取词语向量和词性向量;S7:向量应用,应用词语向量和词性向量进行语义计算。2.根据权利要求1所述改进词向量模型的语义计算方法,其特征在于:所述步骤S1中,具体包括:S11:去除无关字符,包括去除标点符号和乱码;S12:统一表达规范,将中文语料都转为中文简体,将英文语料统一为英文小写;S13:分词,使用jieba分词中的搜索引擎分词模式进行分词。3.根据权利要求1所述改进词向量模型的语义计算方法,其特征在于:所述步骤S2中,具体为:对语料中分词后的每个词语采用jieba分词词典进行词性标注。4.根据权利要求1所述改进词向量模型的语义计算方法,其特征在于:所述步骤S3中,具体为:对词语向量和词性向量进行随机向量化,首先设定向量的维度,然后使用服从均匀分布的数据填充向量的...

【专利技术属性】
技术研发人员:刘志煌刘冶李宏浩傅自豪邝秋华
申请(专利权)人:广州赫炎大数据科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1