一种基于CBOW模型和依存句法关系的词向量表示方法技术

技术编号：21571795 阅读：23 留言：0更新日期：2019-07-10 15:28

本发明专利技术公开了一种基于CBOW模型和依存句法关系的词向量表示方法。本发明专利技术首先将原始语料进行裁剪分句获得语料集合C1；针对语料集合C1进行分词及词性标注，获得语料集合C2，以及带有依存句法关系的语料集合C3；然后将语料集合C2作为CBOW模型的输入，在词向量训练过程中，通过判断中心词的词性是否为动词或名词或副词，若是则通过语料集合C3获得中心词的依存句法关系，将依存句法关系中构成强依存关系的词作为中心词的上下文，修改模型训练时的概率模型，不是则采用原有的随机窗口构造上下文。本发明专利技术综合考虑了词的词性以及依存句法信息，使得中心词具有句法上下文信息，以此来改进COBW模型的训练，从而提高词向量的表示。

A Word Vector Representation Method Based on CBOW Model and Dependent Syntactic Relations

全部详细技术资料下载

【技术实现步骤摘要】
一种基于CBOW模型和依存句法关系的词向量表示方法
本专利技术涉及自然语言处理领域，具体涉及一种基于CBOW模型和依存句法关系的词向量表示方法。
技术介绍
Word2Vec是用于训练词向量的神经网络模型，它能够在训练语言模型的同时将词表示成分布式词向量。CBOW模型是Word2Vec中一种常用训练方式，CBOW模型在训练过程使用大量的文本语料库，通过随机窗口构造中心词的上下文，利用随机梯度下降和反向传播算法，大大提升了词向量的训练效率。但在CBOW模型中使用随机窗口来构造中心词的上下文，这对学习高质量词向量的表征仍然是不够的。为了提高词向量的表示，近年来提出了将各种附加资源整合到词向量表示法学习框架中的研究工作。通常，一些增强的词嵌入模型试图利用词汇知识资源作为学习词嵌入的语义约束，也有人尝试利用多语种并行语料库来指导单词向量的训练过程。然而，这些工作没有充分考虑到训练语料的词性以及句法信息。
技术实现思路
本专利技术的目的在于克服上述已有技术的不足，利用词性以及依存句法关系，得到具有依存句法关系的句法上下文，以此提出一种基于CBOW模型和依存句法关系的词向量表示方法。本专利技术方法包括以下步骤：1.语料预处理针对原始语料进行裁剪分句得到语料集合C1。针对语料集合C1，获得每行语料的分词及词性标注，构成语料集合C2。语料集合C2为：C2＝{J1,J2,Ji...Jn}Ji为语料集合C2中一行带有分词及词性标注的序列，1<＝i<＝n，n为语料集合C2的行数。针对语料集合C1，获得每行语料的依存句法关系，构成语料集合C3。2.词向量表示学习2.1遍历语...

【技术保护点】
1.一种基于CBOW模型和依存句法关系的词向量表示方法，该方法包含如下步骤：步骤1.语料预处理针对原始语料进行裁剪分句得到语料集合C1；针对语料集合C1，获得每行语料的分词及词性标注，构成语料集合C2；语料集合C2为：C2＝{J1，J2，Ji…Jn}Ji为语料集合C2中一行带有分词及词性标注的分词序列，1＜＝i＜＝n，n为语料集合C2的行数；针对语料集合C1，获得每行语料的依存句法关系，构成语料集合C3；步骤2.词向量表示学习步骤2.1遍历语料集合根据步骤1的结果，将语料集合C2作为CBOW模型的输入；遍历语料集合C2中的每个分词序列Ji；步骤2.2遍历分词序列Ji中的分词，具体步骤如下：a)将分词序列Ji中的当前分词作为中心词；b)通过判断中心词的词性，构造上下文得到概率模型；判断中心词的词性，若中心词的词性是动词或名词或副词，则通过语料集合C3获得中心词的依存句法关系，将依存句法关系中构成强依存关系的词并入到中心词的上下文中，将具有强依存关系的词构成句法上下文，修改CBOW模型中的概率模型为：P＝(Wtarget|Wdobj+Wnsub+...+Wamod)其中P是CBOW模型中的...

【技术特征摘要】
1.一种基于CBOW模型和依存句法关系的词向量表示方法，该方法包含如下步骤：步骤1.语料预处理针对原始语料进行裁剪分句得到语料集合C1；针对语料集合C1，获得每行语料的分词及词性标注，构成语料集合C2；语料集合C2为：C2＝{J1，J2，Ji…Jn}Ji为语料集合C2中一行带有分词及词性标注的分词序列，1＜＝i＜＝n，n为语料集合C2的行数；针对语料集合C1，获得每行语料的依存句法关系，构成语料集合C3；步骤2.词向量表示学习步骤2.1遍历语料集合根据步骤1的结果，将语料集合C2作为CBOW模型的输入；遍历语料集合C2中的每个分词序列Ji；步骤2.2遍历分词序列Ji中的分词，具体步骤如下：a)将分词序列Ji中的当前分词作为中心词；b)通过判断中心词的词性，构造上下文得到概率模型；判断中心词的词性，若中心词的词性是动词或名词或副词，则通过语料集合C3获得中心词的依存句法关系，将依存句法关系中构成强依存关系的词并入到中心词的上下文中，将具有强依存关系的词构成句法上下文，修改CBOW模型中的概率模型为：P＝(Wtarget|Wdobj+Wnsub+...+Wamod)其中P是CBOW模型中的概率模型，Wtarget为中心词，Wdob...

【专利技术属性】
技术研发人员：徐小良，金通学，王宇翔，夏一行，
申请(专利权)人：杭州电子科技大学，
类型：发明
国别省市：浙江,33

全部详细技术资料下载我是这个专利的主人