一种基于CBOW模型和依存句法关系的词向量表示方法技术

技术编号:21571795 阅读:23 留言:0更新日期:2019-07-10 15:28
本发明专利技术公开了一种基于CBOW模型和依存句法关系的词向量表示方法。本发明专利技术首先将原始语料进行裁剪分句获得语料集合C1;针对语料集合C1进行分词及词性标注,获得语料集合C2,以及带有依存句法关系的语料集合C3;然后将语料集合C2作为CBOW模型的输入,在词向量训练过程中,通过判断中心词的词性是否为动词或名词或副词,若是则通过语料集合C3获得中心词的依存句法关系,将依存句法关系中构成强依存关系的词作为中心词的上下文,修改模型训练时的概率模型,不是则采用原有的随机窗口构造上下文。本发明专利技术综合考虑了词的词性以及依存句法信息,使得中心词具有句法上下文信息,以此来改进COBW模型的训练,从而提高词向量的表示。

A Word Vector Representation Method Based on CBOW Model and Dependent Syntactic Relations

【技术实现步骤摘要】
一种基于CBOW模型和依存句法关系的词向量表示方法
本专利技术涉及自然语言处理领域,具体涉及一种基于CBOW模型和依存句法关系的词向量表示方法。
技术介绍
Word2Vec是用于训练词向量的神经网络模型,它能够在训练语言模型的同时将词表示成分布式词向量。CBOW模型是Word2Vec中一种常用训练方式,CBOW模型在训练过程使用大量的文本语料库,通过随机窗口构造中心词的上下文,利用随机梯度下降和反向传播算法,大大提升了词向量的训练效率。但在CBOW模型中使用随机窗口来构造中心词的上下文,这对学习高质量词向量的表征仍然是不够的。为了提高词向量的表示,近年来提出了将各种附加资源整合到词向量表示法学习框架中的研究工作。通常,一些增强的词嵌入模型试图利用词汇知识资源作为学习词嵌入的语义约束,也有人尝试利用多语种并行语料库来指导单词向量的训练过程。然而,这些工作没有充分考虑到训练语料的词性以及句法信息。
技术实现思路
本专利技术的目的在于克服上述已有技术的不足,利用词性以及依存句法关系,得到具有依存句法关系的句法上下文,以此提出一种基于CBOW模型和依存句法关系的词向量表示方法。本专利技术方法包括以下步骤:1.语料预处理针对原始语料进行裁剪分句得到语料集合C1。针对语料集合C1,获得每行语料的分词及词性标注,构成语料集合C2。语料集合C2为:C2={J1,J2,Ji...Jn}Ji为语料集合C2中一行带有分词及词性标注的序列,1<=i<=n,n为语料集合C2的行数。针对语料集合C1,获得每行语料的依存句法关系,构成语料集合C3。2.词向量表示学习2.1遍历语料集合根据步骤1的结果,将语料集合C2作为CBOW模型的输入。遍历语料集合C2中的每个分词序列Ji。2.2遍历分词序列Ji中的分词,具体步骤如下:a)将分词序列Ji中的当前分词作为中心词。b)通过判断中心词的词性,构造上下文得到概率模型。判断中心词的词性,若中心词的词性是动词或名词或副词,则通过语料集合C3获得中心词的依存句法关系,将依存句法关系中构成强依存关系的词并入到中心词的上下文中,具体强依存关系判断如下:若中心词是动词,则强依存关系为主谓关系或动宾关系或连谓关系或状语关系。若中心词是名词,则强依存关系为主谓关系或动宾关系或同位关系或限定关系或定中关系或数量关系。若中心词是副词,则强依存关系为状语关系或定中关系。考虑到副词的强依存关系较少,将副词构成强依存关系的依存词再次进行强依存关系的选定,把再次选定的依存词一起并入到中心词的上下文中。将具有强依存关系的词构成句法上下文,修改CBOW模型中的概率模型为:P=(Wtarget|Wdobj+Wnsub+...+Wamod)其中P是CBOW模型中的概率模型,Wtarget为中心词,Wdobj,Wnsub,Wamod是与Wtarget构成强依存关系的词。若中心词不为上述三种词性,则使用随机窗口构造中心词的上下文,使用CBOW模型中原始的概率模型:P=(Wtarget|Context(Wtarget))其中Context(Wtarget)是用随机窗口对Wtarget构造的上下文。c)针对步骤b)中得到的概率模型,使用随机梯度下降和反向传播,对训练的参数以及词向量进行更新,设置下一个分词为当前分词并返回到步骤a),直到当前分词序列Ji遍历结束。2.3语料集合C2遍历结束后得到词向量。本专利技术的有益效果:本专利技术结合词性以及依存句法信息,改进了CBOW模型中心词的上下文信息构造方法和概率模型,从而提高了词向量表示的准确性。附图说明图1是本专利技术的流程图。具体实施方式为了使本专利技术的内容、特点阐述的更加清晰明白,以下结合附图1,对本专利技术进一步详细说明,具体内容如下:1.语料预处理针对原始语料进行裁剪分句得到语料集合C1。针对语料集合C1,获得每行语料的分词及词性标注,构成语料集合C2。语料集合C2为:C2={J1,J2,Ji...Jn}Ji为语料集合C2中一行带有分词及词性标注的序列,1<=i<=n,n为语料集合C2的行数。针对语料集合C1,获得每行语料的依存句法关系,构成语料集合C3。例如对于原始语料:“此次英国新签证政策的实施,使英国院校在整个留学申请中担当了非常重要的角色。但是直接由英国院校来审核中国学生提交信息的真实性并不现实,因此院校会通过与中国权威专业的留学服务机构的合作来达到目的。但是这不表示申请学生可以存侥幸心理,通过特殊的方式达到留学的目的。”将原始语料通过相应的工具裁剪分句后,得到语料集合C1:["英国新签证政策的实施,英国院校在整个留学申请中担当了非常重要的角色""由英国院校来审核中国学生提交信息的真实性并不现实""院校会通过与中国权威专业的留学服务机构的合作达到目的""这不表示申请学生可以存侥幸心理通过特殊的方式达到留学的目的"]针对语料集合C1,获得每行语料的分词及词性标注,构成语料集合C2:["英国-ns,新-a,签证-v,政策-n,的-uj,实施-v,英国-ns,院校-n,在-p,整个-b,留学-v,申请-v,中-f,担当-v,了-ul,非常-d,重要-a,的-uj,角色-n",…………"这-r,不-d,表示-v,申请-v,学生-n,可以-c,存-v,侥幸心理-vn,-x,通过-p,特殊-a,的-uj,方式-n,达到-v,留学-v,的-uj,目的-n"]针对语料集合C1,获得每行语料的依存句法关系,构成语料集合C3:["签证-英国-nmod,签证-新-amod,政策-签证-compound:nn,实施-政策-nmod:assmod,政策-的-case,担当-实施-nmod:topic,担当-,-punct,院校-英国-nmod:assmod,担当-院校-nsubj,申请-在-case,申请-整个-det,申请-留学-compound:nn,担当-申请-nmod:prep,申请-中-case,担当-了-aux:asp,重要-非常-advmod,角色-重要-amod,重要-的-mark,担当-角色-dobj",…………"表示-这-nsubj,表示-不-neg,学生-申请-compound:nn,存-学生-nsubj,存-可以-aux:modal,目的-存-acl,心理-侥幸-compound:nn,存-心理-dobj,方式-通过-case,方式-特殊-amod,特殊-的-case,达到-方式-nmod:prep,存-达到-conj,达到-留学-dobj,存-的-mark,表示-目的-dobj"]2.词向量表示学习2.1遍历语料集合根据步骤1的结果,将语料集合C2作为CBOW模型的输入。遍历语料集合C2中的每个分词序列Ji。2.2遍历分词序列Ji中的分词,具体步骤如下:a)将分词序列Ji中的当前分词作为中心词。b)通过判断中心词的词性,构造上下文得到概率模型。判断中心词的词性,若中心词的词性是动词或名词或副词,则通过语料集合C3获得中心词的依存句法关系,将依存句法关系中构成强依存关系的词并入到中心词的上下文中,具体强依存关系判断如下:若中心词是动词,则强依存关系为主谓关系或动宾关系或连谓关系或状语关系。若中心词是名词,则强依存关系为主谓关系或动宾关系或同位关系或限定关系或定中关系本文档来自技高网...

【技术保护点】
1.一种基于CBOW模型和依存句法关系的词向量表示方法,该方法包含如下步骤:步骤1.语料预处理针对原始语料进行裁剪分句得到语料集合C1;针对语料集合C1,获得每行语料的分词及词性标注,构成语料集合C2;语料集合C2为:C2={J1,J2,Ji…Jn}Ji为语料集合C2中一行带有分词及词性标注的分词序列,1<=i<=n,n为语料集合C2的行数;针对语料集合C1,获得每行语料的依存句法关系,构成语料集合C3;步骤2.词向量表示学习步骤2.1遍历语料集合根据步骤1的结果,将语料集合C2作为CBOW模型的输入;遍历语料集合C2中的每个分词序列Ji;步骤2.2遍历分词序列Ji中的分词,具体步骤如下:a)将分词序列Ji中的当前分词作为中心词;b)通过判断中心词的词性,构造上下文得到概率模型;判断中心词的词性,若中心词的词性是动词或名词或副词,则通过语料集合C3获得中心词的依存句法关系,将依存句法关系中构成强依存关系的词并入到中心词的上下文中,将具有强依存关系的词构成句法上下文,修改CBOW模型中的概率模型为:P=(Wtarget|Wdobj+Wnsub+...+Wamod)其中P是CBOW模型中的概率模型,Wtarget为中心词,Wdobj,Wnsub,Wamod是与Wtarget构成强依存关系的词;若中心词不为上述三种词性,则使用随机窗口构造中心词的上下文,使用CBOW模型中原始的概率模型:P=(Wtarget|Context(Wtarget))其中Context(Wtarget)是用随机窗口对Wtarget构造的上下文;c)针对步骤b)中得到的概率模型,使用随机梯度下降和反向传播,对训练的参数以及词向量进行更新,设置下一个分词为当前分词并返回到步骤a),直到当前分词序列Ji遍历结束;步骤2.3语料集合C2遍历结束后得到词向量。...

【技术特征摘要】
1.一种基于CBOW模型和依存句法关系的词向量表示方法,该方法包含如下步骤:步骤1.语料预处理针对原始语料进行裁剪分句得到语料集合C1;针对语料集合C1,获得每行语料的分词及词性标注,构成语料集合C2;语料集合C2为:C2={J1,J2,Ji…Jn}Ji为语料集合C2中一行带有分词及词性标注的分词序列,1<=i<=n,n为语料集合C2的行数;针对语料集合C1,获得每行语料的依存句法关系,构成语料集合C3;步骤2.词向量表示学习步骤2.1遍历语料集合根据步骤1的结果,将语料集合C2作为CBOW模型的输入;遍历语料集合C2中的每个分词序列Ji;步骤2.2遍历分词序列Ji中的分词,具体步骤如下:a)将分词序列Ji中的当前分词作为中心词;b)通过判断中心词的词性,构造上下文得到概率模型;判断中心词的词性,若中心词的词性是动词或名词或副词,则通过语料集合C3获得中心词的依存句法关系,将依存句法关系中构成强依存关系的词并入到中心词的上下文中,将具有强依存关系的词构成句法上下文,修改CBOW模型中的概率模型为:P=(Wtarget|Wdobj+Wnsub+...+Wamod)其中P是CBOW模型中的概率模型,Wtarget为中心词,Wdob...

【专利技术属性】
技术研发人员:徐小良金通学王宇翔夏一行
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1