一种词嵌入表示方法、装置及设备制造方法及图纸

技术编号:24354651 阅读:50 留言:0更新日期:2020-06-03 02:18
本申请公开一种词嵌入表示方法、装置及设备,所述方法包括:对待处理文本进行分词处理,得到分词结果;其中,所述分词结果中包括待表示词语;将所述待表示词语输入至word2vec模型中,经过所述word2vec模型的处理后,得到所述待表示词语的第一词向量;其中,所述word2vec模型为利用与所述待处理文本属于同领域的数据样本训练得到;以及,将所述待表示词语输入至Bert模型中,经过所述Bert模型的处理后,得到所述待表示词语的第二词向量;其中,所述Bert模型为利用不限领域的数据样本训练得到;结合所述第一词向量和所述第二词向量,确定所述待表示词语的词向量,以实现所述待表示词语的词嵌入表示。本申请结合word2vec模型输出的第一向量和Bert模型输出的第二向量,为待表示词语确定词向量,能够最大化的提高词嵌入表示效果。

A word embedding method, device and equipment

【技术实现步骤摘要】
一种词嵌入表示方法、装置及设备
本申请涉及自然语言处理
,具体涉及一种词嵌入表示方法、装置及设备。
技术介绍
词嵌入表示是指对词语进行向量化处理之后,得到对应的词向量的过程。词嵌入表示是自然语言处理(NLP)的应用领域中至关重要的一个步骤,由于词嵌入表示的结果对自然语言处理中的后续处理过程影响较大,因此,如何实现词嵌入表示是自然语言处理
不断研究的问题。目前,比较常用的词嵌入表示方法是基于Bert模型实现的,但是,由于Bert模型的网络层数相对较深,对训练样本的数据量要求较大,因此,Bert模型在数据量较大的领域能够表现出更好的词嵌入表示效果,不太适用于数据较少的场景中。而对于生物医学领域、航空领域、信息安全领域等,由于隐私性等因素的影响,对于专业数据的获取难度较大,很难获取到足以支持Bert模型的数据量,因此,基于Bert模型实现上述领域的词嵌入表示得到的结果准确性不足。所以,目前亟需一种适用于上述领域的词嵌入表示方法,且能够保证词嵌入表示的准确性。
技术实现思路
有鉴于此,本申请提供了一种词嵌入表示方法、装置及设备,对于样本数据量较少的领域,能够实现较准确的词嵌入表示。第一方面,为实现上述专利技术目的,本申请提供了一种词嵌入表示方法,所述方法包括:对待处理文本进行分词处理,得到分词结果;其中,所述分词结果中包括待表示词语;将所述待表示词语输入至word2vec模型中,经过所述word2vec模型的处理后,得到所述待表示词语的第一词向量;其中,所述word2vec模型为利用与所述待处理文本属于同领域的数据样本训练得到;以及,将所述待表示词语输入至Bert模型中,经过所述Bert模型的处理后,得到所述待表示词语的第二词向量;其中,所述Bert模型为利用不限领域的数据样本训练得到;结合所述第一词向量和所述第二词向量,确定所述待表示词语的词向量,以实现所述待表示词语的词嵌入表示。一种可选的实施方式中,所述结合所述第一词向量和所述第二词向量,确定所述待表示词语的词向量,以实现所述待表示词语的词嵌入表示,包括;基于在所述同领域的数据样本和所述不限领域的数据样本中,具有预设上下文环境的所述待表示词语的出现情况,分别为所述第一词向量和所述第二词向量设置权重值;其中,所述预设上下文环境为基于所述待表示词语在所述待处理文本中的上下文确定;根据所述权重值、所述第一词向量和所述第二词向量,确定所述待表示词语的词向量,以实现所述待表示词语的词嵌入表示。一种可选的实施方式中,所述基于在所述同领域的数据样本和所述不限领域的数据样本中,具有预设上下文环境的所述待表示词语的出现情况,分别为所述第一词向量和所述第二词向量设置权重值,包括:识别所述待处理文本中位于所述待表示词语的前后各N个词语,并记录各个词语与位置信息的对应关系,作为预设上下文环境;其中,所述位置信息用于表示与所述待表示词语的位置关系;分别在所述同领域的数据样本和所述不限领域的数据样本中,基于各个词语与位置信息的对应关系,统计各个词语对应的出现次数;基于各个词语对应的出现次数与预设关系权值,分别确定所述待表示词语相对于所述同领域的数据样本和所述不限领域的数据样本的上下文环境影响得分;基于所述上下文环境影响得分,分别为所述第一词向量和所述第二词向量设置权重值。一种可选的实施方式中,所述对待处理文本进行分词处理,得到分词结果,包括:基于预先构建的专业词典,对待处理文本进行分词处理,得到分词结果。第二方面,本申请还提供了一种词嵌入表示装置,所述装置包括:分词模块,用于对待处理文本进行分词处理,得到分词结果;其中,所述分词结果中包括待表示词语;第一处理模块,用于将所述待表示词语输入至word2vec模型中,经过所述word2vec模型的处理后,得到所述待表示词语的第一词向量;其中,所述word2vec模型为利用与所述待处理文本属于同领域的数据样本训练得到;第二处理模块,用于将所述待表示词语输入至Bert模型中,经过所述Bert模型的处理后,得到所述待表示词语的第二词向量;其中,所述Bert模型为利用不限领域的数据样本训练得到;确定模块,用于结合所述第一词向量和所述第二词向量,确定所述待表示词语的词向量,以实现所述待表示词语的词嵌入表示。一种可选的实施方式中,所述确定模块,包括;第一设置子模块,用于基于在所述同领域的数据样本和所述不限领域的数据样本中,具有预设上下文环境的所述待表示词语的出现情况,分别为所述第一词向量和所述第二词向量设置权重值;其中,所述预设上下文环境为基于所述待表示词语在所述待处理文本中的上下文确定;第一确定子模块,用于根据所述权重值、所述第一词向量和所述第二词向量,确定所述待表示词语的词向量,以实现所述待表示词语的词嵌入表示。一种可选的实施方式中,所述第一设置子模块,包括:记录子模块,用于识别所述待处理文本中位于所述待表示词语的前后各N个词语,并记录各个词语与位置信息的对应关系,作为预设上下文环境;其中,所述位置信息用于表示与所述待表示词语的位置关系;统计子模块,用于分别在所述同领域的数据样本和所述不限领域的数据样本中,基于各个词语与位置信息的对应关系,统计各个词语对应的出现次数;第二确定子模块,用于基于各个词语对应的出现次数与预设关系权值,分别确定所述待表示词语相对于所述同领域的数据样本和所述不限领域的数据样本的上下文环境影响得分;第二设置子模块,用于基于所述上下文环境影响得分,分别为所述第一词向量和所述第二词向量设置权重值。一种可选的实施方式中,所述分词模块,具体用于:基于预先构建的专业词典,对待处理文本进行分词处理,得到分词结果。第三方面,本申请提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备实现上述任一项所述的方法。第四方面,本申请提供了一种设备,包括:存储器,处理器,及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现上述任一项所述的方法。本申请实施例提供的提供的一种词嵌入表示方法,能够应用于样本数据量较小领域。具体的,本申请利用word2vec模型和Bert模型相结合的方式,对样本数据量较小领域的词语进行词嵌入表示,具体的,利用本领域的样本数据量较小的数据样本对word2vec模型进行训练,使得word2vec模型输出的词向量能够体现本领域的特征,同时,利用不限领域的大数据量的数据样本对Bert模型进行训练,保证了Bert模型的训练精度,也使得Bert模型输出的词向量能够体现词语的上下文环境影响。总之,本申请结合word2vec模型输出的第一向量和Bert模型输出的第二向量,为待表示词语确定词向量,能够最大化的提高词嵌入表示效果。附图说明为了更清楚地说明本申本文档来自技高网...

【技术保护点】
1.一种词嵌入表示方法,其特征在于,所述方法包括:/n对待处理文本进行分词处理,得到分词结果;其中,所述分词结果中包括待表示词语;/n将所述待表示词语输入至word2vec模型中,经过所述word2vec模型的处理后,得到所述待表示词语的第一词向量;其中,所述word2vec模型为利用与所述待处理文本属于同领域的数据样本训练得到;/n以及,将所述待表示词语输入至Bert模型中,经过所述Bert模型的处理后,得到所述待表示词语的第二词向量;其中,所述Bert模型为利用不限领域的数据样本训练得到;/n结合所述第一词向量和所述第二词向量,确定所述待表示词语的词向量,以实现所述待表示词语的词嵌入表示。/n

【技术特征摘要】
1.一种词嵌入表示方法,其特征在于,所述方法包括:
对待处理文本进行分词处理,得到分词结果;其中,所述分词结果中包括待表示词语;
将所述待表示词语输入至word2vec模型中,经过所述word2vec模型的处理后,得到所述待表示词语的第一词向量;其中,所述word2vec模型为利用与所述待处理文本属于同领域的数据样本训练得到;
以及,将所述待表示词语输入至Bert模型中,经过所述Bert模型的处理后,得到所述待表示词语的第二词向量;其中,所述Bert模型为利用不限领域的数据样本训练得到;
结合所述第一词向量和所述第二词向量,确定所述待表示词语的词向量,以实现所述待表示词语的词嵌入表示。


2.根据权利要求1所述的方法,其特征在于,所述结合所述第一词向量和所述第二词向量,确定所述待表示词语的词向量,以实现所述待表示词语的词嵌入表示,包括;
基于在所述同领域的数据样本和所述不限领域的数据样本中,具有预设上下文环境的所述待表示词语的出现情况,分别为所述第一词向量和所述第二词向量设置权重值;其中,所述预设上下文环境为基于所述待表示词语在所述待处理文本中的上下文确定;
根据所述权重值、所述第一词向量和所述第二词向量,确定所述待表示词语的词向量,以实现所述待表示词语的词嵌入表示。


3.根据权利要求2所述的方法,其特征在于,所述基于在所述同领域的数据样本和所述不限领域的数据样本中,具有预设上下文环境的所述待表示词语的出现情况,分别为所述第一词向量和所述第二词向量设置权重值,包括:
识别所述待处理文本中位于所述待表示词语的前后各N个词语,并记录各个词语与位置信息的对应关系,作为预设上下文环境;其中,所述位置信息用于表示与所述待表示词语的位置关系;
分别在所述同领域的数据样本和所述不限领域的数据样本中,基于各个词语与位置信息的对应关系,统计各个词语对应的出现次数;
基于各个词语对应的出现次数与预设关系权值,分别确定所述待表示词语相对于所述同领域的数据样本和所述不限领域的数据样本的上下文环境影响得分;
基于所述上下文环境影响得分,分别为所述第一词向量和所述第二词向量设置权重值。


4.根据权利要求1所述的方法,其特征在于,所述对待处理文本进行分词处理,得到分词结果,包括:
基于预先构建的专业词典,对待处理文本进行分词处理,得到分词结果。


5.一种词嵌入表示装置,其特征在于,所述装置包括:
分词模块,用于对待处理文本进行分词处理,得到分词结果;其中,所述分词结果中包括待表示...

【专利技术属性】
技术研发人员:张少阳
申请(专利权)人:东软集团股份有限公司
类型:发明
国别省市:辽宁;21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1