一种词嵌入表示方法、装置及设备制造方法及图纸

技术编号：24354651 阅读：50 留言：0更新日期：2020-06-03 02:18

本申请公开一种词嵌入表示方法、装置及设备，所述方法包括：对待处理文本进行分词处理，得到分词结果；其中，所述分词结果中包括待表示词语；将所述待表示词语输入至word2vec模型中，经过所述word2vec模型的处理后，得到所述待表示词语的第一词向量；其中，所述word2vec模型为利用与所述待处理文本属于同领域的数据样本训练得到；以及，将所述待表示词语输入至Bert模型中，经过所述Bert模型的处理后，得到所述待表示词语的第二词向量；其中，所述Bert模型为利用不限领域的数据样本训练得到；结合所述第一词向量和所述第二词向量，确定所述待表示词语的词向量，以实现所述待表示词语的词嵌入表示。本申请结合word2vec模型输出的第一向量和Bert模型输出的第二向量，为待表示词语确定词向量，能够最大化的提高词嵌入表示效果。

A word embedding method, device and equipment

全部详细技术资料下载

【技术实现步骤摘要】
一种词嵌入表示方法、装置及设备
本申请涉及自然语言处理
，具体涉及一种词嵌入表示方法、装置及设备。
技术介绍
词嵌入表示是指对词语进行向量化处理之后，得到对应的词向量的过程。词嵌入表示是自然语言处理(NLP)的应用领域中至关重要的一个步骤，由于词嵌入表示的结果对自然语言处理中的后续处理过程影响较大，因此，如何实现词嵌入表示是自然语言处理
不断研究的问题。目前，比较常用的词嵌入表示方法是基于Bert模型实现的，但是，由于Bert模型的网络层数相对较深，对训练样本的数据量要求较大，因此，Bert模型在数据量较大的领域能够表现出更好的词嵌入表示效果，不太适用于数据较少的场景中。而对于生物医学领域、航空领域、信息安全领域等，由于隐私性等因素的影响，对于专业数据的获取难度较大，很难获取到足以支持Bert模型的数据量，因此，基于Bert模型实现上述领域的词嵌入表示得到的结果准确性不足。所以，目前亟需一种适用于上述领域的词嵌入表示方法，且能够保证词嵌入表示的准确性。
技术实现思路
有鉴于此，本申请提供了一种词嵌入表示方法、装置及设备，对于样本数据量较少的领域，能够实现较准确的词嵌入表示。第一方面，为实现上述专利技术目的，本申请提供了一种词嵌入表示方法，所述方法包括：对待处理文本进行分词处理，得到分词结果；其中，所述分词结果中包括待表示词语；将所述待表示词语输入至word2vec模型中，经过所述word2vec模型的处理后，得到所述待表示词语的第一词向量...

【技术保护点】
1.一种词嵌入表示方法，其特征在于，所述方法包括：/n对待处理文本进行分词处理，得到分词结果；其中，所述分词结果中包括待表示词语；/n将所述待表示词语输入至word2vec模型中，经过所述word2vec模型的处理后，得到所述待表示词语的第一词向量；其中，所述word2vec模型为利用与所述待处理文本属于同领域的数据样本训练得到；/n以及，将所述待表示词语输入至Bert模型中，经过所述Bert模型的处理后，得到所述待表示词语的第二词向量；其中，所述Bert模型为利用不限领域的数据样本训练得到；/n结合所述第一词向量和所述第二词向量，确定所述待表示词语的词向量，以实现所述待表示词语的词嵌入表示。/n

【技术特征摘要】
1.一种词嵌入表示方法，其特征在于，所述方法包括：
对待处理文本进行分词处理，得到分词结果；其中，所述分词结果中包括待表示词语；
将所述待表示词语输入至word2vec模型中，经过所述word2vec模型的处理后，得到所述待表示词语的第一词向量；其中，所述word2vec模型为利用与所述待处理文本属于同领域的数据样本训练得到；
以及，将所述待表示词语输入至Bert模型中，经过所述Bert模型的处理后，得到所述待表示词语的第二词向量；其中，所述Bert模型为利用不限领域的数据样本训练得到；
结合所述第一词向量和所述第二词向量，确定所述待表示词语的词向量，以实现所述待表示词语的词嵌入表示。

2.根据权利要求1所述的方法，其特征在于，所述结合所述第一词向量和所述第二词向量，确定所述待表示词语的词向量，以实现所述待表示词语的词嵌入表示，包括；
基于在所述同领域的数据样本和所述不限领域的数据样本中，具有预设上下文环境的所述待表示词语的出现情况，分别为所述第一词向量和所述第二词向量设置权重值；其中，所述预设上下文环境为基于所述待表示词语在所述待处理文本中的上下文确定；
根据所述权重值、所述第一词向量和所述第二词向量，确定所述待表示词语的词向量，以实现所述待表示词语的词嵌入表示。

3.根据权利要求2所述的方法，其特征在于，所述基于在所述同领域的数据样本和所述不限领域的数据样本中，具有预设上下文环境的所述待表示词语的出现情况，分别为所述第一词向量和所述第二词向量设置权重值，包括：
识别所述待处理文本中位于所述待表示词语的前后各N个词语，并记录各个词语与位置信息的对应关系，作为预设上下文环境；其中，所述位置信息用于表示与所述待表示词语的位置关系；
分别在所述同领域的数据样本和所述不限领域的数据样本中，基于各个词语与位置信息的对应关系，统计各个词语对应的出现次数；
基于各个词语对应的出现次数与预设关系权值，分别确定所述待表示词语相对于所述同领域的数据样本和所述不限领域的数据样本的上下文环境影响得分；
基于所述上下文环境影响得分，分别为所述第一词向量和所述第二词向量设置权重值。

4.根据权利要求1所述的方法，其特征在于，所述对待处理文本进行分词处理，得到分词结果，包括：
基于预先构建的专业词典，对待处理文本进行分词处理，得到分词结果。

5.一种词嵌入表示装置，其特征在于，所述装置包括：
分词模块，用于对待处理文本进行分词处理，得到分词结果；其中，所述分词结果中包括待表示...

【专利技术属性】
技术研发人员：张少阳，
申请(专利权)人：东软集团股份有限公司，
类型：发明
国别省市：辽宁;21

全部详细技术资料下载我是这个专利的主人