构建自然语言模型的方法、装置及电子设备制造方法及图纸

技术编号:36772606 阅读:32 留言:0更新日期:2023-03-08 21:50
本公开涉及一种构建自然语言模型的方法、装置及电子设备,所述方法包括:获取待分解的汉字表和汉字结构表;其中,所述汉字结构表中的不同汉字结构具有唯一的编码,且同一汉字结构的不同变体具有不同的编码;构建汉字分解器,将待分解的汉字拆分成汉字部件和结构位置;将输入文本数据的各汉字通过所述汉字分解器进行分解,并基于分解后的序列构建初始自然语言模型。本公开中的分类模型能够增强短文本的序列长度,从而缓解现有的语言模型在对汉字继续分解时,字义准确性不高,极大的增加了模型的训练成本和对数据的依赖性的技术问题,提升文本内的字义理解准确性。升文本内的字义理解准确性。升文本内的字义理解准确性。

【技术实现步骤摘要】
构建自然语言模型的方法、装置及电子设备


[0001]本公开涉及自然语言处理领域,具体地,涉及构建自然语言模型的方法、装置及电子设备。

技术介绍

[0002]在常见的汉字结构中,一些汉字结构在演变过程中,会出现省略和变形的情况,例如:最常见的结构便是“月”字,该结构在不同的汉字中的意思截然不同,如在汉字“朗”中,“月”表示的就是月亮,而在汉字“肩”中,“月”实际表示的是人的肉体,这是因为在汉字的演变中,“肩”中的月实际上是“肉”的变体(在一些文献中称之为“肉月”),在逐步的演化和书写规范中逐渐形成了目前“月”的形式,但其与“朗”中的“月”的含义并不相同,且也不能借助“月”字在上下文中意思简单推导出其的含义。而常用的汉字模型会简单将这二者混为一体,无形中增加了模型的训练成本和对数据的依赖性。
[0003]在一些常见的汉字结构的中文语言模型中,可能会借助英文语言模型中的预处理方式,英文语言模型中对英文单词的预处理方式,是将英文单词按照其出现频率(或词根)进行分解,再为不同的英文词根赋予相应位置编码信息以区别其在句中的顺序。对应的,在中文语言模型中,将汉字进行人工分解,再对各汉字结构赋予位置信息。但这种方式会产生一定的偏差,因为中文汉字是二维文字,其蕴含的信息量大于英文单词蕴含的信息量,仅将汉字依照其结构分解,在赋予位置信息后会丧失汉字结构之间的二维位置关系。
[0004]可见,现有的中文语言模型在对汉字继续分解时,字义准确性不高,极大的增加了模型的训练成本和对数据的依赖性。

技术实现思路

[0005]本公开的目的是提供一种构建自然语言模型的方法、装置及电子设备,用于解决现有技术中存在的,现有的中文语言模型在对汉字继续分解时,字义准确性不高,极大的增加了模型的训练成本和对数据的依赖性。
[0006]为了实现上述目的,本公开第一方面提供一种构建自然语言模型的方法,包括:
[0007]获取待分解的汉字表和汉字结构表;其中,所述汉字结构表中的不同汉字结构具有唯一的编码,且同一汉字结构的不同变体具有不同的编码;
[0008]构建汉字分解器,将待分解的汉字拆分成汉字部件和结构位置,所述结构位置用于注明所述汉字部件在汉字整体中所占的位置,使得所述汉字部件和所述结构位置构成的序列能够唯一分辨所述汉字表中不同的汉字;
[0009]将输入文本数据的各汉字通过所述汉字分解器进行分解,并基于分解后的序列构建初始自然语言模型;
[0010]在自然语言模型的输入层,对分解后的序列赋予位置向量,在所述输入文本的句首处赋予句首编码和句末编码;
[0011]通过所述自然语言模型的预训练模型对所述输入文本数据进行编码获得词向量,
基于所述词向量获得输入序列;
[0012]在所述自然语言模型的文本分类层,读取所述预训练模型输出的序列的句首向量信息,计算权重后选取权重靠前的类别作为候选类别。
[0013]可选的,所述方法还包括:
[0014]在所述自然语言模型的文本分类层,根据输入文本的结构,读取所述预训练模型输出的序列的句首向量信息,在分类时,根据所述句首向量信息进行文本分类,获得分类结果。
[0015]可选的,所述预训练模型为Bert预训练模型,所述方法还包括:对于所述Bert预训练模型,将汉字结构表加入到Bert的词向量表中。
[0016]可选的,在对分解后的序列赋予位置向量时,对同一汉字分解后的汉字结构赋予相同的位置向量。
[0017]本公开第二方面提供一种构建自然语言模型的装置,包括:
[0018]汉字表获取模块,用于获取待分解的汉字表和汉字结构表;其中,所述汉字结构表中的不同汉字结构具有唯一的编码,且同一汉字结构的不同变体具有不同的编码;
[0019]汉字分解器构建模块,用于将待分解的汉字拆分成汉字部件和结构位置,所述结构位置用于注明所述汉字部件在汉字整体中所占的位置,使得所述汉字部件和所述结构位置构成的序列能够唯一分辨所述汉字表中不同的汉字;
[0020]模型构建模块,用于将输入文本数据的各汉字通过所述汉字分解器进行分解,并基于分解后的序列构建初始自然语言模型;在自然语言模型的输入层,对分解后的序列赋予位置向量,在所述输入文本的句首处赋予句首编码和句末编码;通过所述自然语言模型的预训练模型对所述输入文本数据进行编码获得词向量,基于所述词向量获得输入序列;在所述自然语言模型的文本分类层,读取所述预训练模型输出的序列的句首向量信息,计算权重后选取权重靠前的类别作为候选类别。
[0021]本公开第三方面提供一种非临时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现第一方面所述方法的步骤。
[0022]本公开第四方面提供一种电子设备,包括:
[0023]存储器,其上存储有计算机程序;
[0024]处理器,用于执行所述存储器中的所述计算机程序,以实现第一方面所述方法的步骤。
[0025]本公开实施例的方案中,所述汉字表中的不同汉字结构具有唯一的编码,且同一汉字结构的不同变体具有不同的编码;汉字分解器在分解汉字时,将待分解的汉字拆分成汉字部件和结构位置,所述结构位置用于注明各汉字部件在汉字整体中所占的位置,使得所述汉字部件和所述结构位置构成的序列能够唯一分辨所述汉字表中不同的汉字;然后,将输入文本数据的各汉字通过所述汉字分解器进行分解,并基于分解后的序列构建初始自然语言模型。本公开实施例中的分类模型能够增强短文本的序列长度,从而缓解现有的语言模型在对汉字继续分解时,字义准确性不高,极大的增加了模型的训练成本和对数据的依赖性的技术问题,提升文本内的字义理解准确性。
[0026]本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
[0027]附图是用来提供对本公开的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本公开,但并不构成对本公开的限制。在附图中:
[0028]图1是根据一示例性实施例示出的构建自然语言模型的方法流程图;
[0029]图2是根据一示例性实施例示出的自然语言模型的示意图;
[0030]图3是根据一示例性实施例示出的构建自然语言模型的装置的框图;
[0031]图4是根据一示例性实施例示出的一种电子设备的框图。
具体实施方式
[0032]以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本公开,并不用于限制本公开。
[0033]本公开实施例提供了一种构建自然语言模型的方法,如图1所示,该方法包括以下步骤。
[0034]步骤101,获取待分解的汉字表和汉字结构表;其中,所述汉字结构表中的不同汉字结构具有唯一的编码,且同一汉字结构的不同变体具有不同的编码。
[0035]准备待分解的汉字表时,一般选取3500常用字或7000常用字作为汉字表;准备参考的汉字结构表,如2009年教育部本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种构建自然语言模型的方法,其特征在于,包括:获取待分解的汉字表和汉字结构表;其中,所述汉字结构表中的不同汉字结构具有唯一的编码,且同一汉字结构的不同变体具有不同的编码;构建汉字分解器,将待分解的汉字拆分成汉字部件和结构位置,所述结构位置用于注明所述汉字部件在汉字整体中所占的位置,使得所述汉字部件和所述结构位置构成的序列能够唯一分辨所述汉字表中不同的汉字;将输入文本数据的各汉字通过所述汉字分解器进行分解,并基于分解后的序列构建初始自然语言模型;在自然语言模型的输入层,对分解后的序列赋予位置向量,在所述输入文本的句首处赋予句首编码和句末编码;通过所述自然语言模型的预训练模型对所述输入文本数据进行编码获得词向量,基于所述词向量获得输入序列;在所述自然语言模型的文本分类层,读取所述预训练模型输出的序列的句首向量信息,计算权重后选取权重靠前的类别作为候选类别。2.如权利要求1所述的方法,其特征在于,所述方法还包括:在所述自然语言模型的文本分类层,根据输入文本的结构,读取所述预训练模型输出的序列的句首向量信息,在分类时,根据所述句首向量信息进行文本分类,获得分类结果。3.如权利要求1所述的方法,其特征在于,所述预训练模型为Bert预训练模型,所述方法还包括:对于所述Bert预训练模型,将汉字结构表加入到Bert的词向量表中。4.如权利要求1所述的方法,其特征在于,在对分解后的序列赋予位置向量时,对同...

【专利技术属性】
技术研发人员:秦小林张思齐钱杨舸廖兴滨单靖杨陈敏王乾垒
申请(专利权)人:中科院成都信息技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1