构建自然语言模型的方法、装置及电子设备制造方法及图纸

技术编号：36772606 阅读：32 留言：0更新日期：2023-03-08 21:50

本公开涉及一种构建自然语言模型的方法、装置及电子设备，所述方法包括：获取待分解的汉字表和汉字结构表；其中，所述汉字结构表中的不同汉字结构具有唯一的编码，且同一汉字结构的不同变体具有不同的编码；构建汉字分解器，将待分解的汉字拆分成汉字部件和结构位置；将输入文本数据的各汉字通过所述汉字分解器进行分解，并基于分解后的序列构建初始自然语言模型。本公开中的分类模型能够增强短文本的序列长度，从而缓解现有的语言模型在对汉字继续分解时，字义准确性不高，极大的增加了模型的训练成本和对数据的依赖性的技术问题，提升文本内的字义理解准确性。升文本内的字义理解准确性。升文本内的字义理解准确性。

全部详细技术资料下载

【技术实现步骤摘要】
构建自然语言模型的方法、装置及电子设备

[0001]本公开涉及自然语言处理领域，具体地，涉及构建自然语言模型的方法、装置及电子设备。

技术介绍

[0002]在常见的汉字结构中，一些汉字结构在演变过程中，会出现省略和变形的情况，例如：最常见的结构便是“月”字，该结构在不同的汉字中的意思截然不同，如在汉字“朗”中，“月”表示的就是月亮，而在汉字“肩”中，“月”实际表示的是人的肉体，这是因为在汉字的演变中，“肩”中的月实际上是“肉”的变体(在一些文献中称之为“肉月”)，在逐步的演化和书写规范中逐渐形成了目前“月”的形式，但其与“朗”中的“月”的含义并不相同，且也不能借助“月”字在上下文中意思简单推导出其的含义。而常用的汉字模型会简单将这二者混为一体，无形中增加了模型的训练成本和对数据的依赖性。
[0003]在一些常见的汉字结构的中文语言模型中，可能会借助英文语言模型中的预处理方式，英文语言模型中对英文单词的预处理方式，是将英文单词按照其出现频率(或词根)进行分解，再为不同的英文词根赋予相应位置编码信息以区别其在句中的顺序。对应的，在中文语言模型中，将汉字进行人工分解，再对各汉字结构赋予位置信息。但这种方式会产生一定的偏差，因为中文汉字是二维文字，其蕴含的信息量大于英文单词蕴含的信息量，仅将汉字依照其结构分解，在赋予位置信息后会丧失汉字结构之间的二维位置关系。
[0004]可见，现有的中文语言模型在对汉字继续分解时，字义准确性不高，极大的增加了模型的训练成本和对数据的依赖性。

技术实现思路

[...

【技术保护点】

【技术特征摘要】
1.一种构建自然语言模型的方法，其特征在于，包括：获取待分解的汉字表和汉字结构表；其中，所述汉字结构表中的不同汉字结构具有唯一的编码，且同一汉字结构的不同变体具有不同的编码；构建汉字分解器，将待分解的汉字拆分成汉字部件和结构位置，所述结构位置用于注明所述汉字部件在汉字整体中所占的位置，使得所述汉字部件和所述结构位置构成的序列能够唯一分辨所述汉字表中不同的汉字；将输入文本数据的各汉字通过所述汉字分解器进行分解，并基于分解后的序列构建初始自然语言模型；在自然语言模型的输入层，对分解后的序列赋予位置向量，在所述输入文本的句首处赋予句首编码和句末编码；通过所述自然语言模型的预训练模型对所述输入文本数据进行编码获得词向量，基于所述词向量获得输入序列；在所述自然语言模型的文本分类层，读取所述预训练模型输出的序列的句首向量信息，计算权重后选取权重靠前的类别作为候选类别。2.如权利要求1所述的方法，其特征在于，所述方法还包括：在所述自然语言模型的文本分类层，根据输入文本的结构，读取所述预训练模型输出的序列的句首向量信息，在分类时，根据所述句首向量信息进行文本分类，获得分类结果。3.如权利要求1所述的方法，其特征在于，所述预训练模型为Bert预训练模型，所述方法还包括：对于所述Bert预训练模型，将汉字结构表加入到Bert的词向量表中。4.如权利要求1所述的方法，其特征在于，在对分解后的序列赋予位置向量时，对同...

【专利技术属性】
技术研发人员：秦小林，张思齐，钱杨舸，廖兴滨，单靖杨，陈敏，王乾垒，
申请(专利权)人：中科院成都信息技术股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人