【技术实现步骤摘要】
一种汉字字向量生成方法、装置、计算机设备及存储介质
本专利技术涉及自然语言处理
,特别涉及一种汉字字向量生成方法、装置、计算机设备及存储介质。
技术介绍
将汉字或词转化为向量表达形式,再将向量输入到各类神经网络中,完成各种具体任务(例如文本分类、文本摘要、文本生成、智能问答等)已成为当前自然语言处理领域主流的技术手段。但早期将词映射成为词向量的实践基于字母文字,一个词中,字母符号之间本身关联性很小,只能在词之间体现语义关联。而汉字与字母文字之间存在很大的差异,尤其体现在单个汉字的偏旁和部首也可以表达语义,而字母文字中的单个字符只能表音。对于一些现有技术,由于未考虑偏旁部首之间隐含的信息,因此最终得到的词向量在中文任务上的效果不如其在字母文字上的表现。目前生成词向量的方式大体上可分为两大类。第一类是利用神经网络生成,例如word2vec(一种用于产生词向量的模型)、glove(一种词向量学习方法)等,直接为每个单词或汉字分配其在整个训练语料大词典中的ID,然后以这些ID为输入,通过负采样方法训练得到神经网络的权重,权重即为词向量。第二类是考虑汉字的部首等信息,为所有可能形成汉字的部首分配ID,将各种能形成汉字的部首ID进行排列组合,产生不同序列,再以这些序列作为神经网络的输入,训练得到词向量。但是以上方法还存在不足,例如只考虑词本身的特征,且设计的特征比较简单,又例如未能从更高层次考虑词之间的语义关联等,从而导致最终生成的字向量精度不足。
技术实现思路
本专利技术实施例 ...
【技术保护点】
1.一种汉字字向量生成方法,其特征在于,包括:/n获取包含多个汉字的训练样本,根据等距分割原则将每一所述汉字按照九宫格的方式进行划分,并计算每一所述汉字在对应所述九宫格的每一网格中的交并比,得到每一所述汉字的初始向量;/n根据每一所述汉字的造字类型对对应所述汉字的初始向量赋予权重,得到初始几何特征向量;/n根据每一所述汉字的笔划顺序对对应所述汉字的初始几何特征向量中的同维度数值进行排列,得到每一所述汉字对应的目标几何特征向量;/n根据每一所述汉字在训练样本中的出现频率以及词性重要度设置对应的目标ID;/n从所述训练样本中选择一个汉字作为目标汉字,将所述目标汉字的目标几何特征向量和所述目标汉字相邻的若干汉字的目标ID分别结合作为所述目标汉字的样本数据;/n将所述目标汉字的样本数据输入到神经网络模型中进行训练学习,得到所述目标汉字的字向量。/n
【技术特征摘要】
1.一种汉字字向量生成方法,其特征在于,包括:
获取包含多个汉字的训练样本,根据等距分割原则将每一所述汉字按照九宫格的方式进行划分,并计算每一所述汉字在对应所述九宫格的每一网格中的交并比,得到每一所述汉字的初始向量;
根据每一所述汉字的造字类型对对应所述汉字的初始向量赋予权重,得到初始几何特征向量;
根据每一所述汉字的笔划顺序对对应所述汉字的初始几何特征向量中的同维度数值进行排列,得到每一所述汉字对应的目标几何特征向量;
根据每一所述汉字在训练样本中的出现频率以及词性重要度设置对应的目标ID;
从所述训练样本中选择一个汉字作为目标汉字,将所述目标汉字的目标几何特征向量和所述目标汉字相邻的若干汉字的目标ID分别结合作为所述目标汉字的样本数据;
将所述目标汉字的样本数据输入到神经网络模型中进行训练学习,得到所述目标汉字的字向量。
2.根据权利要求1所述的汉字字向量生成方法,其特征在于,所述获取包含多个汉字的训练样本,根据等距分割原则将每一所述汉字按照九宫格的方式进行划分,并计算每一所述汉字在对应所述九宫格的每一网格中的交并比,得到每一所述汉字的初始向量,包括:
根据等距分割原则将每一所述汉字按照九宫格的方式进行划分;
针对每一所述汉字,计算对应所述九宫格的每一网格中所述汉字所占像素与对应所述九宫格中所述汉字的总像素的比例,将计算得到的比例作为每一所述汉字在对应所述九宫格的每一网格中的交并比,并将所述交并比与预设阈值进行比较;
若所述交并比大于或者等于所述预设阈值,则保留对应网格中的交并比;
若所述交并比小于所述预设阈值,则将对应网格中的交并比重置为0;
将所述九宫格中的每一网格中的交并比依次进行拼接,得到每一所述汉字的初始向量。
3.根据权利要求1所述的汉字字向量生成方法,其特征在于,所述根据每一所述汉字的造字类型对对应所述汉字的初始向量赋予权重,得到初始几何特征向量,包括:
对所述训练样本中每一所述汉字所属的造字类型进行统计,并根据每种造字类型的出现频率对相应造字类型的汉字的初始向量赋予权重,从而得到所述初始几何特征向量。
4.根据权利要求1所述的汉字字向量生成方法,其特征在于,所述根据每一所述汉字的笔划顺序对对应所述汉字的初始几何特征向量中的同维度数值进行排列,得到每一所述汉字对应的目标几何特征向量,包括:
针对每一所述汉字,获取对应所述汉字的笔划顺序,并统计每一笔划跨越的网格;
将每一笔划跨越的网格依次进行排序得到所述汉字的笔划序列,然后将所述笔划序列中各元素对应的初始几何特征向量中的同维度数值,按照所述所述笔划序列中各元素的位次进行排列,得到所述汉字对应的目标几何特征向量。
5.根据权利要求1所述的汉字字向量生成方法,其特征在于,所述根据每一所述汉字在训练样本中的出现频率以及词性重要度设置对应的目标ID,包括:
对每一所述汉字在所述训练样本中的出现频率进行统计,并进行排列,然后根据排列后...
【专利技术属性】
技术研发人员:王伟,
申请(专利权)人:润联软件系统深圳有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。