一种汉字字向量生成方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:27686763 阅读:18 留言:0更新日期:2021-03-17 04:02
本发明专利技术公开了一种汉字字向量生成方法、装置、计算机设备及存储介质,该方法包括:获取包含多个汉字的训练样本,将每一汉字按照九宫格的方式进行划分,并计算每一汉字在每一网格中的交并比,得到初始向量;根据每一汉字的造字类型对初始向量赋予权重,得到初始几何特征向量;根据每一汉字的笔划顺序对初始几何特征向量中的同维度数值进行排列,得到目标几何特征向量;根据在训练样本中的出现频率以及词性重要度设置对应的目标ID;从训练样本中选择目标汉字,将目标汉字的目标几何特征向量和相邻的若干汉字的目标ID分别结合作为样本数据;将样本数据输入到神经网络模型中进行训练学习,得到目标汉字的字向量。本发明专利技术可提高汉字字向量的生成精度。

【技术实现步骤摘要】
一种汉字字向量生成方法、装置、计算机设备及存储介质
本专利技术涉及自然语言处理
,特别涉及一种汉字字向量生成方法、装置、计算机设备及存储介质。
技术介绍
将汉字或词转化为向量表达形式,再将向量输入到各类神经网络中,完成各种具体任务(例如文本分类、文本摘要、文本生成、智能问答等)已成为当前自然语言处理领域主流的技术手段。但早期将词映射成为词向量的实践基于字母文字,一个词中,字母符号之间本身关联性很小,只能在词之间体现语义关联。而汉字与字母文字之间存在很大的差异,尤其体现在单个汉字的偏旁和部首也可以表达语义,而字母文字中的单个字符只能表音。对于一些现有技术,由于未考虑偏旁部首之间隐含的信息,因此最终得到的词向量在中文任务上的效果不如其在字母文字上的表现。目前生成词向量的方式大体上可分为两大类。第一类是利用神经网络生成,例如word2vec(一种用于产生词向量的模型)、glove(一种词向量学习方法)等,直接为每个单词或汉字分配其在整个训练语料大词典中的ID,然后以这些ID为输入,通过负采样方法训练得到神经网络的权重,权重即为词向量。第二类是考虑汉字的部首等信息,为所有可能形成汉字的部首分配ID,将各种能形成汉字的部首ID进行排列组合,产生不同序列,再以这些序列作为神经网络的输入,训练得到词向量。但是以上方法还存在不足,例如只考虑词本身的特征,且设计的特征比较简单,又例如未能从更高层次考虑词之间的语义关联等,从而导致最终生成的字向量精度不足。
技术实现思路
本专利技术实施例提供了一种汉字字向量生成方法、装置、计算机设备及存储介质,旨在提高汉字字向量的生成精度。第一方面,本专利技术实施例提供了一种汉字字向量生成方法,包括:获取包含多个汉字的训练样本,根据等距分割原则将每一所述汉字按照九宫格的方式进行划分,并计算每一所述汉字在对应所述九宫格的每一网格中的交并比,得到每一所述汉字的初始向量;根据每一所述汉字的造字类型对对应所述汉字的初始向量赋予权重,得到初始几何特征向量;根据每一所述汉字的笔划顺序对对应所述汉字的初始几何特征向量中的同维度数值进行排列,得到每一所述汉字对应的目标几何特征向量;根据每一所述汉字在训练样本中的出现频率以及词性重要度设置对应的目标ID;从所述训练样本中选择一个汉字作为目标汉字,将所述目标汉字的目标几何特征向量和所述目标汉字相邻的若干汉字的目标ID分别结合作为所述目标汉字的样本数据;将所述目标汉字的样本数据输入到神经网络模型中进行训练学习,得到所述目标汉字的字向量。第二方面,本专利技术实施例提供了一种汉字字向量生成装置,包括:划分单元,用于获取包含多个汉字的训练样本,根据等距分割原则将每一所述汉字按照九宫格的方式进行划分,并计算每一所述汉字在对应所述九宫格的每一网格中的交并比,得到每一所述汉字的初始向量;权重赋予单元,用于根据每一所述汉字的造字类型对对应所述汉字的初始向量赋予权重,得到初始几何特征向量;向量排列单元,用于根据每一所述汉字的笔划顺序对对应所述汉字的初始几何特征向量中的同维度数值进行排列,得到每一所述汉字对应的目标几何特征向量;设置单元,用于根据每一所述汉字在训练样本中的出现频率以及词性重要度设置对应的目标ID;结合单元,用于从所述训练样本中选择一个汉字作为目标汉字,将所述目标汉字的目标几何特征向量和所述目标汉字相邻的若干汉字的目标ID分别结合作为所述目标汉字的样本数据;训练学习单元,用于将所述目标汉字的样本数据输入到神经网络模型中进行训练学习,得到所述目标汉字的字向量。第三方面,本专利技术实施例提供了一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面所述的汉字字向量生成方法。第四方面,本专利技术实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的汉字字向量生成方法。本专利技术实施例提供了一种汉字字向量生成方法、装置、计算机设备及存储介质,所述方法包括:获取包含多个汉字的训练样本,根据等距分割原则将每一所述汉字按照九宫格的方式进行划分,并计算每一所述汉字在对应所述九宫格的每一网格中的交并比,得到每一所述汉字的初始向量;根据每一所述汉字的造字类型对对应所述汉字的初始向量赋予权重,得到初始几何特征向量;根据每一所述汉字的笔划顺序对对应所述汉字的初始几何特征向量中的同维度数值进行排列,得到每一所述汉字对应的目标几何特征向量;根据每一所述汉字在训练样本中的出现频率以及词性重要度设置对应的目标ID;从所述训练样本中选择一个汉字作为目标汉字,将所述目标汉字的目标几何特征向量和所述目标汉字相邻的若干汉字的目标ID分别结合作为所述目标汉字的样本数据;将所述目标汉字的样本数据输入到神经网络模型中进行训练学习,得到所述目标汉字的字向量。本专利技术实施例通过更细致粒度地考虑汉字形状蕴含的信息,提取更多隐含信息,使得生成的汉字字向量更加精准,从而在语言处理下游任务中能够具有更好的表现。附图说明为了更清楚地说明本专利技术实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例提供的一种汉字字向量生成方法的流程示意图;图2为本专利技术实施例提供的一种汉字字向量生成方法中步骤S101的子流程示意图;图3为本专利技术实施例提供的一种汉字字向量生成方法中步骤S104的子流程示意图;图4为本专利技术实施例提供的一种汉字字向量生成方法中步骤S106的子流程示意图;图5为本专利技术实施例提供的一种汉字字向量生成装置的示意性框图;图6为本专利技术实施例提供的一种汉字字向量生成装置中划分单元501的子示意性框图;图7为本专利技术实施例提供的一种汉字字向量生成装置中设置单元504的子示意性框图;图8为本专利技术实施例提供的一种汉字字向量生成装置中训练学习单元506的子示意性框图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。还应当理解,在此本专利技术说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本专利技术。如在本专利技术说明书和所附权利要求书中所使用的那样,除非上下文清楚地指本文档来自技高网...

【技术保护点】
1.一种汉字字向量生成方法,其特征在于,包括:/n获取包含多个汉字的训练样本,根据等距分割原则将每一所述汉字按照九宫格的方式进行划分,并计算每一所述汉字在对应所述九宫格的每一网格中的交并比,得到每一所述汉字的初始向量;/n根据每一所述汉字的造字类型对对应所述汉字的初始向量赋予权重,得到初始几何特征向量;/n根据每一所述汉字的笔划顺序对对应所述汉字的初始几何特征向量中的同维度数值进行排列,得到每一所述汉字对应的目标几何特征向量;/n根据每一所述汉字在训练样本中的出现频率以及词性重要度设置对应的目标ID;/n从所述训练样本中选择一个汉字作为目标汉字,将所述目标汉字的目标几何特征向量和所述目标汉字相邻的若干汉字的目标ID分别结合作为所述目标汉字的样本数据;/n将所述目标汉字的样本数据输入到神经网络模型中进行训练学习,得到所述目标汉字的字向量。/n

【技术特征摘要】
1.一种汉字字向量生成方法,其特征在于,包括:
获取包含多个汉字的训练样本,根据等距分割原则将每一所述汉字按照九宫格的方式进行划分,并计算每一所述汉字在对应所述九宫格的每一网格中的交并比,得到每一所述汉字的初始向量;
根据每一所述汉字的造字类型对对应所述汉字的初始向量赋予权重,得到初始几何特征向量;
根据每一所述汉字的笔划顺序对对应所述汉字的初始几何特征向量中的同维度数值进行排列,得到每一所述汉字对应的目标几何特征向量;
根据每一所述汉字在训练样本中的出现频率以及词性重要度设置对应的目标ID;
从所述训练样本中选择一个汉字作为目标汉字,将所述目标汉字的目标几何特征向量和所述目标汉字相邻的若干汉字的目标ID分别结合作为所述目标汉字的样本数据;
将所述目标汉字的样本数据输入到神经网络模型中进行训练学习,得到所述目标汉字的字向量。


2.根据权利要求1所述的汉字字向量生成方法,其特征在于,所述获取包含多个汉字的训练样本,根据等距分割原则将每一所述汉字按照九宫格的方式进行划分,并计算每一所述汉字在对应所述九宫格的每一网格中的交并比,得到每一所述汉字的初始向量,包括:
根据等距分割原则将每一所述汉字按照九宫格的方式进行划分;
针对每一所述汉字,计算对应所述九宫格的每一网格中所述汉字所占像素与对应所述九宫格中所述汉字的总像素的比例,将计算得到的比例作为每一所述汉字在对应所述九宫格的每一网格中的交并比,并将所述交并比与预设阈值进行比较;
若所述交并比大于或者等于所述预设阈值,则保留对应网格中的交并比;
若所述交并比小于所述预设阈值,则将对应网格中的交并比重置为0;
将所述九宫格中的每一网格中的交并比依次进行拼接,得到每一所述汉字的初始向量。


3.根据权利要求1所述的汉字字向量生成方法,其特征在于,所述根据每一所述汉字的造字类型对对应所述汉字的初始向量赋予权重,得到初始几何特征向量,包括:
对所述训练样本中每一所述汉字所属的造字类型进行统计,并根据每种造字类型的出现频率对相应造字类型的汉字的初始向量赋予权重,从而得到所述初始几何特征向量。


4.根据权利要求1所述的汉字字向量生成方法,其特征在于,所述根据每一所述汉字的笔划顺序对对应所述汉字的初始几何特征向量中的同维度数值进行排列,得到每一所述汉字对应的目标几何特征向量,包括:
针对每一所述汉字,获取对应所述汉字的笔划顺序,并统计每一笔划跨越的网格;
将每一笔划跨越的网格依次进行排序得到所述汉字的笔划序列,然后将所述笔划序列中各元素对应的初始几何特征向量中的同维度数值,按照所述所述笔划序列中各元素的位次进行排列,得到所述汉字对应的目标几何特征向量。


5.根据权利要求1所述的汉字字向量生成方法,其特征在于,所述根据每一所述汉字在训练样本中的出现频率以及词性重要度设置对应的目标ID,包括:
对每一所述汉字在所述训练样本中的出现频率进行统计,并进行排列,然后根据排列后...

【专利技术属性】
技术研发人员:王伟
申请(专利权)人:润联软件系统深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1