【技术实现步骤摘要】
本专利技术涉及汉字编码领域,具体而言,涉及一种汉字处理方法和装置。
技术介绍
汉字的语义识别和分类具有广泛的应用,而汉字的语义识别和分类都是基于汉字编码进行的。汉字编码是一种便于将汉字输入到计算机的代码,由于汉字数量庞大,字型复杂,因此汉字编码具有很多困难,现有的技术方案中,通常把汉字转换成拼音,然后按照序列化的编码方式构造句子的特征,但是,基于拼音的汉字编码方案的缺点主要有两个方面,第一是神经网络卷积层扫描汉字不精确,这是因为汉字拼音长度不一致,卷积运算时卷积宽度固定无法确保抓取汉字数量一致,因此扫描汉字不精确;第二是存储空间偏大,这是因为使用26个拼音字母和多个特殊符号导致组合数量较大,因此存储空间占用偏大。在一些面向垂直领域的汉语自然语言理解任务中,由于缺乏专门的分词工具,基于拼音的汉字编码方法用于文本分析时在性能上具有很多瓶颈。针对上述的问题,目前尚未提出有效的解决方案。
技术实现思路
本专利技术实施例提供了一种汉字处理方法和装置,以至少解决相关技术中基于拼音的汉字编码方法用于文本分析时结果不准确的技术问题。根据本专利技术实施例的一个方面,提供了一种汉字处理方法,包括:获取多个目标汉字的五笔字型编码,其中,每个所述五笔字型编码包括一个或多个字母;将多个所述五笔字型编码转换成独热码,其中,每个所述目标汉字的所述独热码具有相同的张量维度;将所述多个目标汉字的所述独热码输入卷积神经网络进行卷积运算,得到输出向量,其中,所述输出向量用于表示所述多个目标汉字的语义数值。根据本专利技术实施例的另一方面,还提供了一种汉字处理装置,包括:获取单元,用于获取多个目标汉 ...
【技术保护点】
一种汉字处理方法,其特征在于,包括:获取多个目标汉字的五笔字型编码,其中,每个所述五笔字型编码包括一个或多个字母;将多个所述五笔字型编码转换成独热码,其中,每个所述目标汉字的所述独热码具有相同的张量维度;将所述多个目标汉字的所述独热码输入卷积神经网络进行卷积运算,得到输出向量,其中,所述输出向量用于表示所述多个目标汉字的语义数值。
【技术特征摘要】
1.一种汉字处理方法,其特征在于,包括:获取多个目标汉字的五笔字型编码,其中,每个所述五笔字型编码包括一个或多个字母;将多个所述五笔字型编码转换成独热码,其中,每个所述目标汉字的所述独热码具有相同的张量维度;将所述多个目标汉字的所述独热码输入卷积神经网络进行卷积运算,得到输出向量,其中,所述输出向量用于表示所述多个目标汉字的语义数值。2.根据权利要求1所述的方法,其特征在于,将多个所述五笔字型编码转换成所述独热码包括:将第一值设置在第一矩阵中的第一位置上,将第二值设置在所述第一矩阵中除所述第一位置之外的其他位置上,得到所述独热码,其中,所述第一位置与所述字母在五笔字型编码表中的第二位置相对应,设置了所述第一值和所述第二值的所述第一矩阵用于表示所述独热码,所述五笔字型编码表用于生成所述目标汉字的五笔字型编码。3.根据权利要求1所述的方法,其特征在于,将所述多个目标汉字的所述独热码输入卷积神经网络进行卷积运算,得到输出向量包括:对所述多个目标汉字的所述独热码进行卷积运算,得到目标卷积结果,其中,所述目标卷积结果由第二矩阵表示;对所述目标卷积结果进行采样,得到第三矩阵,其中,所述第三矩阵的列数少于所述第二矩阵的列数,所述第三矩阵的行数等于所述第二矩阵的行数;对所述第三矩阵进行降维,得到一维的所述输出向量。4.根据权利要求3所述的方法,其特征在于,所述多个目标汉字为P个目标汉字,每个所述目标汉字的五笔字型编码包括Q个字母,每个所述独热码被M*N的矩阵表示,其中,对所述多个目标汉字的所述独热码进行卷积运算,得到目标卷积结果包括:对于所述P个目标汉字依次进行以下卷积操作,其中,3≤i≤P,1≤r≤Q,j=i-2,第0个卷积结果为第1个矩阵:对第i个矩阵和第j个卷积结果进行卷积操作,得到第j+1个卷积结果,其中,所述第i个矩阵为所述P个目标汉字中第i个目标汉字对应的矩阵,所述第i个矩阵为Q*R1的矩阵,R1=M*N,所述第i个矩阵中的第r行为与第i个目标汉字的所述Q个字母中的第r个字母对应的独热码中的M*N个数值按行拼接而成,所述第j个卷积结果为第i-1个矩阵与第j-1个卷积结果进行卷积操作得到的;将第P-1个卷积结果记录为所述目标卷积结果。5.根据权利要求3所述的方法,其特征在于,所述多个目标汉字为P个目标汉字,每个所述目标汉字的五笔字型编码包括Q个字母,每个所述独热码被M*N的矩阵表示,其中,对所述多个目标汉字的所述独热码进行卷积运算,得到目标卷积结果包括:对于所述P个目标汉字依次进行以下卷积操作,其中,3≤i≤P,1≤r≤Q,j=i-2,第0个卷积结果为第1个矩阵:对第i个矩阵和第j个卷积结果进行卷积操作,得到第j+1个卷积结果,其中,所述第i个矩阵为所述P个目标汉字中第i个目标汉字对应的矩阵,所述第i个矩阵为Q*M*N的矩阵,所述第i个矩阵中的M*N的子矩阵为与第i个目标汉字的所述Q个字母中的第r个字母对应的独热码中的M*N个数值,所述j个卷积结果为第i-1个矩阵与第j-1个卷积结果进行卷积操作得到的;将第P-1个卷积结果记录为所述目标卷积结果。6.根据权利要求1至5中任一项所述的方法,其特征在于,每个所述目标汉字对应的五笔字型编码包...
【专利技术属性】
技术研发人员:李鹏,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。