汉字处理方法和装置制造方法及图纸

技术编号:14487752 阅读:70 留言:0更新日期:2017-01-28 19:42
本发明专利技术公开了一种汉字处理方法和装置。其中,该方法包括:获取多个目标汉字的五笔字型编码,其中,每个五笔字型编码包括一个或多个字母;将多个五笔字型编码转换成独热码,其中,每个目标汉字的独热码具有相同的张量维度;将多个目标汉字的独热码输入卷积神经网络进行卷积运算,得到输出向量,其中,输出向量用于表示多个目标汉字的语义数值。本发明专利技术解决了相关技术中基于拼音的汉字编码方法用于文本分析时结果不准确的技术问题。

【技术实现步骤摘要】

本专利技术涉及汉字编码领域,具体而言,涉及一种汉字处理方法和装置
技术介绍
汉字的语义识别和分类具有广泛的应用,而汉字的语义识别和分类都是基于汉字编码进行的。汉字编码是一种便于将汉字输入到计算机的代码,由于汉字数量庞大,字型复杂,因此汉字编码具有很多困难,现有的技术方案中,通常把汉字转换成拼音,然后按照序列化的编码方式构造句子的特征,但是,基于拼音的汉字编码方案的缺点主要有两个方面,第一是神经网络卷积层扫描汉字不精确,这是因为汉字拼音长度不一致,卷积运算时卷积宽度固定无法确保抓取汉字数量一致,因此扫描汉字不精确;第二是存储空间偏大,这是因为使用26个拼音字母和多个特殊符号导致组合数量较大,因此存储空间占用偏大。在一些面向垂直领域的汉语自然语言理解任务中,由于缺乏专门的分词工具,基于拼音的汉字编码方法用于文本分析时在性能上具有很多瓶颈。针对上述的问题,目前尚未提出有效的解决方案。
技术实现思路
本专利技术实施例提供了一种汉字处理方法和装置,以至少解决相关技术中基于拼音的汉字编码方法用于文本分析时结果不准确的技术问题。根据本专利技术实施例的一个方面,提供了一种汉字处理方法,包括:获取多个目标汉字的五笔字型编码,其中,每个所述五笔字型编码包括一个或多个字母;将多个所述五笔字型编码转换成独热码,其中,每个所述目标汉字的所述独热码具有相同的张量维度;将所述多个目标汉字的所述独热码输入卷积神经网络进行卷积运算,得到输出向量,其中,所述输出向量用于表示所述多个目标汉字的语义数值。根据本专利技术实施例的另一方面,还提供了一种汉字处理装置,包括:获取单元,用于获取多个目标汉字的五笔字型编码,其中,每个所述五笔字型编码包括一个或多个字母;转换单元,用于将多个所述五笔字型编码转换成独热码,其中,每个所述目标汉字的所述独热码具有相同的张量维度;运算单元,用于将所述多个目标汉字的所述独热码输入卷积神经网络进行卷积运算,得到输出向量,其中,所述输出向量用于表示所述多个目标汉字的语义数值。在本专利技术实施例中,采用将多个目标汉字的五笔字型编码转换成独热码,然后将独热码输入卷积神经网络进行卷积运算得到输出向量,用输出向量表示多个目标汉字的语义的方式,通过五笔字型编码对每个汉字进行编码,达到了所有汉字都具有相同数量的编码的目的,从而实现了对汉字的文本分类更准确的技术效果,进而解决了相关技术中基于拼音的汉字编码方法用于文本分析时结果不准确的技术问题。附图说明此处所说明的附图用来提供对本专利技术的进一步理解,构成本申请的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:图1是根据本专利技术实施例的汉字处理方法的硬件环境的示意图;图2是根据本专利技术实施例的一种可选的汉字处理方法的流程图;图3是根据本专利技术实施例的一种基于五笔字型的汉字转图像的示意图;图4是根据本专利技术实施例的一种卷积神经网络运算的示意图;图5是根据本专利技术实施例的一种可选的汉字处理装置的示意图;以及图6是根据本专利技术实施例的一种终端的结构框图。具体实施方式为了使本
的人员更好地理解本专利技术方案,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分的实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本专利技术保护的范围。需要说明的是,本专利技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本专利技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。实施例1根据本专利技术实施例,提供了一种汉字处理的方法实施例。可选地,在本实施例中,上述汉字处理方法可以应用于如图1所示的由服务器102和终端104所构成的硬件环境中。如图1所示,服务器102通过网络与终端104进行连接,上述网络包括但不限于:广域网、城域网或局域网,终端104并不限定于PC、手机、平板电脑等。本专利技术实施例的汉字处理方法可以由服务器102来执行,也可以由终端104来执行,还可以是由服务器102和终端104共同执行。其中,终端104执行本专利技术实施例的汉字处理方法也可以是由安装在其上的客户端来执行。在一个可选的实施方式中,本专利技术实施例的汉字处理方法包括以下过程:终端104获取输入的多个目标汉字,发送到服务器102,服务器102获取多个目标汉字的五笔字型编码,然后将多个五笔字型编码转换成独热码,服务器102将多个目标汉字的独热码输入卷积神经网络进行卷积运算,得到输出向量,以实现对输入的汉字进行文本分类。在一些运算能力强的终端中,也可以由终端104获取多个目标汉字的五笔字型编码,然后将多个五笔字型编码转换成独热码,将多个目标汉字的独热码输入卷积神经网络进行卷积运算,得到输出向量。图2是根据本专利技术实施例的一种可选的汉字处理方法的流程图,如图2所示,该方法可以包括以下步骤:步骤S202,获取多个目标汉字的五笔字型编码,其中,每个五笔字型编码包括一个或多个字母。步骤S204,将多个五笔字型编码转换成独热码,其中,每个目标汉字的独热码具有相同的张量维度。步骤S206,将多个目标汉字的独热码输入卷积神经网络进行卷积运算,得到输出向量,其中,输出向量用于表示多个目标汉字的语义数值。通过上述步骤S202至步骤S206,通过将多个目标汉字的五笔字型编码转换成独热码,然后将独热码输入卷积神经网络进行卷积运算得到输出向量,用输出向量表示多个目标汉字的语义的方式,通过五笔字型编码对每个汉字进行编码,达到了所有汉字都具有相同数量的编码的目的,该实施例可以作为一种深度学习环境下的汉字编码方法,可以解决相关技术中基于拼音的汉字编码方法用于文本分析时结果不准确的技术问题,进而达到对汉字的文本分析结果更准确的技术效果。在步骤S202提供的技术方案中,目标汉字可以是多个,例如,目标汉字可以是一句话中的多个汉字,或者一段话中的多个汉字。每个目标汉字都有唯一的五笔字型编码,每个汉字的五笔字型编码包括一个或多个字母,可选地,每个目标汉字对应的五笔字型编码包括4个字母,通过4个字母可以唯一确定一个汉字,由于汉字拼音长度不一致,基于拼音的汉字编码方案卷积运算时卷积宽度固定无法确保抓取汉字数量一致,因此扫描汉字不精确,而本专利技术实施例由于所有目标汉字都可以用相同数量的字母进行编码,因此通过五笔字型编码的方式对目标汉字进行编码可以达到所有汉字都具有相同数量的编码的目的,从而实现了对汉字的文本分析更准确的技术效果,并且由于固定了每个汉字的编码数,也节省了存储空间。在步骤S204提供的技术方案中,独热码(one-hotcode)又称为一位有效编码,在任意时候,只有一位有效,可以将目标汉字的五笔字型编码通过独热码表示,例如,每个目标汉字的五笔字型编码有四个字母本文档来自技高网
...
汉字处理方法和装置

【技术保护点】
一种汉字处理方法,其特征在于,包括:获取多个目标汉字的五笔字型编码,其中,每个所述五笔字型编码包括一个或多个字母;将多个所述五笔字型编码转换成独热码,其中,每个所述目标汉字的所述独热码具有相同的张量维度;将所述多个目标汉字的所述独热码输入卷积神经网络进行卷积运算,得到输出向量,其中,所述输出向量用于表示所述多个目标汉字的语义数值。

【技术特征摘要】
1.一种汉字处理方法,其特征在于,包括:获取多个目标汉字的五笔字型编码,其中,每个所述五笔字型编码包括一个或多个字母;将多个所述五笔字型编码转换成独热码,其中,每个所述目标汉字的所述独热码具有相同的张量维度;将所述多个目标汉字的所述独热码输入卷积神经网络进行卷积运算,得到输出向量,其中,所述输出向量用于表示所述多个目标汉字的语义数值。2.根据权利要求1所述的方法,其特征在于,将多个所述五笔字型编码转换成所述独热码包括:将第一值设置在第一矩阵中的第一位置上,将第二值设置在所述第一矩阵中除所述第一位置之外的其他位置上,得到所述独热码,其中,所述第一位置与所述字母在五笔字型编码表中的第二位置相对应,设置了所述第一值和所述第二值的所述第一矩阵用于表示所述独热码,所述五笔字型编码表用于生成所述目标汉字的五笔字型编码。3.根据权利要求1所述的方法,其特征在于,将所述多个目标汉字的所述独热码输入卷积神经网络进行卷积运算,得到输出向量包括:对所述多个目标汉字的所述独热码进行卷积运算,得到目标卷积结果,其中,所述目标卷积结果由第二矩阵表示;对所述目标卷积结果进行采样,得到第三矩阵,其中,所述第三矩阵的列数少于所述第二矩阵的列数,所述第三矩阵的行数等于所述第二矩阵的行数;对所述第三矩阵进行降维,得到一维的所述输出向量。4.根据权利要求3所述的方法,其特征在于,所述多个目标汉字为P个目标汉字,每个所述目标汉字的五笔字型编码包括Q个字母,每个所述独热码被M*N的矩阵表示,其中,对所述多个目标汉字的所述独热码进行卷积运算,得到目标卷积结果包括:对于所述P个目标汉字依次进行以下卷积操作,其中,3≤i≤P,1≤r≤Q,j=i-2,第0个卷积结果为第1个矩阵:对第i个矩阵和第j个卷积结果进行卷积操作,得到第j+1个卷积结果,其中,所述第i个矩阵为所述P个目标汉字中第i个目标汉字对应的矩阵,所述第i个矩阵为Q*R1的矩阵,R1=M*N,所述第i个矩阵中的第r行为与第i个目标汉字的所述Q个字母中的第r个字母对应的独热码中的M*N个数值按行拼接而成,所述第j个卷积结果为第i-1个矩阵与第j-1个卷积结果进行卷积操作得到的;将第P-1个卷积结果记录为所述目标卷积结果。5.根据权利要求3所述的方法,其特征在于,所述多个目标汉字为P个目标汉字,每个所述目标汉字的五笔字型编码包括Q个字母,每个所述独热码被M*N的矩阵表示,其中,对所述多个目标汉字的所述独热码进行卷积运算,得到目标卷积结果包括:对于所述P个目标汉字依次进行以下卷积操作,其中,3≤i≤P,1≤r≤Q,j=i-2,第0个卷积结果为第1个矩阵:对第i个矩阵和第j个卷积结果进行卷积操作,得到第j+1个卷积结果,其中,所述第i个矩阵为所述P个目标汉字中第i个目标汉字对应的矩阵,所述第i个矩阵为Q*M*N的矩阵,所述第i个矩阵中的M*N的子矩阵为与第i个目标汉字的所述Q个字母中的第r个字母对应的独热码中的M*N个数值,所述j个卷积结果为第i-1个矩阵与第j-1个卷积结果进行卷积操作得到的;将第P-1个卷积结果记录为所述目标卷积结果。6.根据权利要求1至5中任一项所述的方法,其特征在于,每个所述目标汉字对应的五笔字型编码包...

【专利技术属性】
技术研发人员:李鹏
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1