汉字处理方法及装置制造方法及图纸

技术编号:18972332 阅读:50 留言:0更新日期:2018-09-19 03:36
本发明专利技术实施例提供了一种汉字处理方法及装置。获取待处理汉字包括的至少一个元素,该元素包括待处理汉字的汉语拼音的声调、该汉语拼音包括的声母、该汉语拼音包括的韵母以及组成待处理汉字的笔画;确定每一个元素在预设元素总集合中的索引位置;统计每一个元素在待处理汉字中的出现次数;根据该索引位置和该出现次数生成待处理汉字的拼音哈希向量;利用预设嵌入神经网络处理拼音哈希向量,即可以得到待处理汉字的连续特征。本发明专利技术对于未出现在预设字典中的汉字具有良好的鲁棒性,此外,由于拼音哈希空间大小恒定,因此即便预设字典中新增汉字,也不会影响所构建的拼音哈希空间的整体构造,只需添加新增汉字对应的元素即可,可扩展性强。

Chinese character processing method and device

The embodiment of the invention provides a Chinese character processing method and device. Gets at least one element of the Chinese character to be processed, which includes the tone of the Chinese phonetic alphabet of the Chinese character to be processed, the initials of the Chinese phonetic alphabet, the vowels of the Chinese phonetic alphabet, and the strokes that make up the Chinese character to be processed, determines the index position of each element in the set of preset elements, and counts each element. The number of occurrences in the Chinese characters to be processed, the phonetic hash vectors of the Chinese characters to be processed are generated according to the index position and occurrence times, and the continuous features of the Chinese characters to be processed can be obtained by processing the phonetic hash vectors with the preset embedded neural network. The invention has good robustness to Chinese characters that do not appear in the preset dictionary. In addition, because the size of the phonetic hash space is constant, even if the new Chinese characters are added in the preset dictionary, the whole structure of the constructed phonetic hash space will not be affected, and only the corresponding elements of the new Chinese characters can be added, thus the expansibility is strong.

【技术实现步骤摘要】
汉字处理方法及装置
本专利技术涉及计算机
,特别是涉及一种汉字处理方法及装置。
技术介绍
当前,深度学习在自然语言处理、文本翻译等相关领域得到了广泛应用。在处理汉字时,大部分情况下需要将汉字这样的离散数据转化成可以输入到深度网络的连续特征。目前普遍使用的方法为One-hotEmbedding,该种方法是将汉字在预设字典中的位置进行编码,虽然这种方法可以实现端到端地训练深度神经网络,但是仍然存在下面两个缺点:首先、在互联网环境中,一般预设字典中包括的汉字非常多,用于表征汉字在预设字典中位置的嵌入矩阵特别巨大,若预设字典中新增汉字,则需要重新创建嵌入矩阵,从而导致可扩展性差。其次、当需要处理的汉字未出现在预设字典中时,通过上述方法将无法查找到该汉字在预设字典中的位置,由于找不到该汉字在预设字典中的位置,最终也就无法识别该汉字。
技术实现思路
为解决上述技术问题,本专利技术实施例提供一种汉字处理方法及装置。第一方面,本专利技术实施例示出了一种汉字处理方法,所述方法包括:获取待处理汉字包括的至少一个元素,所述元素包括待处理汉字的汉语拼音的声调、所述汉语拼音包括的声母、所述汉语拼音包括的韵母以及组成所述待处理汉字的笔画;确定每一个所述元素在预设元素总集合中的索引位置;统计每一个所述元素在所述待处理汉字中的出现次数;根据所述索引位置和所述出现次数生成所述待处理汉字的拼音哈希向量;利用预设嵌入神经网络处理所述拼音哈希向量,得到所述待处理汉字的连续特征。在一个可选的实现方式中,所述根据所述索引位置和所述出现次数生成所述待处理汉字的拼音哈希向量,包括:生成与所述预设元素总集合等维度的全零向量;对于每一个元素在所述预设元素总集合中的索引位置,确定所述索引位置在所述全零向量中的维度,将所述维度对应的数值更新为所述元素在所述待处理汉字中的出现次数,得到所述待处理汉字的拼音哈希向量。在一个可选的实现方式中,所述方法还包括:获取预设字典中的每一个汉字的所有元素,所述元素包括汉字的汉语拼音的声调、汉语拼音包括的声母、汉语拼音包括的韵母以及组成汉字的笔画;将每一个汉字的所有元素求并集,得到所述预设元素总集合,其中,所述预设元素总集合中的每一个元素都具备固定的索引位置。在一个可选的实现方式中,所述获取待处理汉字的至少一个元素,包括:根据预先设置的汉字与汉字包括的元素之间的对应关系,确定与所述待处理汉字相对应的元素,并作为待处理汉字包括的元素。第二方面,本专利技术实施例示出了一种汉字处理装置,所述装置包括:第一获取模块,用于获取待处理汉字包括的至少一个元素,所述元素包括待处理汉字的汉语拼音的声调、所述汉语拼音包括的声母、所述汉语拼音包括的韵母以及组成所述待处理汉字的笔画;确定模块,用于确定每一个所述元素在预设元素总集合中的索引位置;统计模块,用于统计每一个所述元素在所述待处理汉字中的出现次数;生成模块,用于根据所述索引位置和所述出现次数生成所述待处理汉字的拼音哈希向量;处理模块,用于利用预设嵌入神经网络处理所述拼音哈希向量,得到所述待处理汉字的连续特征。在一个可选的实现方式中,所述生成模块包括:生成单元,用于生成与所述预设元素总集合等维度的全零向量;确定单元,用于对于每一个元素在所述预设元素总集合中的索引位置,确定所述索引位置在所述全零向量中的维度,更新单元,用于将所述维度对应的数值更新为所述元素在所述待处理汉字中的出现次数,得到所述待处理汉字的拼音哈希向量。在一个可选的实现方式中,所述装置还包括:第二获取模块,用于获取预设字典中的每一个汉字的所有元素,所述元素包括汉字的汉语拼音的声调、汉语拼音包括的声母、汉语拼音包括的韵母以及组成汉字的笔画;求并集模块,用于将每一个汉字的所有元素求并集,得到所述预设元素总集合,其中,所述预设元素总集合中的每一个元素都具备固定的索引位置。在一个可选的实现方式中,所述第一获取模块具体用于:根据预先设置的汉字与汉字包括的元素之间的对应关系,确定与所述待处理汉字相对应的元素,并作为待处理汉字包括的元素。第三方面,本专利技术实施例示出了一种终端,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的汉字处理程序,所述汉字处理程序被所述处理器执行时实现如第一方面所述的汉字处理方法的步骤。第四方面,本专利技术实施例示出了一种计算机可读存储介质,所述计算机可读存储介质上存储有汉字处理程序,所述汉字处理程序被处理器执行时实现如第一方面所述的汉字处理方法的步骤。与现有技术相比,本专利技术具有以下优点:在本专利技术实施例中,首先获取待处理汉字包括的至少一个元素,该元素包括待处理汉字的汉语拼音的声调、该汉语拼音包括的声母、该汉语拼音包括的韵母以及组成待处理汉字的笔画;然后确定每一个元素在预设元素总集合中的索引位置;再统计每一个元素在待处理汉字中的出现次数;之后根据该索引位置和该出现次数生成待处理汉字的拼音哈希向量;以及利用预设嵌入神经网络处理拼音哈希向量,即可以得到待处理汉字的连续特征。由于本专利技术实施例中采用拼音哈希空间表征预设字典中的汉字,对于未出现在预设字典中的汉字具有良好的鲁棒性,此外,由于拼音哈希空间大小恒定,因此即便预设字典中新增汉字,也不会影响所构建的拼音哈希空间的整体构造,只需添加新增汉字对应的元素即可,可扩展性强。上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的具体实施方式。附图说明通过阅读下文优选实施方式的详细描述,各种优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式,而并不认为是对本专利技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:图1是本专利技术示出的一种汉字处理方法实施例的步骤流程图;图2是本专利技术示出的一种汉字处理装置实施例的结构框图;图3是本专利技术示出的一种终端实施例的结构框图。具体实施方式下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。参照图1,示出了本专利技术的一种汉字处理方法实施例的步骤流程图,该方法具体可以包括如下步骤:在步骤S101中,获取待处理汉字包括的至少一个元素,该元素包括待处理汉字的汉语拼音的声调、该汉语拼音包括的声母、该汉语拼音包括的韵母以及组成待处理汉字的笔画;在本专利技术实施例中,每一个汉字都对应有汉语拼音,汉语拼音是由多个拼音字母组成的,拼音字母包括声母和韵母,且每一个汉字是由一个汉字笔画,或由多个不同或相同汉字笔画组合而成。待处理汉字可以为一个汉字,也可以为由多个汉字组成的词语,在本专利技术实施例中,以待处理汉字为一个汉字为例进行说明,但不作为对本专利技术保护范围的限制。在一个实施例中,可以首先获取待处理汉字的汉语拼音以及该汉语拼音的声调,然后根据预设声母表在待处理汉字的汉语拼音中查找声母,以及,根据预设韵母表在待处理汉字的汉语拼音中查找韵母,再获取组成待处理汉字的汉字笔画。其中,在获取待处理汉字的汉语拼音时,可以根据预本文档来自技高网...

【技术保护点】
1.一种汉字处理方法,其特征在于,所述方法包括:获取待处理汉字包括的至少一个元素,所述元素包括待处理汉字的汉语拼音的声调、所述汉语拼音包括的声母、所述汉语拼音包括的韵母以及组成所述待处理汉字的笔画;确定每一个所述元素在预设元素总集合中的索引位置;统计每一个所述元素在所述待处理汉字中的出现次数;根据所述索引位置和所述出现次数生成所述待处理汉字的拼音哈希向量;利用预设嵌入神经网络处理所述拼音哈希向量,得到所述待处理汉字的连续特征。

【技术特征摘要】
1.一种汉字处理方法,其特征在于,所述方法包括:获取待处理汉字包括的至少一个元素,所述元素包括待处理汉字的汉语拼音的声调、所述汉语拼音包括的声母、所述汉语拼音包括的韵母以及组成所述待处理汉字的笔画;确定每一个所述元素在预设元素总集合中的索引位置;统计每一个所述元素在所述待处理汉字中的出现次数;根据所述索引位置和所述出现次数生成所述待处理汉字的拼音哈希向量;利用预设嵌入神经网络处理所述拼音哈希向量,得到所述待处理汉字的连续特征。2.根据权利要求1所述的方法,其特征在于,所述根据所述索引位置和所述出现次数生成所述待处理汉字的拼音哈希向量,包括:生成与所述预设元素总集合等维度的全零向量;对于每一个元素在所述预设元素总集合中的索引位置,确定所述索引位置在所述全零向量中的维度,将所述维度对应的数值更新为所述元素在所述待处理汉字中的出现次数,得到所述待处理汉字的拼音哈希向量。3.根据权利要求1所述的方法,其特征在于,所述方法还包括:获取预设字典中的每一个汉字的所有元素,所述元素包括汉字的汉语拼音的声调、汉语拼音包括的声母、汉语拼音包括的韵母以及组成汉字的笔画;将每一个汉字的所有元素求并集,得到所述预设元素总集合,其中,所述预设元素总集合中的每一个元素都具备固定的索引位置。4.根据权利要求1所述的方法,其特征在于,所述获取待处理汉字的至少一个元素,包括:根据预先设置的汉字与汉字包括的元素之间的对应关系,确定与所述待处理汉字相对应的元素,并作为待处理汉字包括的元素。5.一种汉字处理装置,其特征在于,所述装置包括:第一获取模块,用于获取待处理汉字包括的至少一个元素,所述元素包括待处理汉字的汉语拼音的声调、所述汉语拼音包括的声母、所述汉语拼音包括的韵母以及组成所述待处理汉字的笔画;确定...

【专利技术属性】
技术研发人员:张志伟杨帆
申请(专利权)人:北京达佳互联信息技术有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1