The embodiment of the invention provides a Chinese character processing method and device. Gets at least one element of the Chinese character to be processed, which includes the tone of the Chinese phonetic alphabet of the Chinese character to be processed, the initials of the Chinese phonetic alphabet, the vowels of the Chinese phonetic alphabet, and the strokes that make up the Chinese character to be processed, determines the index position of each element in the set of preset elements, and counts each element. The number of occurrences in the Chinese characters to be processed, the phonetic hash vectors of the Chinese characters to be processed are generated according to the index position and occurrence times, and the continuous features of the Chinese characters to be processed can be obtained by processing the phonetic hash vectors with the preset embedded neural network. The invention has good robustness to Chinese characters that do not appear in the preset dictionary. In addition, because the size of the phonetic hash space is constant, even if the new Chinese characters are added in the preset dictionary, the whole structure of the constructed phonetic hash space will not be affected, and only the corresponding elements of the new Chinese characters can be added, thus the expansibility is strong.
【技术实现步骤摘要】
汉字处理方法及装置
本专利技术涉及计算机
,特别是涉及一种汉字处理方法及装置。
技术介绍
当前,深度学习在自然语言处理、文本翻译等相关领域得到了广泛应用。在处理汉字时,大部分情况下需要将汉字这样的离散数据转化成可以输入到深度网络的连续特征。目前普遍使用的方法为One-hotEmbedding,该种方法是将汉字在预设字典中的位置进行编码,虽然这种方法可以实现端到端地训练深度神经网络,但是仍然存在下面两个缺点:首先、在互联网环境中,一般预设字典中包括的汉字非常多,用于表征汉字在预设字典中位置的嵌入矩阵特别巨大,若预设字典中新增汉字,则需要重新创建嵌入矩阵,从而导致可扩展性差。其次、当需要处理的汉字未出现在预设字典中时,通过上述方法将无法查找到该汉字在预设字典中的位置,由于找不到该汉字在预设字典中的位置,最终也就无法识别该汉字。
技术实现思路
为解决上述技术问题,本专利技术实施例提供一种汉字处理方法及装置。第一方面,本专利技术实施例示出了一种汉字处理方法,所述方法包括:获取待处理汉字包括的至少一个元素,所述元素包括待处理汉字的汉语拼音的声调、所述汉语拼音包括的声母、所述汉语拼音包括的韵母以及组成所述待处理汉字的笔画;确定每一个所述元素在预设元素总集合中的索引位置;统计每一个所述元素在所述待处理汉字中的出现次数;根据所述索引位置和所述出现次数生成所述待处理汉字的拼音哈希向量;利用预设嵌入神经网络处理所述拼音哈希向量,得到所述待处理汉字的连续特征。在一个可选的实现方式中,所述根据所述索引位置和所述出现次数生成所述待处理汉字的拼音哈希向量,包括:生成与所述预设元素总 ...
【技术保护点】
1.一种汉字处理方法,其特征在于,所述方法包括:获取待处理汉字包括的至少一个元素,所述元素包括待处理汉字的汉语拼音的声调、所述汉语拼音包括的声母、所述汉语拼音包括的韵母以及组成所述待处理汉字的笔画;确定每一个所述元素在预设元素总集合中的索引位置;统计每一个所述元素在所述待处理汉字中的出现次数;根据所述索引位置和所述出现次数生成所述待处理汉字的拼音哈希向量;利用预设嵌入神经网络处理所述拼音哈希向量,得到所述待处理汉字的连续特征。
【技术特征摘要】
1.一种汉字处理方法,其特征在于,所述方法包括:获取待处理汉字包括的至少一个元素,所述元素包括待处理汉字的汉语拼音的声调、所述汉语拼音包括的声母、所述汉语拼音包括的韵母以及组成所述待处理汉字的笔画;确定每一个所述元素在预设元素总集合中的索引位置;统计每一个所述元素在所述待处理汉字中的出现次数;根据所述索引位置和所述出现次数生成所述待处理汉字的拼音哈希向量;利用预设嵌入神经网络处理所述拼音哈希向量,得到所述待处理汉字的连续特征。2.根据权利要求1所述的方法,其特征在于,所述根据所述索引位置和所述出现次数生成所述待处理汉字的拼音哈希向量,包括:生成与所述预设元素总集合等维度的全零向量;对于每一个元素在所述预设元素总集合中的索引位置,确定所述索引位置在所述全零向量中的维度,将所述维度对应的数值更新为所述元素在所述待处理汉字中的出现次数,得到所述待处理汉字的拼音哈希向量。3.根据权利要求1所述的方法,其特征在于,所述方法还包括:获取预设字典中的每一个汉字的所有元素,所述元素包括汉字的汉语拼音的声调、汉语拼音包括的声母、汉语拼音包括的韵母以及组成汉字的笔画;将每一个汉字的所有元素求并集,得到所述预设元素总集合,其中,所述预设元素总集合中的每一个元素都具备固定的索引位置。4.根据权利要求1所述的方法,其特征在于,所述获取待处理汉字的至少一个元素,包括:根据预先设置的汉字与汉字包括的元素之间的对应关系,确定与所述待处理汉字相对应的元素,并作为待处理汉字包括的元素。5.一种汉字处理装置,其特征在于,所述装置包括:第一获取模块,用于获取待处理汉字包括的至少一个元素,所述元素包括待处理汉字的汉语拼音的声调、所述汉语拼音包括的声母、所述汉语拼音包括的韵母以及组成所述待处理汉字的笔画;确定...
【专利技术属性】
技术研发人员:张志伟,杨帆,
申请(专利权)人:北京达佳互联信息技术有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。