汉字的序列标注方法及系统、计算机设备及可读存储介质技术方案

技术编号：21200284 阅读：34 留言：0更新日期：2019-05-25 01:22

本发明专利技术公开一种汉字的序列标注方法及系统、计算机设备及可读存储介质。该方法的一具体实施方式包括：提取待标注汉字的拼音特征及字形特征，生成多维的拼音特征向量及多维的字形特征向量；对拼音特征向量、字形特征向量和多维的通用字嵌入特征向量进行归一化后，首尾相连为多维的汉字特征向量；将汉字特征向量输入深度学习网络，得到待标注汉字的序列标注结果。该实施方式可提升汉字序列标注的准确性。

Chinese Character Sequence Marking Method and System, Computer Equipment and Readable Storage Media

The invention discloses a sequence annotation method and system of Chinese characters, computer equipment and readable storage medium. One specific implementation of the method includes: extracting the Pinyin and font features of Chinese characters to be labeled, generating multi-dimensional Pinyin feature vectors and multi-dimensional font feature vectors; normalizing the Pinyin feature vectors, font feature vectors and multi-dimensional embedding feature vectors of common characters, and connecting the beginning and end of the feature vectors into multi-dimensional Chinese character feature vectors; and inputting the Chinese character feature vectors into depth learning. The result of sequential annotation of Chinese characters to be annotated is obtained by network. The implementation method can improve the accuracy of Chinese character sequence annotation.

全部详细技术资料下载

【技术实现步骤摘要】
汉字的序列标注方法及系统、计算机设备及可读存储介质
本专利技术涉及自然语言处理
更具体地，涉及一种汉字的序列标注方法及系统、计算机设备及可读存储介质。
技术介绍
序列标注是解决自然语言处理问题时经常遇到的任务，序列标注是对一个序列的每一个元素标注标签，实际上其是监督学习的分类问题，其输入是一个观测序列，输出一个标记序列或状态序列。根据输出的不同可能有分词、词性标注、命名实体识别等具体任务。对文字信息特征的提取是若干后续操作的基础，目前，对中文进行序列标注时常沿用对英文进行序列标注的方法。然而与英文等拼音文字不同的是，汉字是“形、音、义”的结合体，汉字的字型结构在一定程度上反映了字义信息，这些字义信息没有被作为文字信息特征进行提取，因此，现有的对中文进行序列标注的方法的准确性较低，难以满足需求。因此，需要提供一种新的汉字的序列标注方法及系统、计算机设备及可读存储介质。
技术实现思路
本专利技术的目的在于提供一种汉字的序列标注方法及系统、计算机设备及可读存储介质，以解决现有技术存在的问题中的至少一个。为达到上述目的，本专利技术采用下述技术方案：本专利技术第一方面提供了一种汉字的序列标注方法，包括：提取待标注汉字的拼音特征及字形特征，生成多维的拼音特征向量及多维的字形特征向量；对所述拼音特征向量、所述字形特征向量和多维的通用字嵌入特征向量进行归一化后，首尾相连为多维的汉字特征向量；将所述汉字特征向量输入深度学习网络，得到所述待标注汉字的序列标注结果。本专利技术第一方面提供的汉字的序列标注方法，根据汉字是“形、音、义”的结合体的特点，充分利用了汉字的拼音特征和...

【技术保护点】
1.一种汉字的序列标注方法，其特征在于，包括：提取待标注汉字的拼音特征及字形特征，生成多维的拼音特征向量及多维的字形特征向量；对所述拼音特征向量、所述字形特征向量和多维的通用字嵌入特征向量进行归一化后，首尾相连为多维的汉字特征向量；将所述汉字特征向量输入深度学习网络，得到所述待标注汉字的序列标注结果。

【技术特征摘要】
1.一种汉字的序列标注方法，其特征在于，包括：提取待标注汉字的拼音特征及字形特征，生成多维的拼音特征向量及多维的字形特征向量；对所述拼音特征向量、所述字形特征向量和多维的通用字嵌入特征向量进行归一化后，首尾相连为多维的汉字特征向量；将所述汉字特征向量输入深度学习网络，得到所述待标注汉字的序列标注结果。2.根据权利要求1所述的方法，其特征在于，所述拼音特征向量包括依次排列的声母特征向量、韵头特征向量、韵腹特征向量、韵尾特征向量和声调特征向量。3.根据权利要求1所述的方法，其特征在于，所述字形特征向量包括部件特征向量和笔画顺序特征向量。4.根据权利要求3所述的方法，其特征在于，所述部件特征向量包括位于首位的部首特征向量。5.根据权利要求2所述的方法，其特征在于，所述声母特征向量为2维向量，所述韵头特征向量为1维向量，所述韵腹特征向量为1维向量，所述韵尾特征向量为2维向量，所述声调特征向量为1维向量。6.根据权利要求1所述的方法，其特征在于，该方法还包括：对待标注的汉字组成的...

【专利技术属性】
技术研发人员：胡风硕，
申请(专利权)人：京东方科技集团股份有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人