汉字的序列标注方法及系统、计算机设备及可读存储介质技术方案

技术编号:21200284 阅读:34 留言:0更新日期:2019-05-25 01:22
本发明专利技术公开一种汉字的序列标注方法及系统、计算机设备及可读存储介质。该方法的一具体实施方式包括:提取待标注汉字的拼音特征及字形特征,生成多维的拼音特征向量及多维的字形特征向量;对拼音特征向量、字形特征向量和多维的通用字嵌入特征向量进行归一化后,首尾相连为多维的汉字特征向量;将汉字特征向量输入深度学习网络,得到待标注汉字的序列标注结果。该实施方式可提升汉字序列标注的准确性。

Chinese Character Sequence Marking Method and System, Computer Equipment and Readable Storage Media

The invention discloses a sequence annotation method and system of Chinese characters, computer equipment and readable storage medium. One specific implementation of the method includes: extracting the Pinyin and font features of Chinese characters to be labeled, generating multi-dimensional Pinyin feature vectors and multi-dimensional font feature vectors; normalizing the Pinyin feature vectors, font feature vectors and multi-dimensional embedding feature vectors of common characters, and connecting the beginning and end of the feature vectors into multi-dimensional Chinese character feature vectors; and inputting the Chinese character feature vectors into depth learning. The result of sequential annotation of Chinese characters to be annotated is obtained by network. The implementation method can improve the accuracy of Chinese character sequence annotation.

【技术实现步骤摘要】
汉字的序列标注方法及系统、计算机设备及可读存储介质
本专利技术涉及自然语言处理
更具体地,涉及一种汉字的序列标注方法及系统、计算机设备及可读存储介质。
技术介绍
序列标注是解决自然语言处理问题时经常遇到的任务,序列标注是对一个序列的每一个元素标注标签,实际上其是监督学习的分类问题,其输入是一个观测序列,输出一个标记序列或状态序列。根据输出的不同可能有分词、词性标注、命名实体识别等具体任务。对文字信息特征的提取是若干后续操作的基础,目前,对中文进行序列标注时常沿用对英文进行序列标注的方法。然而与英文等拼音文字不同的是,汉字是“形、音、义”的结合体,汉字的字型结构在一定程度上反映了字义信息,这些字义信息没有被作为文字信息特征进行提取,因此,现有的对中文进行序列标注的方法的准确性较低,难以满足需求。因此,需要提供一种新的汉字的序列标注方法及系统、计算机设备及可读存储介质。
技术实现思路
本专利技术的目的在于提供一种汉字的序列标注方法及系统、计算机设备及可读存储介质,以解决现有技术存在的问题中的至少一个。为达到上述目的,本专利技术采用下述技术方案:本专利技术第一方面提供了一种汉字的序列标注方法,包括:提取待标注汉字的拼音特征及字形特征,生成多维的拼音特征向量及多维的字形特征向量;对所述拼音特征向量、所述字形特征向量和多维的通用字嵌入特征向量进行归一化后,首尾相连为多维的汉字特征向量;将所述汉字特征向量输入深度学习网络,得到所述待标注汉字的序列标注结果。本专利技术第一方面提供的汉字的序列标注方法,根据汉字是“形、音、义”的结合体的特点,充分利用了汉字的拼音特征和字形特征,使得输入深度学习网络的汉字特征向量可更加全面的表征待标注汉字的信息,得到的序列标注结果的准确性更高。可选地,所述拼音特征向量包括依次排列的声母特征向量、韵头特征向量、韵腹特征向量、韵尾特征向量和声调特征向量。采用此可选方式可全面地包含汉字的拼音特征。可选地,所述字形特征向量包括部件特征向量和笔画顺序特征向量。汉字结构常可分为四个层级,分别为汉字层、部件层、笔画层和笔形层。大多数的汉字是形声字,在形旁声旁层级有其一定含义。部件作为字形基础,其从语义方面无法再拆分,更低的层级不再有语义。笔画顺序则包含更高层级的排列顺序问题,可以唯一的确定某个汉字,因此采用此可选方式可全面地包含汉字的字形特征。可选地,所述部件特征向量包括位于首位的部首特征向量。由于部首是最为重要的部件,因此此可选方式将部首特征向量设置于部件特征向量的首位。可选地,所述声母特征向量为2维向量,所述韵头特征向量为1维向量,所述韵腹特征向量为1维向量,所述韵尾特征向量为2维向量,所述声调特征向量为1维向量。可选地,该方法还包括:对待标注的汉字组成的待标注句用零进行长度补足。可选地,所述归一化采用线性函数归一化或零均值标准化。可选地,所述深度学习网络采用双向长短期记忆网络连接条件随机场。本专利技术第二方面提供了一种执行本专利技术第一方面提供的方法的汉字的序列标注系统,包括:特征提取模块,用于提取待标注汉字的拼音特征及字形特征,生成多维的拼音特征向量及多维的字形特征向量;归一化相连模块,用于对所述拼音特征向量、所述字形特征向量和多维的通用字嵌入特征向量进行归一化后,首尾相连为多维的汉字特征向量;深度学习网络,用于根据输入的所述汉字特征向量,输出所述待标注汉字的序列标注结果。本专利技术第三方面提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现本专利技术第一方面提供的的方法。本专利技术第四方面提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本专利技术第一方面提供的方法。本专利技术的有益效果如下:本专利技术所述技术方案,根据汉字是“形、音、义”的结合体的特点,充分利用了汉字的拼音特征和字形特征,使得输入深度学习网络的汉字特征向量可更加全面的表征待标注汉字的信息,得到的序列标注结果的准确性更高。附图说明下面结合附图对本专利技术的具体实施方式作进一步详细的说明;图1示出本专利技术实施例提供的汉字的序列标注方法的流程图。图2示出本专利技术实施例提供的汉字的序列标注方法中的数据流向图。图3示出双向长短期记忆网络连接条件随机场的网络模型示意图。图4示出本专利技术实施例提供的汉字的序列标注系统的示意图。图5示出本专利技术实施例提供的计算机设备的结构示意图。具体实施方式为了更清楚地说明本专利技术,下面结合优选实施例和附图对本专利技术做进一步的说明。附图中相似的部件以相同的附图标记进行表示。本领域技术人员应当理解,下面所具体描述的内容是说明性的而非限制性的,不应以此限制本专利技术的保护范围。如图1和图2所示,本专利技术的一个实施例提供了一种汉字的序列标注方法,包括:提取待标注汉字的拼音特征及字形特征,生成多维的拼音特征向量及多维的字形特征向量;对拼音特征向量、字形特征向量和多维的通用字嵌入特征向量进行归一化后,首尾相连为多维的汉字特征向量;将汉字特征向量输入深度学习网络,得到待标注汉字的序列标注结果。本实施例提供的汉字的序列标注方法,根据汉字是“形、音、义”的结合体的特点,充分利用了汉字的拼音特征和字形特征,使得输入深度学习网络的汉字特征向量可更加全面的表征待标注汉字的信息,得到的序列标注结果的准确性更高。在本实施例的一些可选的实现方式中,拼音特征向量包括依次排列的声母特征向量、韵头特征向量、韵腹特征向量、韵尾特征向量和声调特征向量,依次排列即拼音特征向量包括自首位至末位排列的声母特征向量、韵头特征向量、韵腹特征向量、韵尾特征向量和声调特征向量。采用此实现方式可全面地包含汉字的拼音特征。进一步,拼音特征向量为7维向量,包括依次排列的2维的声母特征向量、1维的韵头特征向量、1维的韵腹特征向量、2维的韵尾特征向量和1维的声调特征向量,这是由于汉字单字拼音最长为6位+1位声调,例如庄字的拼音特征向量为ZHUANG1。7维的拼音特征向量例如:庄:ZHUANG1苦:_K_U__3恩:___EN_1在本实施例的一些可选的实现方式中,字形特征向量包括部件特征向量和笔画顺序特征向量。汉字结构常可分为四个层级,分别为汉字层、部件层、笔画层和笔形层。大多数的汉字是形声字,在形旁声旁层级有其一定含义。部件作为字形基础,其从语义方面无法再拆分,更低的层级不再有语义。笔画顺序则包含更高层级的排列顺序问题,可以唯一的确定某个汉字,例如陪字与部字的部件特征向量相同,但可通过笔画顺序特征向量确定。因此采用此实现方式可全面地包含汉字的字形特征。在一个具体示例中,字形特征向量为30维向量,包括10维的部件特征向量和20维的笔画顺序特征向量,汉字的字形特征例如:萌=艹+明(形旁,声旁)=艹+日+月(部件,“日精月华,草木萌生”)=横竖竖竖折横横撇折横横(笔画顺序)在本实施例的一些可选的实现方式中,部件特征向量包括位于首位的部首特征向量。由于部首是最为重要的部件,因此此实现方式将部首特征向量设置于部件特征向量的首位。其中,本实施例中涉及的汉字部件特征采用的标准可为《信息处理用GB13000.1字符集汉字部件规范》规定,共560个汉字部件。在一个具体示例中,10维的部件特征向量包括位于首位的1维的部首特征向量。在一个具体示例中,通本文档来自技高网...

【技术保护点】
1.一种汉字的序列标注方法,其特征在于,包括:提取待标注汉字的拼音特征及字形特征,生成多维的拼音特征向量及多维的字形特征向量;对所述拼音特征向量、所述字形特征向量和多维的通用字嵌入特征向量进行归一化后,首尾相连为多维的汉字特征向量;将所述汉字特征向量输入深度学习网络,得到所述待标注汉字的序列标注结果。

【技术特征摘要】
1.一种汉字的序列标注方法,其特征在于,包括:提取待标注汉字的拼音特征及字形特征,生成多维的拼音特征向量及多维的字形特征向量;对所述拼音特征向量、所述字形特征向量和多维的通用字嵌入特征向量进行归一化后,首尾相连为多维的汉字特征向量;将所述汉字特征向量输入深度学习网络,得到所述待标注汉字的序列标注结果。2.根据权利要求1所述的方法,其特征在于,所述拼音特征向量包括依次排列的声母特征向量、韵头特征向量、韵腹特征向量、韵尾特征向量和声调特征向量。3.根据权利要求1所述的方法,其特征在于,所述字形特征向量包括部件特征向量和笔画顺序特征向量。4.根据权利要求3所述的方法,其特征在于,所述部件特征向量包括位于首位的部首特征向量。5.根据权利要求2所述的方法,其特征在于,所述声母特征向量为2维向量,所述韵头特征向量为1维向量,所述韵腹特征向量为1维向量,所述韵尾特征向量为2维向量,所述声调特征向量为1维向量。6.根据权利要求1所述的方法,其特征在于,该方法还包括:对待标注的汉字组成的...

【专利技术属性】
技术研发人员:胡风硕
申请(专利权)人:京东方科技集团股份有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1