一种中文文本分词的方法、装置、存储介质及电子设备制造方法及图纸

技术编号:22330357 阅读:31 留言:0更新日期:2019-10-19 12:19
本发明专利技术提供了一种中文文本分词的方法、装置、存储介质及电子设备,其中,该方法包括:获取中文的目标文本,并确定目标文本中的目标字;确定目标字在不同字体下的字图像,并生成目标字的字图像集合;对目标字的字图像集合进行编码处理,生成目标字的字向量;根据目标文本所有的字向量进行序列标注处理,基于序列标注处理结果确定目标文本的分词。通过本发明专利技术实施例提供的中文文本分词的方法、装置、存储介质及电子设备,通过包含多个字图像的字图像集合生成目标字的字向量,可以更加综合、全面地确定每个目标字所包含的字形特征;基于该字向量进行分词处理,可以更加有效地识别未登录词,且可以降低中文词边界的模糊性。

A Chinese text segmentation method, device, storage medium and electronic equipment

【技术实现步骤摘要】
一种中文文本分词的方法、装置、存储介质及电子设备
本专利技术涉及分词处理的
,具体而言,涉及一种中文文本分词的方法、装置、存储介质及电子设备。
技术介绍
目前,基于深度学习的序列标注模型为传统的基于词典和匹配的中文分词工具提供了一种建模方式。但是目前的中文分词模型的分词效果以及准确率等还有待提升。影响中文分词的效果存在多个原因,一个原因是中文中有大量的未登录词。未登录词在中文分词任务主要集中在组织名称、人名、地点名称等一些命名实体上。另一个原因是中文词义复杂多样,导致中文词边界模糊性较高,有时难以准确地确定中文分词时的边界,导致分词效果较差。
技术实现思路
为解决上述问题,本专利技术实施例的目的在于提供一种中文文本分词的方法、装置、存储介质及电子设备。第一方面,本专利技术实施例提供了一种中文文本分词的方法,包括:获取中文的目标文本,并确定所述目标文本中的目标字;确定所述目标字在不同字体下的字图像,并生成所述目标字的字图像集合,所述字图像集合包含所述目标字的多个字图像;对所述目标字的所述字图像集合进行编码处理,生成所述目标字的字向量;根据所述目标文本所有的所述字向量进行序列标注处理,基于序列标注处理结果确定所述目标文本的分词。在一种可能的实现方式中,所述对所述目标字的所述字图像集合进行编码处理,生成所述目标字的字向量,包括:确定所述字图像集合中每个字图像的图像矩阵,对所述字图像集合中D个字图像的图像矩阵在深度方向上进行拼接处理,生成深度为D的图像张量;对所述图像张量进行编码处理,生成所述目标字的字向量;或者确定所述字图像集合中每个字图像的图像矩阵,分别对每个所述字图像的所述图像矩阵进行编码处理,生成每个所述字图像的图像编码;根据所述字图像集合中D个字图像的图像编码生成所述目标字的字向量。在一种可能的实现方式中,所述对所述目标字的所述字图像集合进行编码处理,包括:基于卷积神经网络对所述目标字的所述字图像集合进行编码处理,所述卷积神经网络的至少一个池化层输出c×c的第一中间向量;其中,所述池化层的过滤器尺寸为s×s,且步长也为s;输入至所述池化层的向量为a×a的向量,且a=s×c;s和c均为预设的整数,且c≥2。在一种可能的实现方式中,所述对所述目标字的所述字图像集合进行编码处理包括:基于卷积神经网络对所述目标字的所述字图像集合进行编码处理,所述卷积神经网络的至少一个卷积层基于H个1×1的卷积核,将输入至所述卷积层的c×c的向量转换为c×c×H的第二中间向量;c为预设的整数,且c≥2。在一种可能的实现方式中,该方法还包括:建立总损失函数L,在训练时基于所述总损失函数对模型的参数进行优化;其中,L=(1-λ)L(ws)+λL(cls);L(ws)表示中文分词模型对应的损失函数,L(cls)表示字图像分类器的损失函数,λ表示所述字图像分类器对应的权重;所述字图像分类器为基于所述目标字的字向量对相应目标字进行分类的模型。在一种可能的实现方式中,所述根据所述目标文本所有的所述字向量进行序列标注处理包括:根据所述目标文本所有的所述字向量生成字向量序列,并基于循环神经网络确定所述字向量序列的序列编码;将所述序列编码作为序列标注模型的输入,根据所述序列标注模型确定所述目标文本中每个目标字的分词边界标签。第二方面,本专利技术实施例还提供了一种中文文本分词的装置,包括:文本获取模块,用于获取中文的目标文本,并确定所述目标文本中的目标字;图像集合确定模块,用于确定所述目标字在不同字体下的字图像,并生成所述目标字的字图像集合,所述字图像集合包含所述目标字的多个字图像;编码模块,用于对所述目标字的所述字图像集合进行编码处理,生成所述目标字的字向量;标注分词模块,用于根据所述目标文本所有的所述字向量进行序列标注处理,基于序列标注处理结果确定所述目标文本的分词。在一种可能的实现方式中,所述编码模块用于:确定所述字图像集合中每个字图像的图像矩阵,对所述字图像集合中D个字图像的图像矩阵在深度方向上进行拼接处理,生成深度为D的图像张量;对所述图像张量进行编码处理,生成所述目标字的字向量;或者确定所述字图像集合中每个字图像的图像矩阵,分别对每个所述字图像的所述图像矩阵进行编码处理,生成每个所述字图像的图像编码;根据所述字图像集合中D个字图像的图像编码生成所述目标字的字向量。第三方面,本专利技术实施例还提供了一种计算机存储介质,所述计算机存储介质存储有计算机可执行指令,所述计算机可执行指令用于上述任意一项所述的中文文本分词的方法。第四方面,本专利技术实施例还提供了一种电子设备,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述任意一项所述的中文文本分词的方法。本专利技术实施例上述第一方面提供的方案中,基于汉字的字形特征实现对文本的分词;利用不同字体中丰富的字形信息,通过包含多个字图像的字图像集合生成目标字的字向量,该字向量结合了多种字体的字形特征,可以更加综合、全面地确定每个目标字所包含的字形特征;基于该字向量进行分词处理,可以更加有效地识别未登录词,在一定程度上减少了未登录词的数量,且可以降低中文词边界的模糊性。此外,中文为象形文字,不同字体中也包含丰富的语义信息,即目标字的字向量中包含字形特征和语义特征,利用该字向量进行分词可以进一步提高分词的准确率。为使本专利技术的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1示出了本专利技术实施例所提供的一种中文文本分词的方法的流程图;图2示出了本专利技术实施例所提供的中文文本分词的方法中,卷积神经网络的一种结构示意图;图3示出了本专利技术实施例所提供的一种中文文本分词的装置的结构示意图;图4示出了本专利技术实施例所提供的用于执行中文文本分词的方法的电子设备的结构示意图。具体实施方式在本专利技术的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本专利技术和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本专利技术的限制。此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本专利技术的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。在本专利技术中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连本文档来自技高网...

【技术保护点】
1.一种中文文本分词的方法,其特征在于,包括:获取中文的目标文本,并确定所述目标文本中的目标字;确定所述目标字在不同字体下的字图像,并生成所述目标字的字图像集合,所述字图像集合包含所述目标字的多个字图像;对所述目标字的所述字图像集合进行编码处理,生成所述目标字的字向量;根据所述目标文本所有的所述字向量进行序列标注处理,基于序列标注处理结果确定所述目标文本的分词。

【技术特征摘要】
1.一种中文文本分词的方法,其特征在于,包括:获取中文的目标文本,并确定所述目标文本中的目标字;确定所述目标字在不同字体下的字图像,并生成所述目标字的字图像集合,所述字图像集合包含所述目标字的多个字图像;对所述目标字的所述字图像集合进行编码处理,生成所述目标字的字向量;根据所述目标文本所有的所述字向量进行序列标注处理,基于序列标注处理结果确定所述目标文本的分词。2.根据权利要求1所述的方法,其特征在于,所述对所述目标字的所述字图像集合进行编码处理,生成所述目标字的字向量,包括:确定所述字图像集合中每个字图像的图像矩阵,对所述字图像集合中D个字图像的图像矩阵在深度方向上进行拼接处理,生成深度为D的图像张量;对所述图像张量进行编码处理,生成所述目标字的字向量;或者确定所述字图像集合中每个字图像的图像矩阵,分别对每个所述字图像的所述图像矩阵进行编码处理,生成每个所述字图像的图像编码;根据所述字图像集合中D个字图像的图像编码生成所述目标字的字向量。3.根据权利要求1所述的方法,其特征在于,所述对所述目标字的所述字图像集合进行编码处理,包括:基于卷积神经网络对所述目标字的所述字图像集合进行编码处理,所述卷积神经网络的至少一个池化层输出c×c的第一中间向量;其中,所述池化层的过滤器尺寸为s×s,且步长也为s;输入至所述池化层的向量为a×a的向量,且a=s×c;s和c均为预设的整数,且c≥2。4.根据权利要求1所述的方法,其特征在于,所述对所述目标字的所述字图像集合进行编码处理包括:基于卷积神经网络对所述目标字的所述字图像集合进行编码处理,所述卷积神经网络的至少一个卷积层基于H个1×1的卷积核,将输入至所述卷积层的c×c的向量转换为c×c×H的第二中间向量;c为预设的整数,且c≥2。5.根据权利要求1-4任一所述的方法,其特征在于,还包括:建立总损失函数L,在训练时基于所述总损失函数对模型的参数进行优化;其中,L=(1-λ)L(ws)+λL(cls);L(ws)表示中文分词模型对应的损失函数,L(cls)...

【专利技术属性】
技术研发人员:李晓雅
申请(专利权)人:北京香侬慧语科技有限责任公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1