分词方法、装置及设备制造方法及图纸

技术编号:22308436 阅读:17 留言:0更新日期:2019-10-16 08:31
本公开提供一种分词方法、装置及设备。包括:获取目标语句,目标语句包括N个目标字符,N为大于1的正整数;根据各个目标字符之前的t‑1个目标字符的第一属性向量,分别获取各个目标字符对应的记忆矩阵;分别获取各个目标字符的前一个目标字符对应的第二属性向量,属性向量指示该字符自身的属性或者该字符之前的字符对该字符的影响因子;根据各个目标字符、各个记忆矩阵、以及各个第二属性向量,分别确定各个目标字符的第三属性向量;根据各个第三属性向量,对目标语句进行分词。从而提高了分词的准确率。

Word segmentation methods, devices and equipment

【技术实现步骤摘要】
分词方法、装置及设备
本公开涉及自然语言处理领域,尤其涉及一种分词方法、装置及设备。
技术介绍
自然语言处理是计算机学科人工智能的一个重要研究方向,它研究如何使得人与计算机之间能够使用自然语言进行有效通信,是一门融语言学、计算机科学、数学于一体的学科。中文分词是自然语言处理的基础任务,是许多上游任务比如情感分类、机器翻译等的预处理步骤。中文分词指的是将一个汉字序列切分成一个一个单独的词。中文分词是文本挖掘的基础,对于输入的一段中文,成功的进行中文分词,可以达到电脑自动识别语句含义的效果。近年来随着神经网络的兴起,中文分词引入了深度学习模型,循环神经网络(RecurrentNeuralNetwork,RNN)、卷积神经网络(ConvolutionNeuralNetwork,CNN)、递归神经网络(RecursiveNeuralNetwork,RNN)、长短时记忆(Long-shortTermMemory,LSTM)等被应用到中文分词的各个任务中。
技术实现思路
本公开实施例提供了一种分词方法、装置及设备。所述技术方案如下:根据本公开实施例的第一方面,提供一种分词方法,该方法包括:获取目标语句,目标语句包括N个目标字符,N为大于1的正整数;根据各个目标字符之前的t-1个目标字符的第一属性向量,分别获取各个目标字符对应的记忆矩阵,t为大于或等于2的整数;分别获取各个目标字符的前一个目标字符对应的第二属性向量,属性向量指示该字符自身的属性或者该字符之前的字符对该字符的影响因子;根据各个目标字符、各个记忆矩阵、以及各个第二属性向量,分别确定各个目标字符的第三属性向量;根据各个第三属性向量,对目标语句进行分词。根据本公开实施例的第二方面,提供了一种分词装置,该装置包括:第一获取模块,被配置为获取目标语句,目标语句包括N个目标字符,N为大于1的正整数。第二获取模块,被配置为根据各个目标字符之前的t-1个目标字符的第一属性向量,分别获取各个目标字符对应的记忆矩阵,t为大于或等于2的整数。第三获取模块,被配置为分别获取各个目标字符的前一个目标字符对应的第二属性向量,属性向量指示该字符自身的属性或者该字符之前的字符对该字符的影响因子。确定模块,被配置为根据各个目标字符、各个记忆矩阵、以及各个第二属性向量,分别确定各个目标字符的第三属性向量。分词模块,被配置为根据各个第三属性向量,对目标语句进行分词。根据本公开实施例的第三方面,提供了一种终端设备,该终端设备包括:处理器;用于存储处理器的可执行指令的存储器;其中,处理器被配置为:获取目标语句,目标语句包括N个目标字符,N为大于1的正整数。根据各个目标字符之前的t-1个目标字符的第一属性向量,分别获取各个目标字符对应的记忆矩阵,t为大于或等于2的整数。分别获取各个目标字符的前一个目标字符对应的第二属性向量,属性向量指示该字符自身的属性或者该字符之前的字符对该字符的影响因子。根据各个目标字符、各个记忆矩阵、以及各个第二属性向量,分别确定各个目标字符的第三属性向量。根据各个第三属性向量,对目标语句进行分词。本公开实施例提供的技术方案可以包括以下有益效果:在分词过程中针对每个目标字符引入对应的记忆矩阵,由于当前目标字符对应的记忆矩阵是根据当前目标字符之前的t-个字符目标的第一属性向量得到,基于此所得到的当前目标字符的第三属性向量包含了当前目标字符自身的属性以及当前目标字符之前的目标字符对其的影响因子,从而提高了分词的准确率。应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。附图说明此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。图1是根据一示例性实施例示出的一种分词方法的流程图;图2是根据一示例性实施例示出的确定目标字符的属性向量的流程图;图3是根据一示例性实施例示出的的记忆矩阵的模型示意图;图4是根据一示例性实施例示出的一种分词装置的框图;图5是根据另一示例性实施例示出的一种终端设备的框图。通过上述附图,已示出本公开明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本公开构思的范围,而是通过参考特定实施例为本领域技术人员说明本公开的概念。具体实施方式这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。图1是根据一示例性实施例示出的一种分词方法的流程图。该方法的执行主体是分词装置,该装置可以是计算机、平板电脑、笔记本电脑、手机等终端设备的部分或者全部,下面以该方法的执行主体为终端设备对分词方法进行说明。如图1所示,该分词方法可以包括如下几个步骤:在步骤S101中:终端设备获取目标语句,目标语句包括N个目标字符,N为大于1的正整数。在一种可能的方式中,终端设备获取用户的语音信息,并将该语音信息转换为目标语句,终端设备也可以直接获取用户输入的目标语句,在此不作限定。步骤S102:终端设备根据各个目标字符之前的t-1个目标字符的第一属性向量,分别获取各个目标字符对应的记忆矩阵,t为大于或等于2的整数。需要说明的是,不同的目标字符对应的t可以相同,也可以不同。终端设备针对N个字符中的任一个目标字符,可以确定该目标字符、该目标字符对应的记忆矩阵、该目标字符的前一个目标字符对应的属性向量。第一,假设当前目标字符之前有t-1个目标字符。目标语句中的每一个目标字符对应一个记忆矩阵,从该目标语句中第一个目标字符到最后一个目标字符,对应的记忆矩阵会按照衰减因子加权,放弃冗余的信息。可以通过如下的公式确定当前目标字符对应的记忆矩阵:A(t)=λA(t-1)+ηh(t-1)h(t-1)T(1)其中,A(t)为当前目标字符x(t)对应的记忆矩阵。A(t-1)为目标字符x(t)的前一个目标字符对应的记忆矩阵。假设每个记忆矩阵的学习率相同,每个记忆矩阵的衰减率也相同,则η为记忆矩阵的学习率;λ为记忆矩阵的衰减率。h(t-1)为当前目标字符x(t)的前一个目标字符对应的属性向量。进一步地,终端设备可以根据如下公式确定当前目标字符x(t)的前一个目前字符对应的记忆矩阵,即目标语句的前一个目标字符对应的记忆矩阵:A(t-1)=λA(t-2)+ηh(t-2)h(t-2)T(2)其中,A(t-1)为当前目标字符x(t)的前一个目标字符对应的记忆矩阵。A(t-2)为当前目标字符x(t)之前的倒数第二个目标字符对应的记忆矩阵。h(t-2)为当前目标字符x(t)之前的倒数第二目标字符对应的属性向量。假设目标语句的初始记忆矩阵A(1)为0,终端设备根据公式(1)和公式(2)的计算方法,可以得到A(t)的更新规则为:第二,终端设备针对N个字符中的当前目标字符,确定该目标字符的前一个目标字符对应的属性向量。对于一个目标语句,终端设备从第一个目标字符开始按顺序处理每一个目标字符,处理完成后会输出该目标字符对应的属性向量,因此,在终端设备处理当前目标字符时,该目标字本文档来自技高网...

【技术保护点】
1.一种分词方法,其特征在于,包括:获取目标语句,所述目标语句包括N个目标字符,N为大于1的正整数;根据各个所述目标字符之前的t‑1个目标字符的第一属性向量,分别获取各个所述目标字符对应的记忆矩阵,所述t为大于或等于2的整数;分别获取各个所述目标字符的前一个目标字符对应的第二属性向量,属性向量指示该字符自身的属性或者该字符之前的字符对该字符的影响因子;根据各个所述目标字符、各个所述记忆矩阵、以及各个所述第二属性向量,分别确定各个所述目标字符的第三属性向量;根据各个所述第三属性向量,对所述目标语句进行分词。

【技术特征摘要】
1.一种分词方法,其特征在于,包括:获取目标语句,所述目标语句包括N个目标字符,N为大于1的正整数;根据各个所述目标字符之前的t-1个目标字符的第一属性向量,分别获取各个所述目标字符对应的记忆矩阵,所述t为大于或等于2的整数;分别获取各个所述目标字符的前一个目标字符对应的第二属性向量,属性向量指示该字符自身的属性或者该字符之前的字符对该字符的影响因子;根据各个所述目标字符、各个所述记忆矩阵、以及各个所述第二属性向量,分别确定各个所述目标字符的第三属性向量;根据各个所述第三属性向量,对所述目标语句进行分词。2.根据权利要求1所述的方法,其特征在于,所述根据各个所述目标字符之前的t-1个目标字符的第一属性向量,分别获取各个所述目标字符对应的记忆矩阵,包括:其中,所述A(t)为所述记忆矩阵;所述η为所述记忆矩阵的学习率;所述λ为所述记忆矩阵的衰减率;所述h(τ-1)为目标字符x(t)之前的t-1个目标字符中第τ-1个目标字符对应的第一属性向量。3.根据权利要求1所述的方法,其特征在于,所述根据各个所述目标字符、各个所述记忆矩阵、以及各个所述第二属性向量,分别确定各个所述目标字符的第三属性向量,包括:S1:针对任一个目标字符,根据该目标字符的前一个目标字符对应的第二属性向量和该目标字符,确定该目标字符的第四属性向量;S2:获取该目标字符的属性向量的确定次数;S3:若该目标字符的确定次数等于预定次数,则将该目标字符的第四属性向量确定为该目标字符对应的所述第三属性向量;S4:若该目标字符的确定次数小于预定次数,则根据该目标字符的第四属性向量、该目标字符对应的记忆矩阵、该目标字符的前一个字符对应的第二属性向量和该述目标字符确定该目标字符的第五属性向量;S5:若该目标字符的确定次数等于预定次数,则将该目标字符的第五属性向量确定为该目标字符对应的所述第三属性向量;S6:若该目标字符的确定次数小于预定次数,则将该目标字符的第五属性向量作为该目标字符新的第四属性向量,并执行步骤S4。4.根据权利要求3所述的方法,其特征在于,所述根据该目标字符的前一个目标字符对应的第二属性向量和该目标字符,确定该目标字符的第四属性向量,包括:h0(t)=f(Wh(t-1)+Cx(t))其中,h0(t)为该目标字符的第四属性向量;f(·)为激活函数;W为该目标字符的转换权重;h(K)为该目标字符的前一个字符对应的第二属性向量;C为该目标字符的输入权重;x(t)为该目标字符。5.根据权利要求4所述的方法,其特征在于,所述根据该目标字符的第四属性向量、该目标字符对应的记忆矩阵、该目标字符的前一个字符对应的第二属性向量和该述目标字符确定该目标字符的第五属性向量,包括:h1(t)=f(Wh(t-1)+Cx(t))+A(t)h0(t)其中,h1(t)为该目标字符的第五属性向量。6.一种分词装置,其特征在于,所述装置包括:第一获取模块,被配置为获取目标语句,所述目标语句包括N个目标字符,N为大于1的正整数;第二获取模块,被配置为根据各个所述目标字符之前的...

【专利技术属性】
技术研发人员:孔德威
申请(专利权)人:北京小米移动软件有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1