分词方法、装置及设备制造方法及图纸

技术编号：22308436 阅读：17 留言：0更新日期：2019-10-16 08:31

本公开提供一种分词方法、装置及设备。包括：获取目标语句，目标语句包括N个目标字符，N为大于1的正整数；根据各个目标字符之前的t‑1个目标字符的第一属性向量，分别获取各个目标字符对应的记忆矩阵；分别获取各个目标字符的前一个目标字符对应的第二属性向量，属性向量指示该字符自身的属性或者该字符之前的字符对该字符的影响因子；根据各个目标字符、各个记忆矩阵、以及各个第二属性向量，分别确定各个目标字符的第三属性向量；根据各个第三属性向量，对目标语句进行分词。从而提高了分词的准确率。

Word segmentation methods, devices and equipment

全部详细技术资料下载

【技术实现步骤摘要】
分词方法、装置及设备
本公开涉及自然语言处理领域，尤其涉及一种分词方法、装置及设备。
技术介绍
自然语言处理是计算机学科人工智能的一个重要研究方向，它研究如何使得人与计算机之间能够使用自然语言进行有效通信，是一门融语言学、计算机科学、数学于一体的学科。中文分词是自然语言处理的基础任务，是许多上游任务比如情感分类、机器翻译等的预处理步骤。中文分词指的是将一个汉字序列切分成一个一个单独的词。中文分词是文本挖掘的基础，对于输入的一段中文，成功的进行中文分词，可以达到电脑自动识别语句含义的效果。近年来随着神经网络的兴起，中文分词引入了深度学习模型，循环神经网络(RecurrentNeuralNetwork，RNN)、卷积神经网络(ConvolutionNeuralNetwork，CNN)、递归神经网络(RecursiveNeuralNetwork，RNN)、长短时记忆(Long-shortTermMemory，LSTM)等被应用到中文分词的各个任务中。
技术实现思路
本公开实施例提供了一种分词方法、装置及设备。所述技术方案如下：根据本公开实施例的第一方面，提供一种分词方法，该方法包括：获取目标语句，目标语句包括N个目标字符，N为大于1的正整数；根据各个目标字符之前的t-1个目标字符的第一属性向量，分别获取各个目标字符对应的记忆矩阵，t为大于或等于2的整数；分别获取各个目标字符的前一个目标字符对应的第二属性向量，属性向量指示该字符自身的属性或者该字符之前的字符对该字符的影响因子；根据各个目标字符、各个记忆矩阵、以及各个第二属性向量，分别确定各个目标字符的第三属性向量；根...

【技术保护点】
1.一种分词方法，其特征在于，包括：获取目标语句，所述目标语句包括N个目标字符，N为大于1的正整数；根据各个所述目标字符之前的t‑1个目标字符的第一属性向量，分别获取各个所述目标字符对应的记忆矩阵，所述t为大于或等于2的整数；分别获取各个所述目标字符的前一个目标字符对应的第二属性向量，属性向量指示该字符自身的属性或者该字符之前的字符对该字符的影响因子；根据各个所述目标字符、各个所述记忆矩阵、以及各个所述第二属性向量，分别确定各个所述目标字符的第三属性向量；根据各个所述第三属性向量，对所述目标语句进行分词。

【技术特征摘要】
1.一种分词方法，其特征在于，包括：获取目标语句，所述目标语句包括N个目标字符，N为大于1的正整数；根据各个所述目标字符之前的t-1个目标字符的第一属性向量，分别获取各个所述目标字符对应的记忆矩阵，所述t为大于或等于2的整数；分别获取各个所述目标字符的前一个目标字符对应的第二属性向量，属性向量指示该字符自身的属性或者该字符之前的字符对该字符的影响因子；根据各个所述目标字符、各个所述记忆矩阵、以及各个所述第二属性向量，分别确定各个所述目标字符的第三属性向量；根据各个所述第三属性向量，对所述目标语句进行分词。2.根据权利要求1所述的方法，其特征在于，所述根据各个所述目标字符之前的t-1个目标字符的第一属性向量，分别获取各个所述目标字符对应的记忆矩阵，包括：其中，所述A(t)为所述记忆矩阵；所述η为所述记忆矩阵的学习率；所述λ为所述记忆矩阵的衰减率；所述h(τ-1)为目标字符x(t)之前的t-1个目标字符中第τ-1个目标字符对应的第一属性向量。3.根据权利要求1所述的方法，其特征在于，所述根据各个所述目标字符、各个所述记忆矩阵、以及各个所述第二属性向量，分别确定各个所述目标字符的第三属性向量，包括：S1：针对任一个目标字符，根据该目标字符的前一个目标字符对应的第二属性向量和该目标字符，确定该目标字符的第四属性向量；S2：获取该目标字符的属性向量的确定次数；S3：若该目标字符的确定次数等于预定次数，则将该目标字符的第四属性向量确定为该目标字符对应的所述第三属性向量；S4：若该目标字符的确定次数小于预定次数，则根据该目标字符的第四属性向量、该目标字符对应的记忆矩阵、该目标字符的前一个字符对应的第二属性向量和该述目标字符确定该目标字符的第五属性向量；S5：若该目标字符的确定次数等于预定次数，则将该目标字符的第五属性向量确定为该目标字符对应的所述第三属性向量；S6：若该目标字符的确定次数小于预定次数，则将该目标字符的第五属性向量作为该目标字符新的第四属性向量，并执行步骤S4。4.根据权利要求3所述的方法，其特征在于，所述根据该目标字符的前一个目标字符对应的第二属性向量和该目标字符，确定该目标字符的第四属性向量，包括：h0(t)＝f(Wh(t-1)+Cx(t))其中，h0(t)为该目标字符的第四属性向量；f(·)为激活函数；W为该目标字符的转换权重；h(K)为该目标字符的前一个字符对应的第二属性向量；C为该目标字符的输入权重；x(t)为该目标字符。5.根据权利要求4所述的方法，其特征在于，所述根据该目标字符的第四属性向量、该目标字符对应的记忆矩阵、该目标字符的前一个字符对应的第二属性向量和该述目标字符确定该目标字符的第五属性向量，包括：h1(t)＝f(Wh(t-1)+Cx(t))+A(t)h0(t)其中，h1(t)为该目标字符的第五属性向量。6.一种分词装置，其特征在于，所述装置包括：第一获取模块，被配置为获取目标语句，所述目标语句包括N个目标字符，N为大于1的正整数；第二获取模块，被配置为根据各个所述目标字符之前的...

【专利技术属性】
技术研发人员：孔德威，
申请(专利权)人：北京小米移动软件有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人