语言模型的构建方法和装置制造方法及图纸

技术编号:16873770 阅读:20 留言:0更新日期:2017-12-23 11:43
本发明专利技术提出一种语言模型的构建方法和装置,该方法包括:确定建模单元;获取所述建模单元的词向量,以及除所述词向量之外的其他特征向量;根据所述词向量和所述其他特征向量,生成所述建模单元对应的语言模型。该方法能够提高构建的语言模型的效果。

The construction method and device of language model

The invention provides a method and apparatus for constructing language models, the method includes determining a modeling unit; word vector obtained by the modeling unit, and in addition to the word vector vector of other characteristics; according to the word vector and the vector of other characteristics, the language model generating the corresponding modeling unit. This method can improve the effect of the built language model.

【技术实现步骤摘要】
语言模型的构建方法和装置
本专利技术涉及自然语言处理
,尤其涉及一种语言模型的构建方法和装置。
技术介绍
随着自然语言理解技术的不断发展,语言模型在越来越多的领域发挥着重要的作用,例如语音识别,手写识别,机器翻译等领域;优秀的语言模型对提高这些领域的效果起着举足轻重的作用,因此也得到了学者们越来越多的的研究和关注。通常的语言模型的构建方法包括:N-gram语言模型构建,和循环神经网络(RecurrentNeuralNetwork,RNN)语言模型构建。通常来讲,训练数据的数据量越大,训练生成的语言模型的效果越好。黏着语是语言的一种语法类型,包括词干和词缀,词干和词缀统称为子词。有些黏着语使用范围比较小,比如维语、蒙古语这些黏着语的使用人数都比较少。相关技术中,在构造黏着语的语言模型时,通常是收集包括整词的数据,对这些数据进行切词后,将整词对应的词向量或子词对应的词向量作为模型训练的输入。对于维语、蒙古语等使用范围较小的语言,其能够收集的数据非常有限,而黏着语一般词典都较为庞大,从而由于训练数据的数据量很小,会影响语言模型的效果。
技术实现思路
本专利技术旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本专利技术的一个目的在于提出一种语言模型的构建方法,该方法可以提高构建的语言模型的效果。本专利技术的另一个目的在于提出一种语言模型的构建装置。为达到上述目的,本专利技术第一方面实施例提出的语言模型的构建方法,包括:确定建模单元;获取所述建模单元的词向量,以及除所述词向量之外的其他特征向量;根据所述词向量和所述其他特征向量,生成所述建模单元对应的语言模型。本专利技术第一方面实施例提出的语言模型的构建方法,通过获取建模单元的词向量之外,还获取了其他特征向量,可以充分利用能够收集到的数据的多种信息,提高构建的语言模型的效果。为达到上述目的,本专利技术第二方面实施例提出的语言模型的构建装置,包括:确定模块,用于确定建模单元;获取模块,用于获取所述建模单元的词向量,以及除所述词向量之外的其他特征向量;生成模块,用于根据所述词向量和所述其他特征向量,生成所述建模单元对应的语言模型。本专利技术第二方面实施例提出的语言模型的构建装置,通过获取建模单元的词向量之外,还获取了其他特征向量,可以充分利用能够收集到的数据的多种信息,提高构建的语言模型的效果。本专利技术附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本专利技术的实践了解到。附图说明本专利技术上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:图1是本专利技术一个实施例提出的语言模型的构建方法的流程示意图;图2是本专利技术实施例中根据一种建模单元生成语言模型的示意图;图3是本专利技术实施例中根据另一种建模单元生成语言模型的示意图;图4是本专利技术实施例中根据另一种建模单元生成语言模型的示意图;图5是本专利技术一个实施例提出的语言模型的构建装置的结构示意图;图6是本专利技术另一个实施例提出的语言模型的构建装置的结构示意图。具体实施方式下面详细描述本专利技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的模块或具有相同或类似功能的模块。下面通过参考附图描述的实施例是示例性的,仅用于解释本专利技术,而不能理解为对本专利技术的限制。相反,本专利技术的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。如上所示,仅以收集到的数据的词向量本身作为输入进行模型训练会存在效果不理想的问题。为了在能够收集的数据有限的基础上,提高训练得到的语言模型的效果,本申请将不仅会获取到整词或子词这些建模单元对应的词向量,还会获取到词向量之外的其他特征向量,以充分利用能够收集到的数据的信息。进一步的,本申请中将不仅会选择整词或子词作为建模单元,还可以选择其他的建模单元。具体的,对于黏着语的语言模型的构建,由于黏着语的语义信息大部分由词干表示,则还可以选择词干作为建模单元。具体内容可以参见后续的实施例。图1是本专利技术一个实施例提出的语言模型的构建方法的流程示意图。参见图1,本实施例的流程包括:S11:确定建模单元。其中,可以从收集的数据中确定建模单元。具体的,以黏着语为例,可以收集尽可能涵盖各整词的数据。在收集到这些数据后,可以根据需要对整词进行切分后得到词干、词缀等,进而可以从中确定建模单元。本实施例中,建模单元不限于整词或子词,还可以包括词干。具体的,对于收集的整词,如果需要的建模单元是子词或词干,则可以对整词进行切词,以得到子词或词干。其中,子词可以具体是词干或词缀。S12:获取所述建模单元的词向量,以及除所述词向量之外的其他特征向量。本实施例中,在提取建模单元的特征向量时,不仅会使用到词向量,还使用其他特征向量。可以理解的是,当建模单元不同,相应的其他特征向量也可以不同。具体的,以黏着语为例,建模单元及对应的其他特征向量可以包括:当所述建模单元是整词时,所述其他特征向量是所述整词包括的词干对应的词干词性向量;当所述建模单元是子词时,所述其他特征向量是所述子词对应的子词属性向量;当所述建模单元是词干时,所述其他特征向量是所述词干对应的词干词性向量。对于上述的词干词性向量或子词属性向量可以根据预先对词干和词缀的标注信息确定。例如,在对整词进行切词得到词干或词缀后,可以对应词干标注词性,如:名词、动词等;对应词缀标注构型属性向量,如:格、态、语气。之后可以根据这些预先标注的信息获取建模单元的词干词性向量或词缀属性向量。进一步的,获取词向量及词干词性向量或词缀属性向量的具体内容可以参见后续描述。S13:根据所述词向量和所述其他特征向量,生成所述建模单元对应的语言模型。在获取到词向量和其他特征向量后,可以将其作为训练数据进行模型训练,生成语言模型。具体的,根据每种建模单元生成对应的语言模型的流程可以具体参见后续描述。本实施例中,通过获取建模单元的词向量之外,还获取了其他特征向量,可以充分利用能够收集到的数据的多种信息,提高构建的语言模型的效果。一些实施例中,建模单元可以是多个,此时,可以对应每种建模单元生成一个语言模型,从而可以生成多个语言模型。在得到多个语言模型时,在测试阶段,可以采用其中的一个或多个计算语言模型得分。例如,当采用一个时,则可以选择任一个语言模型计算语言模型得分。当采用多个时,可以选择任意多个的组合,多个是指至少两个,从而可以根据至少两个语言模型分别计算每个语言模型的得分,再对这至少两个的得分进行插值运算,得到最终的语言模型得分。本实施例中,通过在得到多个语言模型时,可以根据需要选择一个或多个语言模型计算语言模型得分,从而满足不同需求。下面分别对应每种建模单元生成对应的语言模型进行说明。下面将以RNN训练方式为例。但是可以理解的是,训练方式不限于此种方式,还可以是其他神经网络训练,如卷积神经网络(ConvolutionalNeuralNetwork,CNN)、深度神经网络((Deepneuralnetwork,DNN)等。当然,也不限于神经网络训练,还可以是其他训练方式,如N-gram训练。一些实施例中,可以以整词为建模单元进行语言模型构建。参见图2,以整词为建模单元构建语言模型的流程包括:S21:获取整词的词向量,以及所述本文档来自技高网...
语言模型的构建方法和装置

【技术保护点】
一种语言模型的构建方法,其特征在于,包括:确定建模单元;获取所述建模单元的词向量,以及除所述词向量之外的其他特征向量;根据所述词向量和所述其他特征向量,生成所述建模单元对应的语言模型。

【技术特征摘要】
1.一种语言模型的构建方法,其特征在于,包括:确定建模单元;获取所述建模单元的词向量,以及除所述词向量之外的其他特征向量;根据所述词向量和所述其他特征向量,生成所述建模单元对应的语言模型。2.根据权利要求1所述的方法,其特征在于,当所述建模单元为多个时,所述方法还包括:采用所述多个语言模型中的一个或者至少两个计算得到语言模型得分。3.根据权利要求2所述的方法,其特征在于,当采用至少两个语言模型计算得到语言模型得分时,所述语言模型得分是根据所述至少两个语言模型中的每个语言模型对应的得分进行插值运算后得到的。4.根据权利要求1-3任一项所述的方法,其特征在于,当所述语言模型是黏着语语言模型时,所述建模单元和对应的其他特征向量包括:当所述建模单元是整词时,所述其他特征向量是所述整词包括的词干对应的词干词性向量;或者,当所述建模单元是子词时,所述其他特征向量是所述子词对应的子词属性向量;或者,当所述建模单元是词干时,所述其他特征向量是所述词干对应的词干词性向量。5.根据权利要求4所述的方法,其特征在于,获取所述其他特征向量,包括:根据对词干的词性标注信息和/或对词缀的构型属性标注信息,获取所述其他特征向量。6.根据权利要求1-3任一项所述的方法,其特征在于,所述根据所述词向量和所述其他特征向量,生成所述建模单元对应的语言模型,包括:根据所述词向量和所述其他特征向量,通过如下项中的任一项的训练方式,生成对应的语言模型:RNN、CNN、DNN、N-gram。7.一种语言模型的构建...

【专利技术属性】
技术研发人员:方昕刘俊华吴明辉魏思胡国平胡郁刘庆峰
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:安徽,34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1