词预测方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:19964408 阅读:19 留言:0更新日期:2019-01-03 12:54
本申请公开了一种词预测方法、装置、计算机设备及存储介质,在该方法中,计算机设备获取用于预测的当前词以及该当前词之前的词序列具有的第一上下文信息;基于当前词及第一上下文信息,确定该当前词之后的待预测词分别属于多个不同领域的概率;针对每个领域,基于该当前词及第一上下文信息,确定词表中各词分别属于该待预测词的第一可能性;依据该待预测词分别属于多个不同领域的概率,以及每个领域对应的词表中各词分别属于待预测词的第一可能性,确定该词表中各词分别属于该待预测词的第二可能性。本申请的方案可以提高预测某个词之后下一个词出现概率的准确度,有利于提高预测语句出现概率的精准度。

Word Prediction Method, Device, Computer Equipment and Storage Media

This application discloses a word prediction method, device, computer device and storage medium in which the computer device obtains the first context information of the current word for prediction and the word sequence prior to the current word; determines the probability that the predicted word after the current word belongs to multiple different domains based on the current word and the first context information; and for each word In each field, based on the current word and the first context information, it is determined that each word in the vocabulary belongs to the first possibility of the word to be predicted, and that each word in the vocabulary belongs to the second possibility of the word to be predicted according to the probability that the word to be predicted belongs to several different fields and the first possibility that each word in the vocabulary corresponding to each field belongs to the word to be predicted. The scheme of this application can improve the accuracy of predicting the occurrence probability of the next word after a word, and is conducive to improving the accuracy of predicting the occurrence probability of sentences.

【技术实现步骤摘要】
词预测方法、装置、计算机设备及存储介质
本申请涉及数据处理
,尤其涉及一种词预测方法、装置、计算机设备及存储介质。
技术介绍
语言模型在语音识别以及机器翻译等多个领域均有广泛应用。语言模型的作用计算出一个句子出现的概率,以便从多个候选句子中,挑选出最符合人类语言的句子。如,以语音识别场景为例,输入语音可能会被识别出多个候选语句,而这些候选语句有些是带有错误词或者语法的,并不符合人类的语言,在该种情况下,就需要利用语言模型来输出各个候选语句合理性的概率。在语言模型确定一个待预测句子出现概率的过程中,需要将该待预测句子中确定用于预测的当前词,并确定该语言模型的词表中的各个词属于该当前词之后的下一个词(即待预测词)的概率。然而,目前语言模型预测词表中各词属于该当前词之后待预测词的概率的预测准确度普遍偏低,从而使得语言模型确定句子出现概率的准确度较低。
技术实现思路
有鉴于此,本申请提供了一种词预测方法、装置、计算机设备及存储介质,以提高预测某个词之后下一个词出现概率的准确度。为实现上述目的,一方面,本申请提供了一种词预测方法,包括:获取用于预测的当前词以及所述当前词之前的词序列具有的第一上下文信息;基于所述当前词以及第一上下文信息,确定所述当前词之后的待预测词分别属于多个不同领域的概率;针对每个所述领域,基于所述当前词及第一上下文信息,确定词表中各词分别属于所述待预测词的第一可能性,所述第一可能性为在所述待预测词属于所述领域的情况下,所述词表中的词属于所述待预测词的可能性;所述词表为预先构建出的包含多个词的集合;依据所述待预测词分别属于多个不同领域的概率,以及每个领域对应的所述词表中各词分别属于所述待预测词的第一可能性,确定所述词表中各词分别属于所述待预测词的第二可能性。在一种可能的实现方式中,所述词表为高频词表,所述高频词表由总词表中被使用频率较高的多个词构成,所述总词表为预先构建出的包含多个词的集合,且,总词表中词的总数量多于所述高频词表中词的总数量;还包括:基于所述当前词以及第一上下文信息,确定低频词表中各词分别属于所述待预测词的第三可能性,所述低频词表由所述总词表中不属于所述高频词表的多个词构成;依据所述高频词表中各词分别属于待预测词的第二可能性以及低频词表中各词分别属于所述待预测词的第三可能性,构建出所述总词表中各词分别属于所述待预测词的可能性。又一方面,本申请还提供了一种词预测装置,包括:输入获取单元,用于获取用于预测的当前词以及所述当前词之前的词序列具有的第一上下文信息;领域预测单元,用于基于所述当前词以及第一上下文信息,确定所述当前词之后的待预测词分别属于多个不同领域的概率;第一预测单元,用于针对每个所述领域,基于所述当前词及第一上下文信息,确定词表中各词分别属于所述待预测词的第一可能性,所述第一可能性为在所述待预测词属于所述领域的情况下,所述词表中的词属于所述待预测词的可能性;所述词表为预先构建出的包含多个词的集合;第二预测单元,用于依据所述待预测词分别属于多个不同领域的概率,以及每个领域对应的所述词表中各词分别属于所述待预测词的第一可能性,确定所述词表中各词分别属于所述待预测词的第二可能性。又一方面,本申请还提供了一种计算机设备,包括:处理器和存储器;其中,所述处理器用于执行所述存储器中存储的程序;所述存储器用于存储程序,所述程序至少用于:获取用于预测的当前词以及所述当前词之前的词序列具有的第一上下文信息;基于所述当前词以及第一上下文信息,确定所述当前词之后的待预测词分别属于多个不同领域的概率;针对每个所述领域,基于所述当前词及第一上下文信息,确定词表中各词分别属于所述待预测词的第一可能性,所述第一可能性为在所述待预测词属于所述领域的情况下,所述词表中的词属于所述待预测词的可能性;所述词表为预先构建出的包含多个词的集合;依据所述待预测词分别属于多个不同领域的概率,以及每个领域对应的所述词表中各词分别属于所述待预测词的第一可能性,确定所述词表中各词分别属于所述待预测词的第二可能性。又一方面,本申请还提供了一种存储介质,所述存储介质中存储有计算机可执行指令,所述计算机可执行指令被处理器加载并执行时,实现如上任一项所述的词预测方法。可见,在本申请实施例中,在获取到用于预测的当前词之后,会根据当前词以及当前词之间的词序列具有的上下文信息,分析该当前词之后的待预测词(当前词的下一个词)属于多个不同领域的概率,并分别确定在该待预测词属于每个领域的情况下,词表中各词属于该待预测词的可能性。由于待预测词所属领域的不同,会对词表中各个词属于该待预测词的可能性产生影响,因此,结合待预测词属于各个领域的概率,以及在待预测词属于不同领域的情况下词表中各词属于该待预测词的可能性,综合确定词表中各词属于该待预测词的可能性,可以提高预测出的词表中各词属于当前词之后下一个词的准确性,从而有利于提高预测该当前词所属句子出现概率的精准度。附图说明为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。图1示出了本申请中词预测系统的组成结构示意图;图2示出了本申请实施例中一种词预测方法的一种流程示意图;图3示出了本申请实施例的一种词预测方法的又一种流程示意图;图4示出了本申请实施例中实现词预测的一种语言模型的组成示意图;图5示出了本申请训练语言模型的一种流程示意图;图6示出了本申请一种词预测方法又一种流程示意图;图7示出了本申请一种词预测方法又一种流程示意图;图8示出了本申请所适用的又一种语言模型的组成示意图;图9示出了本申请的词预测方法所适用的一种应用场景的示意图;图10示出了本申请的词预测装置的一种组成结构示意图;图11示出了本申请的词预测装置的又一种组成结构示意图;图12示出了本申请所适用的一种计算机设备的组成示意图。具体实施方式本申请实施例的方案适用于针对一个语句中的当前词,预测词表中各词作为该当前词之后下一个词且能够与该当前词组成语句的可能性,以提高预测当前词之后的下一个词的概率的准确度,进而有利于提高预测由当前词及下一个词组成的句子的出现概率的准确度。本申请的专利技术人经研究发现:一个词有可能属于一个或者多个不同领域,如,词A可能是工业领域的词,也可能是农业领域的词,还可能是科技领域的词等等。相应的,当前词之后的下一个词也可能属于某一个或者多个领域,而在该下一个词所属的领域不同时,词表中各词属于该待预测词的概率分布也会有所不同,而现有的语言模型在预测过程中,并未考虑下一个词所属的领域,这样必然导致预测出的词表中各词属于该下一个词的概率分布的精准度较低。本申请的专利技术人为了提高预测精度,在预测当前词之后下一个词的过程中,考虑到该下一个词所可能属于的领域,并针对多种领域分别预测词表中各词属于该下一个词的可能性,综合确定出词表中各词属于下一个词的概率分布,使得最终得到的概率分布的精准度较高。为了便于理解本申请的方案,先对本申请的方案所使用的场景进行介绍。如,参见图1,其示出了本申请的方案所使用的一种词预测系统的一种组成架构示意图。由图本文档来自技高网...

【技术保护点】
1.一种词预测方法,其特征在于,包括:获取用于预测的当前词以及所述当前词之前的词序列具有的第一上下文信息;基于所述当前词以及第一上下文信息,确定所述当前词之后的待预测词分别属于多个不同领域的概率;针对每个所述领域,基于所述当前词及第一上下文信息,确定词表中各词分别属于所述待预测词的第一可能性,所述第一可能性为在所述待预测词属于所述领域的情况下,所述词表中的词属于所述待预测词的可能性;所述词表为预先构建出的包含多个词的集合;依据所述待预测词分别属于多个不同领域的概率,以及每个领域对应的所述词表中各词分别属于所述待预测词的第一可能性,确定所述词表中各词分别属于所述待预测词的第二可能性。

【技术特征摘要】
1.一种词预测方法,其特征在于,包括:获取用于预测的当前词以及所述当前词之前的词序列具有的第一上下文信息;基于所述当前词以及第一上下文信息,确定所述当前词之后的待预测词分别属于多个不同领域的概率;针对每个所述领域,基于所述当前词及第一上下文信息,确定词表中各词分别属于所述待预测词的第一可能性,所述第一可能性为在所述待预测词属于所述领域的情况下,所述词表中的词属于所述待预测词的可能性;所述词表为预先构建出的包含多个词的集合;依据所述待预测词分别属于多个不同领域的概率,以及每个领域对应的所述词表中各词分别属于所述待预测词的第一可能性,确定所述词表中各词分别属于所述待预测词的第二可能性。2.根据权利要求1所述的词预测方法,其特征在于,所述词表为高频词表,所述高频词表由总词表中被使用频率较高的多个词构成,所述总词表为预先构建出的包含多个词的集合,且,总词表中词的总数量多于所述高频词表中词的总数量;还包括:基于所述当前词以及第一上下文信息,确定低频词表中各词分别属于所述待预测词的第三可能性,所述低频词表由所述总词表中不属于所述高频词表的多个词构成;依据所述高频词表中各词分别属于待预测词的第二可能性以及低频词表中各词分别属于所述待预测词的第三可能性,构建出所述总词表中各词分别属于所述待预测词的可能性。3.根据权利要求1所述词预测方法,其特征在于,在所述确定所述词表中各词分别属于所述待预测词的第二可能性之后,还包括:对所述词表中各词分别属于所述待预测词的第二可能性进行归一化,得到所述词表中各词分别属于所述待预测词的概率分布。4.根据权利要求1至3任一项所述的词预测方法,其特征在于,在所述获取用于预测的当前词以及所述当前词之前的词序列具有的第一上下文信息之后,还包括:基于所述当前词和所述第一上下文信息,确定用于表征所述当前词与所述当前词之前的词序列之间语义关系的第二上下文信息;所述基于所述当前词以及第一上下文信息,确定所述当前词之后的待预测词分别属于多个不同领域的概率,包括:基于所述第二上文信息,确定所述当前词之后的待预测词分别属于多个不同领域的概率;所述针对每个所述领域,基于所述当前词及所述第一上下文信息,确定词表中各词分别属于所述待预测词的第一可能性,包括:针对每个所述领域,基于所述第二上下文信息,确定词表中各词分别属于所述待预测词的第一可能性。5.根据权利要求4所述的词预测方法,其特征在于,所述确定所述当前词之后的待预测词分别属于多个不同领域的概率,包括:利用预先训练的领域分布模型,确定所述当前词之后的待预测词分别属于多个不同领域的概率,所述领域分布模型为基于多个语句样本训练得到的。6.根据权利要求5所述的词预测方法,其特征在于,所述获取用于预测的当前词以及所述当前词之前的词序列具有的第一上下文信息,包括:获取用于预测的当前词的词向量,以及预先训练的语言模型最近一次确定出的第一上下文信息,所述语言模型包括所述领域分布模型以及所述多个不同领域各自对应的预估函数,其中,所述语言模型及所述语言模型中的所述领域分布模型和所述预估函数为通过多个语句样本统一训练得到的;所述针对每个所述领域,基于所述第二上下文信息,确定词表中各词分别属于所述待预测词的第一可能性,包括:将所述第二上下文信息分别输入到各个领域对应的预估函数中,并获得每个预估函数输出的第一可能性分布,所述第一可能性分布包括词表中各词分别属于所述预测词的第一可能性。7.根据权利要求6所述的词预测方法,其特征在于,所述确定所述词表中各词分别属于所述待预测词的第二可能性,包括:基于各个领域对应的概率以及各个领域对应的预估函数输出的第一可能性分布进行加权求和,得到第二可能性分布,所述第二可能性分布包括所述词表中各词分别属于所述待预测词的第二可能性。8.一种词预测装置,其特征在于,包括:输入获取单元,用于获取用于预测的当前词以及所述当前词之前的词序列具有的第一上下文信息;领域预测单元,用于基于所述当前词以及第一上下文信息,确定所述当前词之后的待预测词分别属于多个不同领域的概率;第一预测单元...

【专利技术属性】
技术研发人员:黄羿衡苏丹
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1