This application discloses a word prediction method, device, computer device and storage medium in which the computer device obtains the first context information of the current word for prediction and the word sequence prior to the current word; determines the probability that the predicted word after the current word belongs to multiple different domains based on the current word and the first context information; and for each word In each field, based on the current word and the first context information, it is determined that each word in the vocabulary belongs to the first possibility of the word to be predicted, and that each word in the vocabulary belongs to the second possibility of the word to be predicted according to the probability that the word to be predicted belongs to several different fields and the first possibility that each word in the vocabulary corresponding to each field belongs to the word to be predicted. The scheme of this application can improve the accuracy of predicting the occurrence probability of the next word after a word, and is conducive to improving the accuracy of predicting the occurrence probability of sentences.
【技术实现步骤摘要】
词预测方法、装置、计算机设备及存储介质
本申请涉及数据处理
,尤其涉及一种词预测方法、装置、计算机设备及存储介质。
技术介绍
语言模型在语音识别以及机器翻译等多个领域均有广泛应用。语言模型的作用计算出一个句子出现的概率,以便从多个候选句子中,挑选出最符合人类语言的句子。如,以语音识别场景为例,输入语音可能会被识别出多个候选语句,而这些候选语句有些是带有错误词或者语法的,并不符合人类的语言,在该种情况下,就需要利用语言模型来输出各个候选语句合理性的概率。在语言模型确定一个待预测句子出现概率的过程中,需要将该待预测句子中确定用于预测的当前词,并确定该语言模型的词表中的各个词属于该当前词之后的下一个词(即待预测词)的概率。然而,目前语言模型预测词表中各词属于该当前词之后待预测词的概率的预测准确度普遍偏低,从而使得语言模型确定句子出现概率的准确度较低。
技术实现思路
有鉴于此,本申请提供了一种词预测方法、装置、计算机设备及存储介质,以提高预测某个词之后下一个词出现概率的准确度。为实现上述目的,一方面,本申请提供了一种词预测方法,包括:获取用于预测的当前词以及所述当前词之前的词序列具有的第一上下文信息;基于所述当前词以及第一上下文信息,确定所述当前词之后的待预测词分别属于多个不同领域的概率;针对每个所述领域,基于所述当前词及第一上下文信息,确定词表中各词分别属于所述待预测词的第一可能性,所述第一可能性为在所述待预测词属于所述领域的情况下,所述词表中的词属于所述待预测词的可能性;所述词表为预先构建出的包含多个词的集合;依据所述待预测词分别属于多个不同领域的概率,以及 ...
【技术保护点】
1.一种词预测方法,其特征在于,包括:获取用于预测的当前词以及所述当前词之前的词序列具有的第一上下文信息;基于所述当前词以及第一上下文信息,确定所述当前词之后的待预测词分别属于多个不同领域的概率;针对每个所述领域,基于所述当前词及第一上下文信息,确定词表中各词分别属于所述待预测词的第一可能性,所述第一可能性为在所述待预测词属于所述领域的情况下,所述词表中的词属于所述待预测词的可能性;所述词表为预先构建出的包含多个词的集合;依据所述待预测词分别属于多个不同领域的概率,以及每个领域对应的所述词表中各词分别属于所述待预测词的第一可能性,确定所述词表中各词分别属于所述待预测词的第二可能性。
【技术特征摘要】
1.一种词预测方法,其特征在于,包括:获取用于预测的当前词以及所述当前词之前的词序列具有的第一上下文信息;基于所述当前词以及第一上下文信息,确定所述当前词之后的待预测词分别属于多个不同领域的概率;针对每个所述领域,基于所述当前词及第一上下文信息,确定词表中各词分别属于所述待预测词的第一可能性,所述第一可能性为在所述待预测词属于所述领域的情况下,所述词表中的词属于所述待预测词的可能性;所述词表为预先构建出的包含多个词的集合;依据所述待预测词分别属于多个不同领域的概率,以及每个领域对应的所述词表中各词分别属于所述待预测词的第一可能性,确定所述词表中各词分别属于所述待预测词的第二可能性。2.根据权利要求1所述的词预测方法,其特征在于,所述词表为高频词表,所述高频词表由总词表中被使用频率较高的多个词构成,所述总词表为预先构建出的包含多个词的集合,且,总词表中词的总数量多于所述高频词表中词的总数量;还包括:基于所述当前词以及第一上下文信息,确定低频词表中各词分别属于所述待预测词的第三可能性,所述低频词表由所述总词表中不属于所述高频词表的多个词构成;依据所述高频词表中各词分别属于待预测词的第二可能性以及低频词表中各词分别属于所述待预测词的第三可能性,构建出所述总词表中各词分别属于所述待预测词的可能性。3.根据权利要求1所述词预测方法,其特征在于,在所述确定所述词表中各词分别属于所述待预测词的第二可能性之后,还包括:对所述词表中各词分别属于所述待预测词的第二可能性进行归一化,得到所述词表中各词分别属于所述待预测词的概率分布。4.根据权利要求1至3任一项所述的词预测方法,其特征在于,在所述获取用于预测的当前词以及所述当前词之前的词序列具有的第一上下文信息之后,还包括:基于所述当前词和所述第一上下文信息,确定用于表征所述当前词与所述当前词之前的词序列之间语义关系的第二上下文信息;所述基于所述当前词以及第一上下文信息,确定所述当前词之后的待预测词分别属于多个不同领域的概率,包括:基于所述第二上文信息,确定所述当前词之后的待预测词分别属于多个不同领域的概率;所述针对每个所述领域,基于所述当前词及所述第一上下文信息,确定词表中各词分别属于所述待预测词的第一可能性,包括:针对每个所述领域,基于所述第二上下文信息,确定词表中各词分别属于所述待预测词的第一可能性。5.根据权利要求4所述的词预测方法,其特征在于,所述确定所述当前词之后的待预测词分别属于多个不同领域的概率,包括:利用预先训练的领域分布模型,确定所述当前词之后的待预测词分别属于多个不同领域的概率,所述领域分布模型为基于多个语句样本训练得到的。6.根据权利要求5所述的词预测方法,其特征在于,所述获取用于预测的当前词以及所述当前词之前的词序列具有的第一上下文信息,包括:获取用于预测的当前词的词向量,以及预先训练的语言模型最近一次确定出的第一上下文信息,所述语言模型包括所述领域分布模型以及所述多个不同领域各自对应的预估函数,其中,所述语言模型及所述语言模型中的所述领域分布模型和所述预估函数为通过多个语句样本统一训练得到的;所述针对每个所述领域,基于所述第二上下文信息,确定词表中各词分别属于所述待预测词的第一可能性,包括:将所述第二上下文信息分别输入到各个领域对应的预估函数中,并获得每个预估函数输出的第一可能性分布,所述第一可能性分布包括词表中各词分别属于所述预测词的第一可能性。7.根据权利要求6所述的词预测方法,其特征在于,所述确定所述词表中各词分别属于所述待预测词的第二可能性,包括:基于各个领域对应的概率以及各个领域对应的预估函数输出的第一可能性分布进行加权求和,得到第二可能性分布,所述第二可能性分布包括所述词表中各词分别属于所述待预测词的第二可能性。8.一种词预测装置,其特征在于,包括:输入获取单元,用于获取用于预测的当前词以及所述当前词之前的词序列具有的第一上下文信息;领域预测单元,用于基于所述当前词以及第一上下文信息,确定所述当前词之后的待预测词分别属于多个不同领域的概率;第一预测单元...
【专利技术属性】
技术研发人员:黄羿衡,苏丹,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。