The embodiment of the present invention provides a decoding method and a decoder of a language model. The method includes: predicting the occurrence probability of each sememe in the word to be predicted according to the context vector, and predicting the occurrence probability of each sememe in the word to be predicted according to the context vector and the occurrence probability of each sememe in the word to be predicted, and predicting the occurrence probability of each sememe corresponding to each sememe. The probability of occurrence in the word to be predicted; the probability of occurrence of each word meaning in the word to be predicted is marginalized, and the probability of each target word corresponding to the word meaning to be predicted is predicted. The embodiment of the present invention obtains the probability of each target word as a predicted word by decoding the level of the sememe meaning word in the language model. Compared with the existing technology which only predicts at the level of the word, the prediction process is hierarchical and the accuracy of the prediction can be improved by fully considering the correlation between the sememe and the meaning of the word.
【技术实现步骤摘要】
语言模型的解码方法及解码器
本专利技术实施例涉及自然语言处理领域,更具体地,涉及一种语言模型的解码方法及解码器。
技术介绍
随着社会飞速发展,我们已经进入信息爆炸时代,每天都会有海量新的文本数据产生。对自然语言处理的研究旨在实现人与计算机之间使用自然语言进行有效通信的各种理论和方法。得益于深度学习技术的发展,由数据驱动的自然语言处理技术在机器翻译、自动摘要等领域均取得了长足的进步。而在这些任务中,语言模型都起到了至关重要的作用。语言模型的目标是衡量在某种语言中,一段词语序列出现的概率,进而可通过条件概率公式分解为各时刻给定上文词语时出现下一词语的概率的乘积。现有技术中,语言模型的解码方法是在编码输入序列后直接在词层面或字层面进行预测,但这种方法并没有考虑词与词之间先验的语义关联,因此预测结果并不准确。
技术实现思路
为了解决上述问题,本专利技术实施例提供一种克服上述问题或者至少部分地解决上述问题的语言模型的解码方法及解码器。根据本专利技术实施例的第一方面,提供一种语言模型的解码方法,该方法包括:根据上下文向量,预测获得每个义原在待预测单词中的出现概率,待预测单词为上下文向量对应的下个单词;根据上下文向量及每个义原在待预测单词中的出现概率,预测获得义原对应的每个词义在待预测单词中的出现概率;对每个词义在待预测单词的出现概率进行边缘化处理,预测获得词义对应的每个目标单词为待预测单词的概率。根据本专利技术实施例第二方面,提供了一种语言模型的解码器,该解码器包括:义原预测模块,用于根据上下文向量,预测获得每个义原在待预测单词中的出现概率,待预测单词为上下文向量对应的下 ...
【技术保护点】
1.一种语言模型的解码方法,其特征在于,包括:根据上下文向量,预测获得每个义原在待预测单词中的出现概率,所述待预测单词为所述上下文向量对应的下个单词;根据所述上下文向量及所述每个义原在待预测单词中的出现概率,预测获得所述义原对应的每个词义在所述待预测单词中的出现概率;对每个所述词义在所述待预测单词的出现概率进行边缘化处理,预测获得所述词义对应的每个目标单词为所述待预测单词的概率。
【技术特征摘要】
1.一种语言模型的解码方法,其特征在于,包括:根据上下文向量,预测获得每个义原在待预测单词中的出现概率,所述待预测单词为所述上下文向量对应的下个单词;根据所述上下文向量及所述每个义原在待预测单词中的出现概率,预测获得所述义原对应的每个词义在所述待预测单词中的出现概率;对每个所述词义在所述待预测单词的出现概率进行边缘化处理,预测获得所述词义对应的每个目标单词为所述待预测单词的概率。2.根据权利要求1所述的方法,其特征在于,所述根据上下文向量,预测获得每个义原在待预测单词中的出现概率之前,还包括:将上文词序列输入至循环神经网络,获得所述循环神经网络输出的所述上下文向量,所述上文词序列是所述待预测单词的上文的词序列。3.根据权利要求1所述的方法,其特征在于,所述根据所述上下文向量及所述每个义原在待预测单词中的出现概率,预测获得所述义原对应的每个词义在所述待预测单词中的出现概率,包括:根据所述上下文向量及所述每个义原在待预测单词中的出现概率,预测获得每个所述义原中包含的每个所述词义在所述待预测单词中的出现概率;对于每个所述词义,将包含于不同的所述义原的所述词义在所述待预测单词中的出现概率求积,获得所述词义在所述待预测单词中的出现概率。4.根据权利要求3所述的方法,其特征在于,所述对每个所述词义在所述待预测单词的出现概率进行边缘化处理,预测获得所述词义对应的每个目标单词为所述待预测单词的概率,包括:对于每个所述目标单词,将对应于不同的所述词义的所述目标单词在所述待预测单词中的出现概率求和,获得所述目标单词为所述待预测单词的概率。5.根据权利要求3所述的方法,其特征在于,每个义原在待预测单词中的出现概率为:qk=σ(gTvk+...
【专利技术属性】
技术研发人员:刘知远,顾逸宏,闫俊,朱昊,孙茂松,谢若冰,林芬,林乐宇,
申请(专利权)人:清华大学,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。