当前位置: 首页 > 专利查询>清华大学专利>正文

语言模型的解码方法及解码器技术

技术编号:20546099 阅读:25 留言:0更新日期:2019-03-09 19:01
本发明专利技术实施例提供一种语言模型的解码方法及解码器,该方法包括:根据上下文向量,预测获得每个义原在待预测单词中的出现概率,待预测单词为上下文向量对应的下个单词;根据上下文向量及每个义原在待预测单词中的出现概率,预测获得义原对应的每个词义在待预测单词中的出现概率;对每个词义在待预测单词的出现概率进行边缘化处理,预测获得词义对应的每个目标单词为待预测单词的概率。本发明专利技术实施例通过在语言模型中以义原‑词义‑单词的层次进行解码,获得每个目标单词为待预测单词的概率,与现有技术中仅在词的层面上进行预测相比,由于从义原和词义的层面上充分考虑了单词之间的相互关联,层次化了预测过程,能够提升预测的准确性。

Decoding Method and Decoder of Language Model

The embodiment of the present invention provides a decoding method and a decoder of a language model. The method includes: predicting the occurrence probability of each sememe in the word to be predicted according to the context vector, and predicting the occurrence probability of each sememe in the word to be predicted according to the context vector and the occurrence probability of each sememe in the word to be predicted, and predicting the occurrence probability of each sememe corresponding to each sememe. The probability of occurrence in the word to be predicted; the probability of occurrence of each word meaning in the word to be predicted is marginalized, and the probability of each target word corresponding to the word meaning to be predicted is predicted. The embodiment of the present invention obtains the probability of each target word as a predicted word by decoding the level of the sememe meaning word in the language model. Compared with the existing technology which only predicts at the level of the word, the prediction process is hierarchical and the accuracy of the prediction can be improved by fully considering the correlation between the sememe and the meaning of the word.

【技术实现步骤摘要】
语言模型的解码方法及解码器
本专利技术实施例涉及自然语言处理领域,更具体地,涉及一种语言模型的解码方法及解码器。
技术介绍
随着社会飞速发展,我们已经进入信息爆炸时代,每天都会有海量新的文本数据产生。对自然语言处理的研究旨在实现人与计算机之间使用自然语言进行有效通信的各种理论和方法。得益于深度学习技术的发展,由数据驱动的自然语言处理技术在机器翻译、自动摘要等领域均取得了长足的进步。而在这些任务中,语言模型都起到了至关重要的作用。语言模型的目标是衡量在某种语言中,一段词语序列出现的概率,进而可通过条件概率公式分解为各时刻给定上文词语时出现下一词语的概率的乘积。现有技术中,语言模型的解码方法是在编码输入序列后直接在词层面或字层面进行预测,但这种方法并没有考虑词与词之间先验的语义关联,因此预测结果并不准确。
技术实现思路
为了解决上述问题,本专利技术实施例提供一种克服上述问题或者至少部分地解决上述问题的语言模型的解码方法及解码器。根据本专利技术实施例的第一方面,提供一种语言模型的解码方法,该方法包括:根据上下文向量,预测获得每个义原在待预测单词中的出现概率,待预测单词为上下文向量对应的下个单词;根据上下文向量及每个义原在待预测单词中的出现概率,预测获得义原对应的每个词义在待预测单词中的出现概率;对每个词义在待预测单词的出现概率进行边缘化处理,预测获得词义对应的每个目标单词为待预测单词的概率。根据本专利技术实施例第二方面,提供了一种语言模型的解码器,该解码器包括:义原预测模块,用于根据上下文向量,预测获得每个义原在待预测单词中的出现概率,待预测单词为上下文向量对应的下个单词;词义预测模块,用于根据上下文向量及每个义原在待预测单词中的出现概率,预测获得义原对应的每个词义在待预测单词中的出现概率;单词预测模块,用于对每个词义在待预测单词的出现概率进行边缘化处理,预测获得词义对应的每个目标单词为待预测单词的概率。根据本专利技术实施例的第三方面,提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时实现如第一方面的各种可能的实现方式中任一种可能的实现方式所提供的语言模型的解码方法。根据本专利技术实施例的第四方面,提供了一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面的各种可能的实现方式中任一种可能的实现方式所提供的语言模型的解码方法。本专利技术实施例提供的语言模型的解码方法及解码器,通过在语言模型中以义原-词义-单词的层次进行解码,获得每个目标单词为待预测单词的概率,与现有技术中仅在词的层面上进行预测相比,由于从义原和词义的层面上充分考虑了单词之间的相互关联,层次化了预测过程,有效提升了语言模型的准确性和可解释性,具有良好的实用性。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些图获得其他的附图。图1为本专利技术实施例提供的语言模型的解码方法的流程示意图;图2为本专利技术另一实施例提供的语言模型的解码方法的流程示意图;图3为本专利技术实施例提供的语言模型的解码器的结构示意图;图4为本专利技术实施例提供的电子设备的实体结构示意图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。为了解决现有技术中存在的直接在词层面或字层面上进行预测,而没有考虑词与词之间先验的语义关联导致的预测结果不准确的问题,本专利技术实施例引入“知网”中“义原-词义-单词”的结构关系,层次化预测过程,利用新的预测方法和结构提高语言模型的准确性和可解释性。其中,知网(HowNet)是一个以汉语和英语的词语所代表的概念为描述对象,以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库。义原是最基本的、不易于再分割的意义的最小单位。例如:“人”虽然是一个非常复杂的概念,它可以是多种属性的集合体,但也可以把它看作为一个义原。可设想所有的概念都分解成各种各样的义原。同时也可以设想应该有一个有限的义原集合,其中的义原组合成一个无限的概念集合。如果能够把握这一有限的义原集合,并利用它来描述概念之间的关系以及属性与属性之间的关系,就有可能建立设想的知识系统。中文中的字(包括单纯词)是有限的,并且它可以被用来表达各种各样的单纯的或复杂的概念,以及表达概念与概念之间、概念的属性与属性之间的关系。本专利技术实施例提供一种语言模型的解码方法,该方法能够用于语言模型的解码器,且应当说明的是,该解码器是义原驱动的解码器,并不是传统的线性解码器,该解码器能够在给定上文时对出现的下一单词的概率进行预测。参见图1,该方法包括但不限于:101、根据上下文向量,预测获得每个义原在待预测单词中的出现概率,待预测单词为上下文向量对应的下个单词。其中,上下文即语境、语意,是语言学科(语言学、社会语言学、篇章分析、语用学、符号学等)的概念。具体地,上下文向量即为基于上文或下文获得的向量,本专利技术实施例以基于上文获得的向量为例进行说明。应当说明的是,本专利技术实施例同样可应用于上下文向量为通过下文获得的向量的情况。另外,本专利技术实施例对语言模型所应用的语言的语种不作限定,本专利技术实施例仅以中文为例进行说明。在获得上下文向量后,根据上下文向量去预测每个义原将在待预测单词中出现的概率。待预测单词为上下文向量对应的下个单词,即为根据上文需要去预测的下个单词,而上下文向量是根据上文获得的。例如图2,上下文向量是基于上文“我在果园摘”获得的向量,义原可包括“水果”、“样式值”、“携带”、“电脑”、“特定牌子”和“能”等,可对每一个义原在待预测单词中出现的概率进行预测。102、根据上下文向量及每个义原在待预测单词中的出现概率,预测获得义原对应的每个词义在待预测单词中的出现概率。其中,词义即为词的含义。每个义原可对应多个词义,而每个词义同样可对应于多个义原。例如,义原“水果”可对应于“梨子(水果)”和“苹果(水果)”等多个词义,而词义“苹果(电脑)”可对应于“特定牌子”和“电脑”等多个义原。因此,在根据步骤101获得每个义原在待预测单词中的出现概率后,可以从义原出发,获得每个义原所对应的每个词义在待预测单词中的出现概率。其中,义原对应的每个词义是指全部义原所涉及到的全部词义。例如,义原“水果”、“样式值”、“携带”、“电脑”、“特定牌子”和“能”所对应的词义至少包括“梨子(水果)”、“苹果(水果)”和“苹果(电脑)”。103、对每个词义在待预测单词的出现概率进行边缘化处理,预测获得词义对应的每个目标单词为待预测单词的概率。其中,边缘化处理是一种方法,它要求对一个变量的可能值求和,以确定另一个变量的边缘贡献。由于词义和目标单词是具有关联的,因此在根据步骤102获得每个词义在待预测单词中的出现概率后,可从词义本文档来自技高网...

【技术保护点】
1.一种语言模型的解码方法,其特征在于,包括:根据上下文向量,预测获得每个义原在待预测单词中的出现概率,所述待预测单词为所述上下文向量对应的下个单词;根据所述上下文向量及所述每个义原在待预测单词中的出现概率,预测获得所述义原对应的每个词义在所述待预测单词中的出现概率;对每个所述词义在所述待预测单词的出现概率进行边缘化处理,预测获得所述词义对应的每个目标单词为所述待预测单词的概率。

【技术特征摘要】
1.一种语言模型的解码方法,其特征在于,包括:根据上下文向量,预测获得每个义原在待预测单词中的出现概率,所述待预测单词为所述上下文向量对应的下个单词;根据所述上下文向量及所述每个义原在待预测单词中的出现概率,预测获得所述义原对应的每个词义在所述待预测单词中的出现概率;对每个所述词义在所述待预测单词的出现概率进行边缘化处理,预测获得所述词义对应的每个目标单词为所述待预测单词的概率。2.根据权利要求1所述的方法,其特征在于,所述根据上下文向量,预测获得每个义原在待预测单词中的出现概率之前,还包括:将上文词序列输入至循环神经网络,获得所述循环神经网络输出的所述上下文向量,所述上文词序列是所述待预测单词的上文的词序列。3.根据权利要求1所述的方法,其特征在于,所述根据所述上下文向量及所述每个义原在待预测单词中的出现概率,预测获得所述义原对应的每个词义在所述待预测单词中的出现概率,包括:根据所述上下文向量及所述每个义原在待预测单词中的出现概率,预测获得每个所述义原中包含的每个所述词义在所述待预测单词中的出现概率;对于每个所述词义,将包含于不同的所述义原的所述词义在所述待预测单词中的出现概率求积,获得所述词义在所述待预测单词中的出现概率。4.根据权利要求3所述的方法,其特征在于,所述对每个所述词义在所述待预测单词的出现概率进行边缘化处理,预测获得所述词义对应的每个目标单词为所述待预测单词的概率,包括:对于每个所述目标单词,将对应于不同的所述词义的所述目标单词在所述待预测单词中的出现概率求和,获得所述目标单词为所述待预测单词的概率。5.根据权利要求3所述的方法,其特征在于,每个义原在待预测单词中的出现概率为:qk=σ(gTvk+...

【专利技术属性】
技术研发人员:刘知远顾逸宏闫俊朱昊孙茂松谢若冰林芬林乐宇
申请(专利权)人:清华大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1