用于压缩语言模型的电子设备、用于提供推荐词的电子设备及其操作方法技术

技术编号:21958986 阅读:63 留言:0更新日期:2019-08-24 22:17
提供了一种用于压缩语言模型的电子设备,该电子设备包括:存储装置,其被配置成存储语言模型,该语言模型包括通过基于包括多个语句的基本数据进行递归神经网络(RNN)训练而生成的嵌入矩阵和softmax矩阵;以及处理器,其被配置成:将嵌入矩阵转换成第一投影矩阵与共享矩阵的乘积,第一投影矩阵与共享矩阵的乘积具有与嵌入矩阵的大小相同的大小,并且将softmax矩阵的转置矩阵转换成第二投影矩阵与共享矩阵的乘积,第二投影矩阵与共享矩阵的乘积具有与softmax矩阵的转置矩阵的大小相同的大小,以及通过基于基本数据而相对于第一投影矩阵、第二投影矩阵和共享矩阵执行RNN训练来更新第一投影矩阵、第二投影矩阵和共享矩阵的元素。

Electronic equipment for compressed language model, electronic equipment for recommendation and its operation method

【技术实现步骤摘要】
【国外来华专利技术】用于压缩语言模型的电子设备、用于提供推荐词的电子设备及其操作方法
本公开涉及用于在使用诸如深度学习等机器学习算法模拟人脑的诸如认知、判断等功能的人工智能(AI)系统中在应用该系统时压缩语言模型的电子设备、用于提供推荐词的电子设备及其操作方法,例如,涉及用于基于针对其执行递归神经网络(RNN)训练的语言模型来压缩语言模型的电子设备、用于提供推荐词的电子设备及其操作方法。
技术介绍
人工智能(AI)系统是体现与人类智能等同的智能的计算机系统,并且不同于基于规则的智能系统,AI系统通过本身训练和判定而变得智能。AI系统使用越多,系统的识别率改进就越多,并且系统变得能够更准确地理解用户偏好。因此,基于规则的智能系统已经被基于深度学习的AI系统代替。AI技术可以配置成具有机器学习(深度学习)和利用机器学习的元素技术。机器学习是指自身分类和学习输入数据的特性的算法技术,并且元素技术是使用诸如深度学习等机器学习算法来复制人脑的诸如人脑的认知、判断等功能的复制技术,并且元素技术包括语言理解、视觉理解、推断/预测、知识表达、操作控制等
AI技术使用并应用于各种领域。语言理解技术可以涉及识别人类语言/文本并应用/处理语言/文本,并且该技术可以包括自然词处理、机器翻译、对话系统、回答问题、语音识别/合成等。视觉理解技术可以涉及将对象识别为人类视觉,并且该技术可以包括识别对象、跟踪对象、搜索图像、识别人、理解场景、理解空间、升级图像等。推断和预测技术可以涉及判定、逻辑推断和预测信息,并且该技术可以包括基于知识/概率的推断、优化预测、基于偏好的计划、推荐等。知识表达技术可以是指将人类经验信息处理成知识数据,并且可以包括知识建立(数据生成/分类)、知识管理(数据利用)等。操作控制技术可以是指控制车辆的自主导航、机器人的运动等,并且可以包括运动控制(导航、碰撞、驾驶等)、操纵控制(行为控制)等。例如,AI系统可以学习各种语句,并且系统可以应用于根据学习的结果来生成语言模型。另外,AI系统可以通过与基于生成的语言模型进行学习的过程类似的过程来提供新词或完成语句。这样的语言模型可以基于学习大量的语句来生成,并且语言模型的维度越高,就可以越多地提高完整性。然而,如果语言模型的维度变得更高,那么语言模型的数据量可以以指数方式增长,并且可能难以在没有足够存储空间的装置中使用语言模型。此外,如果维度级别降低以生成在没有足够存储空间的装置中使用的语言模型,那么性能也可能会降低。因此,需要用于减小数据量并且最小化和/或减小语言模型的性能退化的方法。
技术实现思路
【技术问题】根据本公开的示例实施例的一方面,涉及在没有性能退化的情况下压缩执行了RNN训练的语言模型的电子设备、基于经压缩语言模型而提供推荐词的电子设备及其操作方法。【技术解决方案】根据示例实施例,提供了一种电子设备,该电子设备包括:存储装置,其被配置成存储语言模型,该语言模型包括通过基于包括多个语句的基本数据进行递归神经网络(RNN)训练而生成的嵌入矩阵和softmax矩阵;以及处理器,其被配置成:将嵌入矩阵转换成第一投影矩阵与共享矩阵的乘积,该乘积具有与嵌入矩阵的大小相同的大小,并且将softmax矩阵的转置矩阵转换成第二投影矩阵与共享矩阵的乘积,该乘积具有与softmax矩阵的转置矩阵的大小相同的大小,以及通过基于基本数据而相对于第一投影矩阵、第二投影矩阵和共享矩阵执行RNN训练来更新第一投影矩阵、第二投影矩阵和共享矩阵的元素。处理器可以基于测试模块而相对于第一投影矩阵、第二投影矩阵和共享矩阵来计算(确定)词复杂度;响应于词复杂度等于或大于预定值,获得大小大于共享矩阵的大小的新共享矩阵,并且响应于词复杂度低于预定值,获得大小小于共享矩阵的大小的新共享矩阵;以及使用所获得的新共享矩阵来重新计算第一投影矩阵、第二投影矩阵和共享矩阵。处理器可以包括基于文本模块而相对于嵌入矩阵和softmax矩阵来计算(确定)参考词复杂度,以及基于参考词复杂度而确定预定值。处理器可以使用词复杂度低于预定值的多个共享矩阵之中的最小大小的共享矩阵来重新计算(重新确定)第一投影矩阵、第二投影矩阵和共享矩阵,以及基于重新计算的第一投影矩阵、第二投影矩阵和共享矩阵来生成经压缩语言模型。处理器可以使用奇异值分解(SVD)将共享矩阵转换成第一矩阵、第二矩阵和第三矩阵;通过基于基本数据相对于第一投影矩阵、第二投影矩阵、第一矩阵、第二矩阵和第三矩阵执行RNN训练来更新第一投影矩阵、第二投影矩阵、第一矩阵、第二矩阵和第三矩阵的元素;以及基于更新了元素的第一投影矩阵、第二投影矩阵、第一矩阵、第二矩阵和第三矩阵来生成经压缩语言模型。处理器可以获得第一数据,其中与多个语句中的一者中所包括的第一个词对应的第一矢量基于第一随机矩阵而映射到矢量空间;并且响应于输入该语句中所包括的且在第一个词之后的第二个词,获得第二数据,其中与第二个词对应的第二矢量基于第一随机矩阵而映射到矢量空间;并且基于第一数据和第二数据而生成第三数据;基于第二随机矩阵而从第三数据中获得恢复矢量;基于恢复矢量与对应于第二个词之后的第三个词的第三矢量之间的差异而更新第一随机矩阵和第二随机矩阵的元素并且执行训练。处理器可以基于多个语句中的剩余语句而更新第一随机矩阵和第二随机矩阵的元素,以及将基于剩余语句更新了元素的第一随机矩阵和第二随机矩阵存储在存储装置中作为嵌入矩阵和softmax矩阵。嵌入矩阵和softmax矩阵的转置矩阵可以具有相同的大小。根据示例实施例,提供了一种用于提供推荐词的电子设备,该电子设备包括:存储装置,其被配置成存储语言模型,该语言模型包括被用作嵌入矩阵的第一投影矩阵、第一矩阵、第二矩阵和第三矩阵,以及被用作softmax矩阵的第二投影矩阵、第一矩阵、第二矩阵和第三矩阵;以及处理器,其被配置成:响应于输入第一个词,获得第一数据,其中对应于第一个词的第一矢量基于第一投影矩阵、第一矩阵、第二矩阵和第三矩阵而映射到矢量空间;基于第二投影矩阵、第一矩阵、第二矩阵和第三矩阵而从第一数据获得第二矢量;以及基于第二矢量而提供推荐词。处理器可以响应于在输入第一个词之后输入第二个词,获得第二数据,其中对应于第二个词的第三矢量基于第一投影矩阵、第一矩阵、第二矩阵和第三矩阵而映射到矢量空间;基于第一数据和第二数据而生成第三数据;基于第二投影矩阵、第一矩阵、第二矩阵和第三矩阵而从第三数据获得第四矢量;以及基于第四矢量而提供推荐词。根据示例实施例,提供了一种电子设备压缩语言模型的操作方法,该电子设备中存储有语言模型,该语言模型包括通过基于包括多个语句的基本数据进行递归神经网络(RNN)训练而生成的嵌入矩阵和softmax矩阵,该操作方法包括:将嵌入矩阵转换成第一投影矩阵与共享矩阵的乘积,该乘积具有与嵌入矩阵的大小相同的大小,并且将softmax矩阵的转置矩阵转换成第二投影矩阵与共享矩阵的乘积,该乘积具有与softmax矩阵的转置矩阵的大小相同的大小;以及通过基于基本数据而相对于第一投影矩阵、第二投影矩阵和共享矩阵执行RNN训练来更新第一投影矩阵、第二投影矩阵和共享矩阵的元素。该方法还可以包括:基于测试模块而相对于第一投影矩阵、第二投影矩阵和共享矩阵来计算(确定本文档来自技高网
...

【技术保护点】
1.一种电子设备,配置成压缩语言模型,所述电子设备包括:存储装置,配置成存储语言模型,所述语言模型包括通过基于包括多个语句的基本数据进行递归神经网络RNN训练而生成的嵌入矩阵和softmax矩阵;以及处理器,配置成:将所述嵌入矩阵转换成第一投影矩阵与共享矩阵的乘积,所述第一投影矩阵与所述共享矩阵的乘积具有与所述嵌入矩阵的大小相同的大小,并且将所述softmax矩阵的转置矩阵转换成第二投影矩阵与所述共享矩阵的乘积,所述第二投影矩阵与所述共享矩阵的乘积具有与所述softmax矩阵的所述转置矩阵的大小相同的大小,以及通过基于所述基本数据而相对于所述第一投影矩阵、所述第二投影矩阵和所述共享矩阵执行所述RNN训练来更新所述第一投影矩阵、所述第二投影矩阵和所述共享矩阵的元素。

【技术特征摘要】
【国外来华专利技术】2017.11.08 KR 10-2017-0147922;2017.03.09 US 62/4691.一种电子设备,配置成压缩语言模型,所述电子设备包括:存储装置,配置成存储语言模型,所述语言模型包括通过基于包括多个语句的基本数据进行递归神经网络RNN训练而生成的嵌入矩阵和softmax矩阵;以及处理器,配置成:将所述嵌入矩阵转换成第一投影矩阵与共享矩阵的乘积,所述第一投影矩阵与所述共享矩阵的乘积具有与所述嵌入矩阵的大小相同的大小,并且将所述softmax矩阵的转置矩阵转换成第二投影矩阵与所述共享矩阵的乘积,所述第二投影矩阵与所述共享矩阵的乘积具有与所述softmax矩阵的所述转置矩阵的大小相同的大小,以及通过基于所述基本数据而相对于所述第一投影矩阵、所述第二投影矩阵和所述共享矩阵执行所述RNN训练来更新所述第一投影矩阵、所述第二投影矩阵和所述共享矩阵的元素。2.如权利要求1所述的电子设备,其中所述处理器还配置成:基于测试模块而相对于所述第一投影矩阵、所述第二投影矩阵和所述共享矩阵来确定词复杂度,响应于所述词复杂度等于或大于预定值,获得大小大于所述共享矩阵的大小的新共享矩阵,并且响应于所述词复杂度小于所述预定值,获得大小小于所述共享矩阵的大小的新共享矩阵,以及使用所述新共享矩阵来重新确定所述第一投影矩阵、所述第二投影矩阵和所述共享矩阵。3.如权利要求2所述的电子设备,其中所述处理器还配置成:基于文本模块而相对于所述嵌入矩阵和所述softmax矩阵来确定参考词复杂度,以及基于所述参考词复杂度来确定所述预定值。4.如权利要求3所述的电子设备,其中所述处理器还配置成:使用词复杂度低于所述预定值的多个共享矩阵之中的最小大小的共享矩阵来重新确定所述第一投影矩阵、所述第二投影矩阵和所述共享矩阵,以及基于重新确定的第一投影矩阵、第二投影矩阵和共享矩阵来生成经压缩语言模型。5.如权利要求1所述的电子设备,其中所述处理器还被配置成:使用奇异值分解SVD来将所述共享矩阵转换成第一矩阵、第二矩阵和第三矩阵,通过基于所述基本数据相对于所述第一投影矩阵、所述第二投影矩阵、所述第一矩阵、所述第二矩阵和所述第三矩阵执行所述RNN训练来更新所述第一投影矩阵、所述第二投影矩阵、所述第一矩阵、所述第二矩阵和所述第三矩阵的元素,以及基于具有更新的元素的所述第一投影矩阵、所述第二投影矩阵、所述第一矩阵、所述第二矩阵和所述第三矩阵来生成经压缩语言模型。6.如权利要求1所述的电子设备,其中所述处理器还配置成:获得第一数据,其中与所述多个语句中的一者中所包括的第一个词对应的第一矢量基于第一随机矩阵而映射到矢量空间,并且响应于接收到所述语句中所包括的且在所述第一个词之后的第二个词的输入,获得第二数据,其中与所述第二个词对应的第二矢量基于所述第一随机矩阵而映射到所述矢量空间,基于所述第一数据和所述第二数据而生成第三数据,以及基于第二随机矩阵而从所述第三数据获得恢复矢量,并且基于所述恢复矢量与对应于所述第二个词之后的第三个词的第三矢量之间的差异而更新所述第一随机矩阵和所述第二随机矩阵的元素,并且执行训练。7.如权利要求6所述的电子设备,其中所述处理器还配置成:基于所述多个语句中的剩余语句而更新所述第一随机矩阵和所述第二随机矩阵中的元素,以及将具有基于所述剩余语句更新的元素的所述第一随机矩阵和所述第二随机矩阵存储在所述存储装置中分别作为所述...

【专利技术属性】
技术研发人员:俞承学奈尔什·库尔卡尼宋熙俊李海俊
申请(专利权)人:三星电子株式会社
类型:发明
国别省市:韩国,KR

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1