一种词向量构建方法、装置、设备及计算机可读存储介质制造方法及图纸

技术编号:33547155 阅读:28 留言:0更新日期:2022-05-26 22:42
本申请提供一种词向量构建方法、装置、设备及计算机可读存储介质,该方法应用于终端人工智能领域以及对应子领域自然语言处理,该方法包括:获取新词,该新词为未登录词或旧词新义的词汇,并且该新词具有第一语义;基于新词对应的至少一个近义词的词向量,确定各个近义词包含的第二语义的词向量,该第二语义与该第一语义相对应;基于各个近义词包含的第二语义的词向量和近义词的数量,构建新词的词向量;向端侧设备发送新词的词向量。采用本申请,根据去除冗余信息后的近义词的词向量构建新词的词向量,使得该近义词的词向量更贴合该待构建词向量的新词的语义,可以提升构建的词向量的准确性。的准确性。的准确性。

【技术实现步骤摘要】
一种词向量构建方法、装置、设备及计算机可读存储介质


[0001]本申请涉及人工智能领域中的自然语言处理技术,特别涉及一种词向量构建方法、装置、设备及计算机可读存储介质。

技术介绍

[0002]随着人工智能(artificial intelligence,AI)的迅速发展,端侧设备(如手机、智能机器人和蓝牙耳机等)也可以执行自然语言处理(nature language processing,NLP)相关任务。端侧设备主要是通过调用预先从服务器侧下载的词向量库和NLP任务模型来执行NLP任务,换而言之,端侧设备依赖该词向量库来识别待处理语料的语义,进而调用NLP任务模型根据该语义执行NLP任务。可见,当词向量库中不包含待处理语料中的任一词汇时,端侧设备则无法识别该待处理语料,进而无法执行NLP相关任务。例如,词向量库中存在“蓝瘦”这一词汇,当智能问答机器人接收到待处理语料为“今天很蓝瘦”时,智能问答机器人将无法识别此待处理语料。
[0003]服务器通常构建未登录词的词向量的具体操作是:从已有词向量库中确定出与该未登录词的语义最相近的近义词,本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种词向量构建方法,其特征在于,所述方法应用于服务器,所述方法包括:获取新词,所述新词为未登录词或旧词新义的词汇,所述新词具有第一语义,所述未登录词为所述服务器中不存在其词向量的词汇,所述旧词新义的词汇为所述服务器中存在其词向量的词汇,且其词向量指示的语义与所述第一语义不相同;基于所述新词对应的至少一个近义词的词向量,确定各个所述近义词包含的第二语义的词向量,所述第二语义与所述第一语义相对应;基于所述新词对应的近义词的数量和各个所述近义词包含的第二语义的词向量,构建所述新词的词向量;向端侧设备发送所述新词的词向量。2.根据权利要求1所述方法,其特征在于,所述基于所述新词对应的至少一个近义词的词向量,确定各个所述近义词包含的第二语义的词向量,包括:针对所述至少一个近义词中的每个近义词,确定所述近义词是否包含除所述第二语义外的第三语义;若所述近义词包含所述第三语义,则获取所述第三语义对应的词向量;基于所述近义词的词向量和所述第三语义对应的词向量,确定所述近义词包含的所述第二语义的词向量。3.根据权利要求2所述方法,其特征在于,所述方法还包括:若所述近义词不包含所述至少一个第三语义,则确定所述近义词的词向量为所述第二语义的词向量。4.根据权利要求1

3中任一项所述方法,其特征在于,所述基于所述新词对应的近义词的数量和各个所述近义词包含的第二语义的词向量,构建所述新词的词向量,包括:获取各个所述近义词对应的权重值;基于各个所述近义词对应的权重值、所述新词对应的近义词的数量和各个所述近义词包含的第二语义的词向量,构建所述新词的词向量。5.一种语义识别方法,其特征在于,所述方法应用于端侧设备,所述方法包括:接收服务器发送的新词的词向量,所述新词具有第一语义,所述新词为未登录词或旧词新义的词汇,所述未登录词为所述服务器中不存在其词向量的词汇,所述旧词新义的词汇为所述服务器中存在其词向量的词汇,且其词向量指示的语义与所述第一语义不相同;存储所述新词的词向量于第二词向量库;切分待处理语料,得到至少一个分词;若第一目标词汇在第一词向量库具有第一词向量,且所述第一目标词汇在第二词向量库中具有第二词向量,则基于所述第一词向量或所述第二词向量确定所述待处理语料对应的语言概率,所述第一目标词汇为所述至少一个分词中的任意一个词汇;基于所述语言概率确定所述第一词向量或所述第二词向量作为第一目标词汇在所述待处理语料中对应的词向量。6.根据权利要求5所述方法,其特征在于,所述方法还包括:若所述第一目标词汇在所述第一词向量库不具有词向量,且所述第一目标词汇在所述第二词向量库中具有词向量,则确定所述第一目标词汇在所述第二词向量库中词向量为所述第一目标词汇在所述待处理语料中对应的词向量。
7.根据权利要求5或6所述方法,其特征在于,所述基于所述第一词向量或所述第二词向量确定所述待处理语料对应的语言概率,包括:基于所述第一词向量和第二目标词汇在所述第一词向量库中的词向量,调用语言模型,确定所述待处理语料对应的语言概率,所述第二目标词汇为所述至少一个分词中除所述第一目标词汇之外的词汇;所述基于所述语言概率确定所述第一词向量或所述第二词向量作为第一目标词汇在所述待处理语料中对应的词向量,包括:若所述语言概率小于概率阈值,则确定所述第二词向量作为第一目标词汇在所述待处理语料中对应的词向量;若所述语言概率大于或等于所述概率阈值,则确定所述第一词向量作为第一目标词汇在所述待处理语料中对应的词向量。8.根据权利要求5或6所述方法,其特征在于,所述基于所述第一词向量或所述第二词向量确定所述待处理语料对应的语言概率,包括:基于所述第二词向量和第二目标词汇在所述第一词向量库中的词向量,调用语言模型,确定所述待处理语料对应的语言概率,所述第二目标词汇为所述至少一个分词中除所述第一目标词汇之外的词汇;所述基于所述语言概率确定所述第一词向量或所述第二词向量作为第一目标词汇在所述待处理语料中对应的词向量,包括:若所述语言概率大于或等于概率阈值,则确定所述第二词向量作为第一目标词汇在所述待处理语料中对应的词向量;若所述语言概率小于所述概率阈值,则确定所述第一词向量作为第一目标词汇在所述待处理语料中对应的词向量。9.一种词向量构建装置,其特征在于,所述装置配置于服务器,所述装置包括:获取单元,用于获取新词,所述新词为未登录词或旧词新义的词汇,所述新词具有第一语义,所述未登录词为所述服务器中不存在其词向量的词汇,所述旧词新义的词汇为所述服...

【专利技术属性】
技术研发人员:兰国兴许娟婷张少永
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1