一种词扩展方法、装置、设备及介质制造方法及图纸

技术编号:21952753 阅读:47 留言:0更新日期:2019-08-24 17:50
本申请实施例公开了一种词扩展方法、装置、设备以及介质,其中,该方法包括:获取待扩展的种子词以及该种子词的上下文;根据该种子词以及该种子词的上下文,通过词扩展模型获取输出向量,该输出向量用于表征候选词库中各个候选词与种子词之间的语义相似度;根据输出向量确定种子词的扩展词。该方法中采用的词扩展模型是利用机器学习算法训练得到的神经网络,该模型在预测过程中既考虑了种子词自身的语义,又考虑了种子词的上下文语义,保证确定出的种子词的扩展词能够符合种子词的上下文语境,从而为各个自然语言处理应用提供能够满足业务需求的信息,提高自然语言处理应用的应用性能。

A Word Extension Method, Device, Equipment and Media

【技术实现步骤摘要】
一种词扩展方法、装置、设备及介质
本申请涉及计算机
,尤其涉及一种词扩展方法、装置、设备以及计算机可读存储介质。
技术介绍
目前搜索引擎、计算机辅助写作、自动对话系统等诸多自然语言处理应用中,通常需要对自然语言中的指定词进行同类词扩展,以便基于扩展出的同类词做进一步的操作,提高应用性能。所谓同类词扩展是指,针对一句话中的指定词扩展出与该指定词隐含语义相同或相近的其他词,例如,对于“大麦草富含氨基酸等营养”这句话,针对“氨基酸”这个词可以扩展出与“氨基酸”隐含语义相同或相近的同类词,如“维生素”、“叶绿素”等。现有的同类词扩展技术是集合扩展技术,该集合扩展技术主要是针对一句话中的指定词扩展出属于该指定词的隐含语义类中的词,作为同类词;该集合扩展技术主要是根据一定挖掘规则从大量的语料中挖掘出属于同一语义的同类词,例如将出现在一个句子中的同一行,以分号分隔的多个词挖掘为同类词。但该集合扩展技术并不考虑指定词的上下文语境,导致其扩展出的同类词并不能满足目前的应用需求。举个例子,针对“大麦草富含氨基酸等营养”这句话,利用该集合扩展技术针对“氨基酸”这个词,可能会扩展出“脂肪”这种属于营养类但是并不符合该指定词上下文(大麦草并不含脂肪)的词等。可见,在自然语言处理应用环境中,亟需研究出能够实现基于上下文语境的同类词扩展的方案,以提高各种应用的性能,促进自然语言处理应用技术的发展。
技术实现思路
本申请实施例提供了一种词扩展方法、相关设备以及系统,能够为各个自然语言处理应用提供满足业务需求的信息,提高自然语言处理应用的应用性能。有鉴于此,本申请第一方面提供了一种词扩展方法,所述方法包括:获取待扩展的种子词以及获取所述种子词的上下文;根据所述种子词以及所述种子词的上下文,通过词扩展模型获取输出向量,所述输出向量用于表征候选词库中各候选词与所述种子词的语义相似度;所述词扩展模型是神经网络模型,其用于根据种子词对应的词向量以及上下文向量,预测所述候选词库中各候选词与种子词之间的语义相似度;根据所述输出向量确定所述种子词的扩展词。本申请第二方面提供了一种训练词扩展模型的方法,所述方法包括:获取训练样本集,所述训练样本集中每个样本包括:种子词、种子词的上下文以及种子词对应的真实扩展词;构建初始神经网络模型,根据所述训练样本集训练所述初始神经网络模型的参数以得到满足训练结束条件的神经网络模型,作为词扩展模型。本申请第三方面提供了一种词扩展装置,所述装置包括:第一获取模块,用于获取待扩展的种子词以及获取所述种子词的上下文;第二获取模块,用于根据所述种子词以及所述种子词的上下文,通过词扩展模型获取输出向量,所述输出向量用于表征候选词库中各候选词与所述种子词的语义相似度;所述词扩展模型是神经网络模型,其用于根据种子词对应的词向量以及上下文向量,预测所述候选词库中各候选词与种子词之间的语义相似度;确定模块,用于根据所述输出向量确定所述种子词的扩展词。本申请第四方面提供了一种训练词扩展模型的装置,包括:获取模块,用于获取训练样本集,所述训练样本集中每个样本包括:种子词、种子词的上下文以及种子词对应的真实扩展词;构建模块,用于构建初始神经网络模型,根据所述训练样本集训练所述初始神经网络模型的参数以得到满足训练结束条件的神经网络模型,作为词扩展模型。本申请第五方面提供了一种设备,所述设备包括处理器以及存储器:所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;所述处理器用于根据所述程序代码中的指令,执行如上述第一方面所述的词扩展方法的步骤,或者如上述第二方面所述的训练词扩展模型的步骤。本申请第六方面提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行上述第一方面所述的词扩展方法的步骤,或者如上述第二方面所述的训练词扩展模型的步骤。本申请第七方面提供了一种包括指令的计算机程序产品,当其在计算机上运行时,使得所述计算机执行上述第一方面所述的词扩展方法的步骤,或者如上述第二方面所述的训练词扩展模型的步骤。从以上技术方案可以看出,本申请实施例具有以下优点:本申请实施例中,提供了一种词扩展方法,在该方法中提出了利用词扩展模型针对待扩展的种子词预测出对应的扩展词,该词扩展模型是利用机器学习算法训练得到的神经网络,通过神经网络针对待扩展的种子词和其上下文中的信息编码为两个向量,即词向量和上下文向量,使用这两个向量在候选词库中预测出该种子词可能的扩展词。由于在预测过程中既考虑了种子词自身的语义,还引入了该种子词上下文的语义,从而保证上下文语境会影响到最终产生的扩展词,使得利用该词扩展模型预测出的扩展词能够符合种子词的上下文语境,从而能够为各自然语言处理应用提供满足业务需求的信息,以提高自然语言处理应用的应用性能。附图说明图1为本申请实施例中一种词扩展方法的应用场景示意图;图2为本申请实施例中一种词扩展方法的流程示意图;图3为本申请实施例中一种词扩展模型的架构示意图;图4为本申请实施例中一种训练词扩展模型的方法的流程示意图;图5为本申请实施例中一种词扩展模型训练过程的架构示意图;图6为本申请实施例中另一种词扩展方法的应用场景示意图;图7为本申请实施例中第一种词扩展装置的结构示意图;图8为本申请实施例中第二种词扩展装置的结构示意图;图9为本申请实施例中第三种词扩展装置的结构示意图;图10为本申请实施例中第四种词扩展装置的结构示意图;图11为本申请实施例中第一种训练词扩展模型的装置的结构示意图;图12为本申请实施例中第二种训练词扩展模型的装置的结构示意图;图13为本申请实施例中一种词扩展设备的结构示意图;图14为本申请实施例中另一种词扩展设备的结构示意图。具体实施方式为了使本
的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。采用现有的集合扩展技术进行同类词扩展时,经常容易出现扩展出的同类词不符合指定词的上下文语境,扩展出的同类词无法满足实际应用需求等技术问题。为了解决上述现有的同类词扩展技术存在的问题,本申请实施例提供了一种词扩展方法。下面先对本申请实施例提供的词扩展方法的核心技术思路进行介绍:本申请实施例提供的词扩展方法中提供了一种新的词扩展模型,该词扩展模型能够根据待扩展的种子词的词向量和该种子词的上下文向量,确定候选词库中各个候选词与待扩本文档来自技高网
...

【技术保护点】
1.一种词扩展方法,其特征在于,包括:获取待扩展的种子词以及获取所述种子词的上下文;根据所述种子词以及所述种子词的上下文,通过词扩展模型获取输出向量,所述输出向量用于表征候选词库中各候选词与所述种子词的语义相似度;所述词扩展模型是神经网络模型,其用于根据种子词对应的词向量以及上下文向量,预测所述候选词库中各候选词与种子词之间的语义相似度;根据所述输出向量确定所述种子词的扩展词。

【技术特征摘要】
1.一种词扩展方法,其特征在于,包括:获取待扩展的种子词以及获取所述种子词的上下文;根据所述种子词以及所述种子词的上下文,通过词扩展模型获取输出向量,所述输出向量用于表征候选词库中各候选词与所述种子词的语义相似度;所述词扩展模型是神经网络模型,其用于根据种子词对应的词向量以及上下文向量,预测所述候选词库中各候选词与种子词之间的语义相似度;根据所述输出向量确定所述种子词的扩展词。2.根据权利要求1所述的方法,其特征在于,所述词扩展模型包括:输入层和预测层;其中,所述输入层包括:种子词编码器和上下文编码器;所述种子词编码器以种子词作为输入且以种子词对应的词向量作为输出;所述上下文编码器以种子词的上下文作为输入,以种子词对应的上下文向量作为输出;所述预测层包括:全连接层和分类层;所述全连接层以种子词的语义特征向量作为输入,以包括候选词库中各候选词与种子词之间的特征相似度的相似度向量作为输出;其中,所述种子词的语义特征向量是根据所述词向量和所述上下文向量拼接生成的向量;所述分类层以所述相似度向量作为输入,以对所述相似度向量归一化后的概率向量作为所述词扩展模型的输出向量。3.根据权利要求1所述的方法,其特征在于,所述根据所述输出向量确定所述种子词的扩展词,包括:根据所述输出向量中元素值的降序排序顺序,从所述候选词库中选择排序靠前的M个元素所对应的候选词,作为所述种子词的扩展词;其中,M为扩展词个数阈值。4.根据权利要求1所述的方法,其特征在于,所述获取待扩展的种子词以及获取所述种子词的上下文,包括:获取查询语句,所述查询语句是指在搜索引擎中输入的用于查询信息的搜索条件;从所述查询语句中提取关键词,作为待扩展的种子词,以及,从所述查询语句中提取所述种子词的上下文;则所述方法还包括:根据所述种子词的扩展词进行信息搜索,以返回搜索结果。5.根据权利要求1所述的方法,其特征在于,所述获取待扩展的种子词以及获取所述种子词的上下文,包括:获取文本语句,所述文本语句是指在文本编辑器中输入的文本信息中的语句;从所述文本语句中提取关键词,作为待扩展的种子词,以及,从所述文本语句中提取所述种子词的上下文;则所述方法还包括:根据所述种子词的扩展词进行信息提示。6.根据权利要求1所述的方法,其特征在于,所述获取待扩展的种子词以及获取所述种子词的上下文,包括:获取问答语句,所述问答语句是指在问答系统输入界面上输入的语句;从所述问答语句中提取关键词,作为待扩展的种子词,以及,从所述问答语句中提取所述种子词的上下文;则所述方法还包括:根据所述种子词的扩展词查找应答内容,并返回所述应答内容。7.一种训练词扩展模型的方法,其特征在于,包括:获取训练样本集,所述训练样本集中每个样本包括:种子词、种子词的上下文以及种子词对应的真实扩展词;构建初始神经网络模型,根据所述训练样本集训练所述初始神经网络模型的参数以得到满足训练结束条件的神经网络模型,作为词扩展模型。8.根据权利要求7所述的方法,其特征在于,所述方法还包括:从自然语料中提取满足训练条件的语句,针对所述...

【专利技术属性】
技术研发人员:韩家龙宋彦史树明
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1