一种词扩展方法、装置、设备及介质制造方法及图纸

技术编号：21952753 阅读：47 留言：0更新日期：2019-08-24 17:50

本申请实施例公开了一种词扩展方法、装置、设备以及介质，其中，该方法包括：获取待扩展的种子词以及该种子词的上下文；根据该种子词以及该种子词的上下文，通过词扩展模型获取输出向量，该输出向量用于表征候选词库中各个候选词与种子词之间的语义相似度；根据输出向量确定种子词的扩展词。该方法中采用的词扩展模型是利用机器学习算法训练得到的神经网络，该模型在预测过程中既考虑了种子词自身的语义，又考虑了种子词的上下文语义，保证确定出的种子词的扩展词能够符合种子词的上下文语境，从而为各个自然语言处理应用提供能够满足业务需求的信息，提高自然语言处理应用的应用性能。

A Word Extension Method, Device, Equipment and Media

全部详细技术资料下载

【技术实现步骤摘要】
一种词扩展方法、装置、设备及介质
本申请涉及计算机
，尤其涉及一种词扩展方法、装置、设备以及计算机可读存储介质。
技术介绍
目前搜索引擎、计算机辅助写作、自动对话系统等诸多自然语言处理应用中，通常需要对自然语言中的指定词进行同类词扩展，以便基于扩展出的同类词做进一步的操作，提高应用性能。所谓同类词扩展是指，针对一句话中的指定词扩展出与该指定词隐含语义相同或相近的其他词，例如，对于“大麦草富含氨基酸等营养”这句话，针对“氨基酸”这个词可以扩展出与“氨基酸”隐含语义相同或相近的同类词，如“维生素”、“叶绿素”等。现有的同类词扩展技术是集合扩展技术，该集合扩展技术主要是针对一句话中的指定词扩展出属于该指定词的隐含语义类中的词，作为同类词；该集合扩展技术主要是根据一定挖掘规则从大量的语料中挖掘出属于同一语义的同类词，例如将出现在一个句子中的同一行，以分号分隔的多个词挖掘为同类词。但该集合扩展技术并不考虑指定词的上下文语境，导致其扩展出的同类词并不能满足目前的应用需求。举个例子，针对“大麦草富含氨基酸等营养”这句话，利用该集合扩展技术针对“氨基酸”这个词，可能会扩展出“脂肪”这种属于营养类但是并不符合该指定词上下文(大麦草并不含脂肪)的词等。可见，在自然语言处理应用环境中，亟需研究出能够实现基于上下文语境的同类词扩展的方案，以提高各种应用的性能，促进自然语言处理应用技术的发展。
技术实现思路
本申请实施例提供了一种词扩展方法、相关设备以及系统，能够为各个自然语言处理应用提供满足业务需求的信息，提高自然语言处理应用的应用性能。有鉴于此，本申请第一方面提供了一种词扩展...

【技术保护点】
1.一种词扩展方法，其特征在于，包括：获取待扩展的种子词以及获取所述种子词的上下文；根据所述种子词以及所述种子词的上下文，通过词扩展模型获取输出向量，所述输出向量用于表征候选词库中各候选词与所述种子词的语义相似度；所述词扩展模型是神经网络模型，其用于根据种子词对应的词向量以及上下文向量，预测所述候选词库中各候选词与种子词之间的语义相似度；根据所述输出向量确定所述种子词的扩展词。

【技术特征摘要】
1.一种词扩展方法，其特征在于，包括：获取待扩展的种子词以及获取所述种子词的上下文；根据所述种子词以及所述种子词的上下文，通过词扩展模型获取输出向量，所述输出向量用于表征候选词库中各候选词与所述种子词的语义相似度；所述词扩展模型是神经网络模型，其用于根据种子词对应的词向量以及上下文向量，预测所述候选词库中各候选词与种子词之间的语义相似度；根据所述输出向量确定所述种子词的扩展词。2.根据权利要求1所述的方法，其特征在于，所述词扩展模型包括：输入层和预测层；其中，所述输入层包括：种子词编码器和上下文编码器；所述种子词编码器以种子词作为输入且以种子词对应的词向量作为输出；所述上下文编码器以种子词的上下文作为输入，以种子词对应的上下文向量作为输出；所述预测层包括：全连接层和分类层；所述全连接层以种子词的语义特征向量作为输入，以包括候选词库中各候选词与种子词之间的特征相似度的相似度向量作为输出；其中，所述种子词的语义特征向量是根据所述词向量和所述上下文向量拼接生成的向量；所述分类层以所述相似度向量作为输入，以对所述相似度向量归一化后的概率向量作为所述词扩展模型的输出向量。3.根据权利要求1所述的方法，其特征在于，所述根据所述输出向量确定所述种子词的扩展词，包括：根据所述输出向量中元素值的降序排序顺序，从所述候选词库中选择排序靠前的M个元素所对应的候选词，作为所述种子词的扩展词；其中，M为扩展词个数阈值。4.根据权利要求1所述的方法，其特征在于，所述获取待扩展的种子词以及获取所述种子词的上下文，包括：获取查询语句，所述查询语句是指在搜索引擎中输入的用于查询信息的搜索条件；从所述查询语句中提取关键词，作为待扩展的种子词，以及，从所述查询语句中提取所述种子词的上下文；则所述方法还包括：根据所述种子词的扩展词进行信息搜索，以返回搜索结果。5.根据权利要求1所述的方法，其特征在于，所述获取待扩展的种子词以及获取所述种子词的上下文，包括：获取文本语句，所述文本语句是指在文本编辑器中输入的文本信息中的语句；从所述文本语句中提取关键词，作为待扩展的种子词，以及，从所述文本语句中提取所述种子词的上下文；则所述方法还包括：根据所述种子词的扩展词进行信息提示。6.根据权利要求1所述的方法，其特征在于，所述获取待扩展的种子词以及获取所述种子词的上下文，包括：获取问答语句，所述问答语句是指在问答系统输入界面上输入的语句；从所述问答语句中提取关键词，作为待扩展的种子词，以及，从所述问答语句中提取所述种子词的上下文；则所述方法还包括：根据所述种子词的扩展词查找应答内容，并返回所述应答内容。7.一种训练词扩展模型的方法，其特征在于，包括：获取训练样本集，所述训练样本集中每个样本包括：种子词、种子词的上下文以及种子词对应的真实扩展词；构建初始神经网络模型，根据所述训练样本集训练所述初始神经网络模型的参数以得到满足训练结束条件的神经网络模型，作为词扩展模型。8.根据权利要求7所述的方法，其特征在于，所述方法还包括：从自然语料中提取满足训练条件的语句，针对所述...

【专利技术属性】
技术研发人员：韩家龙，宋彦，史树明，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人