自然语言的语义提取方法及装置制造方法及图纸

技术编号:18458744 阅读:27 留言:0更新日期:2018-07-18 12:41
本发明专利技术实施例公开了一种自然语言的语义提取方法及装置,所述方法包括:在字符库中基于单字符粒度查询输入的自然语言中每一个字符,得到表征每一个所述字符各种语义描述的第一语义向量;神经网络组合排列所述第一语义向量,获得所述第一语义向量不同排列组合对应的各种第二语义向量;获取各所述第二语义向量对应的备选语义意图及所述备选语义意图对应的权重向量;选择出符合预设条件的所述备选语义意图作为所述自然语言的最终语义意图,并根据所述最终语义意图对应的权重向量,得到所述最终语义意图对应的关键信息。

The method and device for the semantic extraction of natural language

An embodiment of the invention discloses a method and device for the semantic extraction of a natural language. The method includes: each character in a natural language which is input in a character base based on a single character granularity, and obtains the first semantic vector that characterizing the various semantic descriptions of each of the characters; the neural network is combined to arrange the first language. A semantic vector, obtaining various second semantic vectors corresponding to the different combinations of the first semantic vectors; obtaining the alternative semantic intent corresponding to the second semantic vectors and the weight vectors corresponding to the intended semantic intent; selecting the alternative semantic intent that conforms to the preset condition as the final language of the natural language. According to the final intention, the key information corresponding to the final semantic intention is obtained according to the weight vector corresponding to the final semantic intention.

【技术实现步骤摘要】
自然语言的语义提取方法及装置
本专利技术涉及信息
,尤其涉及一种自然语言的语义提取方法及装置。
技术介绍
随着技术的发展,用户利用自然语言进行信息搜索或指示设备执行特定的操作。这样就涉及到设备要如何识别自然语言,准确提取到用户意图,并执行。例如,语音搜索的应用场景,输入的用户输入的语音,用户的语言被转换成自然语言之后,需要提取语义。在现有技术中对中文语音识别,主要采用的是中文分词进行识别,对输入的一个中文语句,根据样本词的概率,进行语句分割;然后基于正则表达式进行语义的机械提取。然而由于中文的庞大语系及语音的不断发展,导致识别困难大及识别精确度不稳定等问题。现有技术中一般采用正则表达式加识别模板进行提取,但是基于正则表达式进行匹配识别,会忽略正则表达式中无需匹配部分的含义,导致提取语义错误高的问题。
技术实现思路
有鉴于此,本专利技术实施例期望提供一种自然语言的语义提取方法及装置,以提升自然语言的语义提取的正确率和精确度。为达到上述目的,本专利技术的技术方案是这样实现的:本专利技术实施例第一方面提供一种自然语言的语义提取方法,包括:在字符库中基于单字符粒度查询输入的自然语言中每一个字符,得到表征每一个所述字符各种语义描述的第一语义向量;神经网络组合排列所述第一语义向量,获得所述第一语义向量不同排列组合对应的各种第二语义向量;获取各所述第二语义向量对应的备选语义意图及所述备选语义意图对应的权重向量;选择出符合预设条件的所述备选语义意图作为所述自然语言的最终语义意图,并根据所述最终语义意图对应的权重向量,得到所述最终语义意图对应的关键信息。基于上述方案,所述神经网络组合排列所述第一语义向量获得第二语义向量,包括:根据所述自然语言中所述字符的排列,组合形成至少一个所述第二语义向量,其中,所述第二语义向量,由在所述自然语言中连续分布的M个字符对应的第一语义向量组成,所述M为1或大于1的整数。基于上述方案,所述根据所述自然语言中所述字符的排列,组合形成至少一个所述第二语义向量,包括:利用N*M的卷积窗口,对按照字符在所述自然语言排列顺序输入的第一语义向量进行卷积处理,形成卷积向量;其中,所述N为正整数;所述M为所述第一语义向量的维度。基于上述方案,所述获取各所述第二语义向量对应的备选语义意图及所述备选语义意图对应的权重向量,包括:排列组合所述第二语义向量,得到第三语义向量;根据所述第二语义向量的语义描述获得的所述权重向量;根据所述第三语义向量中所述第二语义向量的语义描述,及多个所述第二语义向量的语义描述之间的依赖关系,输出所述第三语义向量对应的且表征所述备选语义意图的第四语义向量。基于上述方案,所述选择出符合预设条件的所述备选语义意图作为所述自然语言的最终语义意图,包括:利用分类器对各所述第四语义向量进行分类,得到所述最终语义意图。基于上述方案,所述根据所述最终语义意图对应的权重向量,得到所述最终语义意图对应的关键信息,包括:根据所述第四语义向量对应的所述第二语义向量的对应关系,及所述第二语义向量与权重向量的对应关系,确定提取所述关键信息的权重向量;根据所述权重向量中各个权值,选择权重满足预设关系的所述第二语义向量对应的字符作为所述关键信息输出。基于上述方案,所述神经网络组合排列所述第一语义向量,获得所述第一语义向量不同排列组合对应的各种第二语义向量,包括:将所述第一语义向量输入到卷积网,生成卷积向量及所述卷积向量对应的权重向量;所述获取各所述第二语义向量对应的备选语义意图及所述备选语义意图对应的权重向量,包括:将所述卷积向量输入到高速连接网,生成混合向量;将所述混合向量输入到长短记忆网,生成依赖关系向量;所述选择出符合预设条件的所述备选语义意图作为所述自然语言的最终语义意图,并根据所述最终语义意图对应的权重向量,得到所述最终语义意图对应的关键信息,包括:将所述依赖关系向量输入到分类器,获得所述分类结果;根据所述分类结果输出所述语义意图;基于所述权重向量中权重输出所述关键信息。基于上述方案,所述方法还包括:预先生成所述字符库,其中,所述字符库包括:语义表;其中,所述语义表包括字符与所述字符的语义描述之间的对应关系;利用样本数据训练所述神经网络;获取所述神经网络的运行日志;根据所述运行日志校正所述神经网络。基于上述方案,所述预先生成所述字符库,包括:获取字符,所述字符包括:中文标准汉字符集、中外文标点符号及外文字符;获得所述字符的语义描述;建立所述字符与所述字符的语义描述的所述语义表。基于上述方案,所述获得所述字符的语义描述,包括:从预定渠道获取文本资料;从所述文本资料中获取字符,根据所述字符所在的上下文关系,确定所述字符的语义描述。本专利技术实施例第二方面提供一种自然语言的语义提取装置,包括:查询单元,用于在字符库中基于单字符粒度查询输入的自然语言中每一个字符,得到表征每一个所述字符各种语义描述的第一语义向量;第一获取单元,用于神经网络组合排列所述第一语义向量,获得所述第一语义向量不同排列组合对应的各种第二语义向量;第二获取单元,用于获取各所述第二语义向量对应的备选语义意图及所述备选语义意图对应的权重向量;选择确定单元,用于选择出符合预设条件的所述备选语义意图作为所述自然语言的最终语义意图,并根据所述最终语义意图对应的权重向量,得到所述最终语义意图对应的关键信息。基于上述方案,所述第一获取单元,具体用于根据所述自然语言中所述字符的排列,组合形成至少一个所述第二语义向量,其中,所述第二语义向量,由在所述自然语言中连续分布的M个字符对应的第一语义向量组成,所述M为1或大于1的整数。基于上述方案,所述第一获取单元,具体用于利用N*M的卷积窗口,对按照字符在所述自然语言排列顺序输入的第一语义向量进行卷积处理,形成卷积向量;其中,所述N为正整数;所述M为所述第一语义向量的维度。基于上述方案,所述第二获取单元,具体用于排列组合所述第二语义向量,得到第三语义向量;根据所述第二语义向量的语义描述获得的所述权重向量;根据所述第三语义向量中所述第二语义向量的语义描述,及多个所述第二语义向量的语义描述之间的依赖关系,输出所述第三语义向量对应的且表征所述备选语义意图的第四语义向量。基于上述方案,所述选择确定单元,具体用于利用分类器对各所述第四语义向量进行分类,得到所述最终语义意图。基于上述方案,所述选择确定单元,具体用于根据所述第四语义向量对应的所述第二语义向量的对应关系,及所述第二语义向量与权重向量的对应关系,确定提取所述关键信息的权重向量;根据所述权重向量中各个权值,选择权重满足预设关系的所述第二语义向量对应的字符作为所述关键信息输出。基于上述方案,所述第一获取单元,具体用于将所述第一语义向量输入到卷积网,生成卷积向量及所述卷积向量对应的权重向量;所述第二获取单元,具体用于将所述卷积向量输入到高速连接网,生成混合向量;将所述混合向量输入到长短记忆网,生成依赖关系向量;所述选择确定单元,具体用于将所述依赖关系向量输入到分类器,获得所述分类结果;根据所述分类结果输出所述语义意图;基于所述权重向量中权重输出所述关键信息。基于上述方案,所述装置还包括:生成单元,用于预先生成所述字符库,其中,所述字符库包括:语义表;其中,所述语义表包括字符与所本文档来自技高网...

【技术保护点】
1.一种自然语言的语义提取方法,其特征在于,包括:在字符库中基于单字符粒度查询输入的自然语言中每一个字符,得到表征每一个所述字符各种语义描述的第一语义向量;神经网络组合排列所述第一语义向量,获得所述第一语义向量不同排列组合对应的各种第二语义向量;获取各所述第二语义向量对应的备选语义意图及所述备选语义意图对应的权重向量;选择出符合预设条件的所述备选语义意图作为所述自然语言的最终语义意图,并根据所述最终语义意图对应的权重向量,得到所述最终语义意图对应的关键信息。

【技术特征摘要】
1.一种自然语言的语义提取方法,其特征在于,包括:在字符库中基于单字符粒度查询输入的自然语言中每一个字符,得到表征每一个所述字符各种语义描述的第一语义向量;神经网络组合排列所述第一语义向量,获得所述第一语义向量不同排列组合对应的各种第二语义向量;获取各所述第二语义向量对应的备选语义意图及所述备选语义意图对应的权重向量;选择出符合预设条件的所述备选语义意图作为所述自然语言的最终语义意图,并根据所述最终语义意图对应的权重向量,得到所述最终语义意图对应的关键信息。2.根据权利要求1所述的方法,其特征在于,所述神经网络组合排列所述第一语义向量获得第二语义向量,包括:根据所述自然语言中所述字符的排列,组合形成至少一个所述第二语义向量,其中,所述第二语义向量,由在所述自然语言中连续分布的M个字符对应的第一语义向量组成,所述M为1或大于1的整数。3.根据权利要求2所述的方法,其特征在于,所述根据所述自然语言中所述字符的排列,组合形成至少一个所述第二语义向量,包括:利用N*M的卷积窗口,对按照字符在所述自然语言排列顺序输入的第一语义向量进行卷积处理,形成卷积向量;其中,所述N为正整数;所述M为所述第一语义向量的维度。4.根据权利要求2所述的方法,其特征在于,所述获取各所述第二语义向量对应的备选语义意图及所述备选语义意图对应的权重向量,包括:排列组合所述第二语义向量,得到第三语义向量;根据所述第二语义向量的语义描述获得的所述权重向量;根据所述第三语义向量中所述第二语义向量的语义描述,及多个所述第二语义向量的语义描述之间的依赖关系,输出所述第三语义向量对应的且表征所述备选语义意图的第四语义向量。5.根据权利要求4所述的方法,其特征在于,所述选择出符合预设条件的所述备选语义意图作为所述自然语言的最终语义意图,包括:利用分类器对各所述第四语义向量进行分类,得到所述最终语义意图。6.根据权利要求5所述的方法,其特征在于,所述根据所述最终语义意图对应的权重向量,得到所述最终语义意图对应的关键信息,包括:根据所述第四语义向量对应的所述第二语义向量的对应关系,及所述第二语义向量与权重向量的对应关系,确定提取所述关键信息的权重向量;根据所述权重向量中各个权值,选择权重满足预设关系的所述第二语义向量对应的字符作为所述关键信息输出。7.根据权利要求1至6任一项所述的方法,其特征在于,所述神经网络组合排列所述第一语义向量,获得所述第一语义向量不同排列组合对应的各种第二语义向量,包括:将所述第一语义向量输入到卷积网,生成卷积向量及所述卷积向量对应的权重向量;所述获取各所述第二语义向量对应的备选语义意图及所述备选语义意图对应的权重向量,包括:将所述卷积向量输入到高速连接网,生成混合向量;将所述混合向量输入到长短记忆网,生成依赖关系向量;所述选择出符合预设条件的所述备选语义意图作为所述自然语言的最终语义意图,并根据所述最终语义意图对应的权重向量,得到所述最终语义意图对应的关键信息,包括:将所述依赖关系向量输入到分类器,获得所述分类结果;根据所述分类结果输出所述语义意图;基于所述权重向量中权重输出所述关键信息。8.根据权利要求1至6任一项所述的方法,其特征在于,所述方法还包括:预先生成所述字符库,其中,所述字符库包括:语义表;其中,所述语义表包括字符与所述字符的语义描述之间的对应关系;利用样本数据训练所述神经网络;获取所述神经网络的运行日志;根据所述运行日志校正所述神经网络。9.根据权利要求8所述的方法,其特征在于,所述预先生成所述字符库,包括:获取字符,所述字符包括:中文标准汉字符集、中外文标点符号及外文字符;获得所述字符的语义描述;建立所述字符与所述字符的语义描述的所述语义表。...

【专利技术属性】
技术研发人员:项小明王飞廖玲冯晓冰徐浩
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1