自然语言语义识别方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:24252005 阅读:32 留言:0更新日期:2020-05-22 23:48
本申请涉及一种自然语言语义识别方法、装置、计算机设备和存储介质。涉及互联网技术领域。所述方法包括:首先将目标文本的文字向量输入至文本编码器,得到该文本编码器输出的该目标文本的特征向量,该文本编码器包括向量映射层和特征提取层,该特征提取层是由双向长短期记忆神经网络构建的;然后将该目标文本的特征向量输入至相似度计算模型中,得到该相似度计算模型输出的相似度值集合,该相似度值集合包括与多个参考文本一一对应的多个相似度值,每个该相似度值用于指示该目标文本与对应的参考文本之间的相似度;最后根据该相似度值集合对该目标文本进行语义识别。采用本方法能够对文本信息进行语义识别。

Natural language semantic recognition methods, devices, computer equipment and storage media

【技术实现步骤摘要】
自然语言语义识别方法、装置、计算机设备和存储介质
本申请涉及互联网
,特别是涉及一种自然语言语义识别方法、装置、计算机设备和存储介质。
技术介绍
随着互联网技术的发展,网络上的信息越来越多,其中大量的信息是以自然语言的形式存在,自然语言是指一种自然地随文化演化的语言,是人类交流和思维的主要工具。这些自然语言中包含大量有用信息,若能对这些自然语言进行准确的语义识别,那么就可以对自然语言包含的有用信息进行合理利用。其中,这里所谓的语义识别指的是确定自然语言蕴含的语义所属的语义类型,例如,自然语言可以为“我喜欢晴天”,经过语义识别可以确定该自然语言蕴含的语义所属的语义类型为“欢喜”的类型,又例如,自然语言可以为“我不喜欢加班”,经过语义识别可以确定该自然语言蕴含的语义所属的语义类型为“厌恶”。因此,亟需一种自然语言语义识别的方法。
技术实现思路
基于此,有必要针对上述技术问题,提供一种能够对文本信息进行自然语言语义识别的方法、装置、计算机设备和存储介质。第一方面,提供一种自然语言语义识别方法,该方法包括:...

【技术保护点】
1.一种自然语言语义识别方法,其特征在于,所述方法包括:/n将目标文本的文字向量输入至文本编码器,得到所述文本编码器输出的所述目标文本的特征向量,所述文本编码器包括向量映射层和特征提取层,所述向量映射层用于将所述目标文本的文字向量转换为维数增加的向量,所述特征提取层用于对所述维数增加的向量进行语义抽取,获得所述目标文本的特征向量,所述特征提取层是由双向长短期记忆神经网络构建的;/n将所述目标文本的特征向量输入至相似度计算模型中,得到所述相似度计算模型输出的相似度值集合,所述相似度值集合包括与多个参考文本一一对应的多个相似度值,每个所述相似度值用于指示所述目标文本与对应的参考文本之间的相似度;/...

【技术特征摘要】
1.一种自然语言语义识别方法,其特征在于,所述方法包括:
将目标文本的文字向量输入至文本编码器,得到所述文本编码器输出的所述目标文本的特征向量,所述文本编码器包括向量映射层和特征提取层,所述向量映射层用于将所述目标文本的文字向量转换为维数增加的向量,所述特征提取层用于对所述维数增加的向量进行语义抽取,获得所述目标文本的特征向量,所述特征提取层是由双向长短期记忆神经网络构建的;
将所述目标文本的特征向量输入至相似度计算模型中,得到所述相似度计算模型输出的相似度值集合,所述相似度值集合包括与多个参考文本一一对应的多个相似度值,每个所述相似度值用于指示所述目标文本与对应的参考文本之间的相似度;
根据所述相似度值集合对所述目标文本进行语义识别。


2.根据权利要求1所述的方法,其特征在于,所述将目标文本的文字向量输入至文本编码器之前,所述方法还包括:
获取训练样本集合,所述训练样本集合包括多个训练样本,每个所述训练样本包括训练文本的文字向量与训练文本的文本类别;
利用所述训练样本集合对初始神经网络进行训练,得到训练后的神经网络,所述初始神经网络包括初始向量映射层、初始特征提取层和分类层;
将所述训练后的神经网络中除分类层之外的其他层作为所述文本编码器。


3.根据权利要求2所述的方法,其特征在于,所述初始向量映射层是根据词嵌入向量映射法构建的;所述初始特征提取层是根据双向长短期记忆神经网络构建的;所述分类层是根据大裕量损失函数构建的。


4.根据权利要求2所述的方法,其特征在于,所述获取训练样本集合,包括:
获取多个初始训练样本,每个所述初始训练样本包括训练文本和训练文本的文本类别;
对于每个所述初始训练样本,根据字典将所述初始训练样本中的训练文本包含的文字映射为数字序列,并按照预设长度对所述数字序列进行截取处理,得到所述初始训练样本中的训练文本的文字向量,所述字典中存储有文字与数字的对应关系;
根据每个所述初始训练样本中的训练文本的文字向量和每个所述初始训练样本中的训练文本的文本类别,获取所述训练样本集合。


5.根据权利要求4所述的方法,其特征在于,所述对于每个所述初始训练样本,根据字典将所述初始训练样本中的训练文本包含的文字映射为数字序列之前,所述方法还包括:
对于每个所述初始训练样本,将所述初始训练样本中的训练文本包含的文字统一为全角格式或半角格式,以及...

【专利技术属性】
技术研发人员:谢恩宁
申请(专利权)人:浙江大搜车软件技术有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1