【技术实现步骤摘要】
命名实体识别方法、装置、设备及介质
本专利技术涉及人工智能
,特别是涉及一种命名实体识别方法、装置、设备及介质。
技术介绍
人机会话是人工智能领域的一个子方向,通俗的讲就是让人可以通过人类的语言(即自然语言)与计算机例如人机会话系统进行交互。通过人与人机会话系统的交互,能够使人机会话系统理解人的意图和需求,从而完成歌曲搜索、购物下单,设备的控制等任务。然而,现有的对话系统中关于命名实体识别由于标注数据少、数据标注难度大、数据标注不规范,同时,传统的命名实体识别模型通常基于句法,需要依赖句法分析树或规则匹配,因此,亟需一种新的命名实体识别方法。
技术实现思路
鉴于以上所述现有技术的缺点,本专利技术的目的在于提供命名实体识别方法、装置、设备及介质,用于解决现有命名实体识别过程中需依赖句法分析树或规则或缺乏训练数据的问题。为实现上述目的及其他相关目的,本专利技术提供一种命名实体识别方法,包括:获取用户输入的基于自然语言的对话;预处理所述对话内的语料信息;利用预先训练 ...
【技术保护点】
1.一种命名实体识别方法,其特征在于,包括:/n获取用户输入的基于自然语言的对话;/n预处理所述对话内的语料信息;/n利用预先训练好的命名实体模型识别所述语料信息得到相应的命名实体。/n
【技术特征摘要】 【专利技术属性】
1.一种命名实体识别方法,其特征在于,包括:
获取用户输入的基于自然语言的对话;
预处理所述对话内的语料信息;
利用预先训练好的命名实体模型识别所述语料信息得到相应的命名实体。
2.根据权利要求1所述的命名实体识别方法,其特征在于,所述命名实体模型的训练过程包括:
将训练样本内的语料信息对应的原始输入序列生成以嵌入向量表达的输入序列;
构建生成输入序列特征的命名实体特征生成模型;
构建生成预测的命名实体序列的命名实体模型。
3.根据权利要求2所述的命名实体识别方法,其特征在于,所述将原始输入序列生成以嵌入向量表达的输入序列的步骤,包括:
将所述训练样本内的语料信息对应的原始输入序列切分为字、词或多个语法单位;
根据时间序列采用单种或多种粒度组合输入序列;
基于语义嵌入、字形嵌入或字音嵌入中任一维或几维提取所述输入序列每个单位;
融合多种嵌入类型的生成所述输入序列的嵌入向量。
4.根据权利要求3所述的命名实体识别方法,其特征在于,采用深度卷积神经网络提取输入序列每个的单位的字形嵌入。
5.根据权利要求3所述的命名实体识别方法,其特征在于,采用循环神经网络、长短期记忆网络或递归神经网络中任一方式提取输入序列每个的单位的字音嵌入。
6.根据权利要求2所述的命名实体识别方法,其特征在于,所述命名实体特征生成模型采用双向长短记忆网络或Transformer模型进行训练。
7.根据权利要求2所述的命名实体识别方法,其特征在于,采用条件随机场算法模型为基础,利用最大似然估计算法进行训练,得到生成预测的命名实体序列的命名实体模型。
8.一种命名实体识别装置,其特征在于,包括:
对话获取模块,用于获取用户输入的基于自然语言的对话;
预处理模块,用于预处理所述对话内的语料信息;
命名实体识别模块,利用预先训练好的命名实体模型识别所述语料信息得到相应的命名实体。
技术研发人员:姚志强,周曦,李继伟,杜晓薇,郝东,赵云,
申请(专利权)人:广州洪荒智能科技有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。