【技术实现步骤摘要】
基于人工智能的命名实体识别方法、装置及电子设备
本专利技术涉及人工智能技术,尤其涉及一种基于人工智能的命名实体识别方法、装置、电子设备及计算机可读存储介质。
技术介绍
人工智能(AI,ArtificialIntelligence)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法和技术及应用系统。自然语言处理(NLP,NatureLanguageprocessing)是人工智能中的一个重要方向,主要研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。命名实体识别是自然语言处理的一个重要研究分支,旨在对文本中的命名实体进行定位并分类为预先定义的类别,命名实体如人员、组织、位置或数量等。在一些情况中,某个命名实体中的某一部分可能也是命名实体,即存在多层嵌套。对于多层嵌套的命名实体,在相关技术提供的方案中,通常是对字(token)进行多层标签标注,并通过编解码的方式来实现命名实体识别。但是,该种方式需要根据标签内容制定对应的解码规则,在标签数量 ...
【技术保护点】
1.一种基于人工智能的命名实体识别方法,其特征在于,包括:/n对待识别文本中的文本元素进行向量转换处理,得到所述文本元素的文本表示;其中,所述文本元素的类型包括字和词;/n根据文本跨度遍历所述待识别文本中的文本元素,以将总长度不超过所述文本跨度的文本元素组成候选实体词;/n对所述候选实体词中文本元素对应的文本表示进行整合处理,得到所述候选实体词的文本表示;/n对所述候选实体词的文本表示进行分类处理,以在候选类别中确定所述候选实体词所属的类别;其中,所述候选类别包括非实体类别和多个命名实体类别。/n
【技术特征摘要】
1.一种基于人工智能的命名实体识别方法,其特征在于,包括:
对待识别文本中的文本元素进行向量转换处理,得到所述文本元素的文本表示;其中,所述文本元素的类型包括字和词;
根据文本跨度遍历所述待识别文本中的文本元素,以将总长度不超过所述文本跨度的文本元素组成候选实体词;
对所述候选实体词中文本元素对应的文本表示进行整合处理,得到所述候选实体词的文本表示;
对所述候选实体词的文本表示进行分类处理,以在候选类别中确定所述候选实体词所属的类别;其中,所述候选类别包括非实体类别和多个命名实体类别。
2.根据权利要求1所述的命名实体识别方法,其特征在于,所述根据文本跨度遍历所述待识别文本中的文本元素,以将总长度不超过所述文本跨度的文本元素组成候选实体词,包括:
对所述待识别文本中的文本元素进行第一层次遍历循环,其中,所述第一层次遍历循环包括多次第一层次遍历;
将每个所述第一层次遍历得到的文本元素确定为起点元素;
针对在每个所述第一层次遍历中确定的起点元素,执行包括多次第二层次遍历的第二层次遍历循环:
根据在所述第二层次遍历循环中已经执行的第二层次遍历的次数,确定同步增大或缩小的扫描范围,根据所述扫描范围对所述待识别文本中的文本元素进行从所述起点元素开始的第二层次遍历,并
将所述起点元素和所述第二层次遍历得到的文本元素组合为候选实体词,直至得到的候选实体词的长度等于所述文本跨度。
3.根据权利要求2所述的命名实体识别方法,其特征在于,所述对所述候选实体词中文本元素对应的文本表示进行整合处理,得到所述候选实体词的文本表示,包括:
根据文本序列顺序依次选取所述候选实体词中的文本元素;其中,所述文本序列顺序是从所述待识别文本中第一个文本元素依次到最后一个文本元素;
通过循环神经网络模型,对选取的文本元素的文本表示依次进行前向传播处理,并
将与所述候选实体词中最后一个文本元素对应的输出,确定为所述候选实体词的文本表示。
4.根据权利要求1所述的命名实体识别方法,其特征在于,所述根据文本跨度遍历所述待识别文本中的文本元素,以将总长度不超过所述文本跨度的文本元素组成候选实体词,包括:
根据多个不同长度的卷积窗口执行以下操作:
在所述待识别文本中执行所述卷积窗口的滑动操作,且每次滑动操作的幅度为一个文本元素;
将每次滑动后所述卷积窗口所覆盖的文本元素组合为候选实体词;
其中,所述卷积窗口的长度小于或等于所述文本跨度。
5.根据权利要求4所述的命名实体识别方法,其特征在于,所述对所述候选实体词中文本元素对应的文本表示进行整合处理,得到所述候选实体词的文本表示,包括:
通过卷积神经网络模型,对所述候选实体词中文本元素对应的文本表示进行前向传播处理,得到所述候选实体词的文本表示;
其中,所述卷积神经网络模型的卷积核尺寸与所述卷积窗口的长度一致。
6.根据权利要求1所述的命名实体识别方法,其特征在于,所述对所述候选实体词的文本表示进行分类处理,以在候选类别中确定所述候选实体词所属的类别,包括:
对所述候选实体词的文本表示进行全连接处理;
通过第一分类函数对全连接处理后的所述候选实体词的文本表示进行映射处理,得到与多个所述候选类别一一对应的概率;
将数值最大的概率对应的候选类别,确定为所述候选实体词所属的类别;
其中,所述第一分类函数用于对所述候选实体词进行二分类。
7.根据权利要求1所述的命名实体识别方法,其特征在于,所述对所述候选实体词的文本表示进行分类处理,以在候选类别中确定所述候选实体词所属的类别,包括:
对所述候选实体词的文本表示进行全连接处理;
通过...
【专利技术属性】
技术研发人员:慕福楠,吴晨光,王莉峰,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。