命名实体识别方法、装置、设备制造方法及图纸

技术编号:26690279 阅读:29 留言:0更新日期:2020-12-12 02:40
本发明专利技术实施例提供一种命名实体识别方法、装置、设备,该方法包括:获取富文本中包含的多个信息块;确定多个信息块各自对应的语义特征向量以及不同信息块之间的相对视觉特征向量;根据多个信息块各自对应的语义特征向量以及不同信息块之间的相对视觉特征向量,确定多个信息块各自对应的上下文特征向量;根据多个信息块各自对应的上下文特征向量,识别富文本中包含的命名实体。结合富文本的视觉特征信息可以更加准确地识别出其中包含的感兴趣的命名实体。

【技术实现步骤摘要】
命名实体识别方法、装置、设备
本专利技术涉及互联网
,尤其涉及一种命名实体识别方法、装置、设备。
技术介绍
命名实体识别是自然语言处理领域中的一个基本问题,属于序列标注问题的范畴。简单来说,命名实体识别问题就是将一段文本序列中包含的感兴趣的实体识别出来并加以归类,例如人名,地名和机构名等。目前,大多命名实体识别的方案都是针对纯文本进行的,但是,实际生活中存在很多富文本,比如增值税发票、保单、海关申报单等等,因此,对富文本进行命名实体识别的需求变得越来越重要和迫切。富文本,是一种区别于纯文本的文字格式,其中包含丰富的格式属性,如字体大小、图片、版面等。
技术实现思路
本专利技术实施例提供一种命名实体识别方法、装置、设备,用以识别出富文本中包含的命名实体。第一方面,本专利技术实施例提供一种命名实体识别方法,该方法包括:获取富文本中包含的多个信息块;确定所述多个信息块各自对应的语义特征向量以及不同信息块之间的相对视觉特征向量;根据所述多个信息块各自对应的语义特征向量以及不同信息块之间的本文档来自技高网...

【技术保护点】
1.一种命名实体识别方法,其特征在于,包括:/n获取富文本中包含的多个信息块;/n确定所述多个信息块各自对应的语义特征向量以及不同信息块之间的相对视觉特征向量;/n根据所述多个信息块各自对应的语义特征向量以及不同信息块之间的相对视觉特征向量,确定所述多个信息块各自对应的上下文特征向量;/n根据所述多个信息块各自对应的上下文特征向量,识别所述富文本中包含的命名实体。/n

【技术特征摘要】
1.一种命名实体识别方法,其特征在于,包括:
获取富文本中包含的多个信息块;
确定所述多个信息块各自对应的语义特征向量以及不同信息块之间的相对视觉特征向量;
根据所述多个信息块各自对应的语义特征向量以及不同信息块之间的相对视觉特征向量,确定所述多个信息块各自对应的上下文特征向量;
根据所述多个信息块各自对应的上下文特征向量,识别所述富文本中包含的命名实体。


2.根据权利要求1所述的方法,其特征在于,所述多个信息块各自对应的语义特征向量的确定步骤,包括:
将所述多个信息块各自包含的词语输入第一神经网络模型,以通过所述第一神经网络模型提取所述多个信息块各自对应的语义特征向量。


3.根据权利要求2所述的方法,其特征在于,所述第一神经网络模型包括如下任一种:循环神经网络模型、长短期记忆网络模型或双向长短期记忆网络模型。


4.根据权利要求1所述的方法,其特征在于,所述多个信息块各自对应的语义特征向量的确定步骤,包括:
对所述多个信息块各自包含的词语进行编码,以获得对应的词向量;
对每个信息块对应的多个词向量进行求均值计算,以得到每个信息块对应的语义特征向量。


5.根据权利要求1所述的方法,其特征在于,所述不同信息块之间的相对视觉特征向量的确定步骤,包括:
确定不同信息块之间的距离和/或相对尺寸比,所述相对视觉特征向量中包括所述距离和/或所述相对尺寸比。


6.根据权利要求5所述的方法,其特征在于,所述距离包括水平向距离和垂直向距离。


7.根据权利要求5所述的方法,其特征在于,所述相对尺寸比包括:同一信息块的宽高比、不同信息块的高度比、不同信息块的宽高比。


8.根据权利要求1所述的方法,其特征在于,所述多个信息块各自对应的上下文特征向量的确定步骤,包括:
对于所述多个信息块中的信息块i,获取与所述信息块i对应的多组特征向量,其中的任一组特征向量由所述信息块i对应的语义特征向量、信息块j对应的语义特征向量以及所述信息块i与所述信息块j之间的...

【专利技术属性】
技术研发人员:刘潇婧赵华厦
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛;KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1