【技术实现步骤摘要】
实体识别方法、装置、服务器及存储介质
[0001]本申请属于神经网络
,尤其涉及实体识别方法、装置、服务器及存储介质。
技术介绍
[0002]命名实体识别(Named Entities Recognition,NER),通常是指识别文本中具有特定意义的实体的技术,实践中,NER所识别的实体主要包括人名、地名、机构名、专有名词等。实际应用中,通常是基于规则和有监督学习中的至少一种方式实现NER。
[0003]相关技术中,采用NER技术对文本中的实体进行识别时,若文本数据的格式不固定,从其中识别特定实体,例如,媒体名称实体、记者名称实体、机构名称实体等,通常需要人工提取或者校对,导致识别效率较低,且耗费较大人力成本。
技术实现思路
[0004]本申请实施例提供了一种实体识别方法、装置、服务器及存储介质,可以解决相关技术中,采用NER技术对文本中的实体进行识别时,若文本数据的格式不固定,从其中识别特定实体,例如,媒体名称实体、记者名称实体、机构名称实体等,通常需要人工提取或者校对,导致识别效率较低,且 ...
【技术保护点】
【技术特征摘要】
1.一种实体识别方法,其特征在于,包括:接收待识别文本,基于预先设定的类别标签组,对所述待识别文本中的各字符进行类别映射处理,得到各字符在每个类别标签下的概率,其中,所述类别标签组用于指示至少一类目标实体,且所述类别标签组中的至少一个标签的有序组合指示一个目标实体;按照各字符在所述待识别文本中的出现顺序,将各字符对应的类别标签,组合成标签路径,得到对应于所述待识别文本的多条标签路径;针对各字符,根据预先存储的权重系数,建立相应字符的调整矩阵,以及采用所述调整矩阵对相应字符对应于各类别标签的概率进行调整,其中,调整矩阵用于调整字符对应于各类别标签的概率;根据各字符在每个类别标签下的调整后的概率,从所述多条标签路径中,选取满足预设选取条件的标签路径,记作目标标签路径,以及根据所述目标标签路径中的各类别标签,从所述待识别文本中识别得到目标实体。2.根据权利要求1所述的实体识别方法,其特征在于,所述对所述待识别文本中的各字符进行类别映射处理,得到各字符在每个类别标签下的概率,包括:将所述待识别文本中的各个字符分别转换成字向量,以及将所述字向量输入预先训练的类别映射模型,得到相应字符在每个类别标签下的概率,其中,所述类别映射模型用于表征字向量与字向量指示的字符在各个类别标签下的概率之间的对应关系。3.根据权利要求1所述的实体识别方法,其特征在于,所述对所述待识别文本中的各字符进行类别映射处理,得到各字符在每个类别标签下的概率,包括:按照各个字符在所述待识别文本中的正向出现顺序,对各个字符进行类别映射处理,得到各字符在每个类别标签下的正向概率;按照各个字符在所述待识别文本中的反向出现顺序,对各个字符进行类别映射处理,得到各字符在每个类别标签下的反向概率;其中,字符在一类别标签下的概率包括字符在该类别标签下的正向概率和在该类别标签下的反向概率。4.根据权利要求1所述的实体识别方法,其特征在于,所述根据预先存储的权重系数,建立相应字符的调整矩阵,包括:根据所述相应字符在每个类别标签下的概率和所述权重系数,创建针对所述相应字符的权重向量;针对所述待识别文本中的每个字符,根据该字符的权重向量和所述相应字符的权重向量,确定该字符对所述相应字符的影响权重;对所有字符对所述相应字符的影响权重进行归一化,以及将归一化后的影响权重,组合生成所述相应字符的调整矩阵。5.根据权利要求1所述的实体识别方法,其特征在于,所述根据各字符在每个类别标签下的调整后的概率,从所述多条标签路径中,选取...
【专利技术属性】
技术研发人员:赵洋,包荣鑫,王宇,杨倩,魏世胜,龙大香,
申请(专利权)人:深圳价值在线信息科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。