【技术实现步骤摘要】
实体识别模型训练方法、实体识别方法、装置及相关设备
[0001]本申请涉及信息抽取
,更具体的说,是涉及一种实体识别模型训练方法、实体识别方法、装置及相关设备。
技术介绍
[0002]当前,人工智能技术正从感知智能向认知智能迈进,针对语言理解和知识挖掘的研究不断深入,事实和常识知识的价值正逐步显现。命名实体识别(Named Entity Recognition,NER)是语言理解与知识抽取中一项不可或缺的基础步骤,其目标是识别出自然语言文本中的命名实体,并将其归纳到预先定义的实体类别中,实体识别结果可用于支撑问答、对话、推荐等上层智能应用。
[0003]在垂直领域的实体识别模型构建过程中,通常需要利用大量的标注语料作为训练样本,用于对BERT等预训练语言模型进行微调,因此领域标注样本的获取是非常重要的前提。现有技术中,往往采用人工标注的方式来实现样本获取,该方法需要耗费大量人力资源,无法实现下游系统的快速冷启,并且容易产生错标、漏标等噪声。
技术实现思路
[0004]鉴于上述问题,提出了本申请以 ...
【技术保护点】
【技术特征摘要】
1.一种实体识别模型训练方法,其特征在于,包括:获取目标领域的知识图谱;从所述知识图谱中进行游走采样,得到至少一条游走路径,每一游走路径中包含五元组序列,序列中的每一五元组包括头实体及其概念、尾实体及其概念、头实体和尾实体间的关系名;对于每一条游走路径,基于其中包含的五元组序列生成对应的训练语句;对所述训练语句中的实体、关系名和/或概念进行掩码,得到掩码语句,以预测所述掩码语句中被掩码的字符为目标,训练语言模型;对所述训练语句中的实体位置进行标注,并以标注有实体位置的训练语句作为训练数据,对训练后的语言模型进行微调,得到调整后的实体识别模型,用于处理所述目标领域下的实体识别任务。2.根据权利要求1所述的方法,其特征在于,从所述知识图谱中进行游走采样,得到至少一条游走路径,包括:在所述目标知识图谱中选择至少一个节点,作为起始节点;对于每一起始节点,按照采样策略,在所述目标知识图谱的节点间沿有向边以不同概率进行转移,节点每经过一次转移,根据转移前后的两个节点及有向边生成一个五元组,每次转移时,由当前节点转移至任一邻居节点的概率,根据当前节点之前游走过节点与所述邻居节点间的距离,和/或当前节点与所述邻居节点间的语义关系确定;将生成的五元组添加到与起始节点对应的游走路径中,直至游走路径的长度达到设定长度为止,得到与每一起始节点对应的游走路径。3.根据权利要求2所述的方法,其特征在于,根据当前节点之前游走过节点与所述邻居节点间的距离,和/或当前节点与所述邻居节点间的语义关系,确定当前节点转移至任一邻居节点的概率的过程,包括:根据当前节点之前游走过节点与所述邻居节点间的距离,和/或当前节点与所述邻居节点间的语义关系,确定当前节点转移至任一邻居节点的转移得分;对于任一目标邻居节点:基于当前节点转移至所述目标邻居节点的转移得分,以及当前节点转移至各邻居节点的转移得分的总和,确定当前节点转移至所述目标邻居节点的概率。4.根据权利要求3所述的方法,其特征在于,所述根据当前节点之前游走过节点与所述邻居节点间的距离,和/或当前节点与所述邻居节点间的语义关系,确定当前节点转移至任一邻居节点的转移得分,包括:根据当前节点的上一节点与所述邻居节点间的距离,确定当前节点转移至所述邻居节点的第一转移得分;根据当前节点与所述邻居节点间的语义关系,确定当前节点转移至所述邻居节点的第二转移得分;根据所述第一转移得分,和/或第二转移得分,确定当前节点转移至所述邻居节点的总转移得分。5.根据权利要求4所述的方法,其特征在于,所述根据当前节点的上一节点与所述邻居节点间的距离,确定当前节点转移至所述邻居节点的第一转移得分,包括:
确定当前节点的上一节点与所述邻居节点间的最短跳转次数,所述最短跳转次数取值范围为{0,1,2},不同的最短跳转次数对应有不同的转移得分设定值,其中,最短跳转次数0对应的转移得分设定值由第一超参数控制,最短跳转次数2对应的转移得分设定值由第二超参数控制;根据确定的当前节点的上一节点与所述邻居节点间的最短跳转次数,选取对应的转移得分设定值,作为当前节点转移至所述邻居节点的第一转移得分。6.根据权利要求4所述的方法,其特征在于,所述根据当前节点与所述邻居节点间的语义关系,确定当前节点转移至所述邻居节点的第二转移得分,包括:对于当前节点的任一目标邻居节点:确定当前节点与所述目标邻居节点的目标关系名;统计当前节点的所有邻居节点中,与当前节点具备所述目标关系名的邻居节点的总个数;基于所述总个数、所述当前节点的所有邻居节点的个数及第三超参数,确定当前节点转移至目标邻居节点的第二转移得分,其中,所述总个数越大,所述第二转移得分越小。7.根据权利要求4所述的方法,其特征在于,所述根据所述第一转移得分,和/或第二转移得分,确定当前节点转移至所述邻居节点的总转移得分,包括:将所述第一转移得分与所述第二转移得分的乘积,作为当前节点转移至所述邻居节点的总转移得分。8.根据权利要求1所述的方法,其特征在于,所述对于每一条游走路径,基于其中包含的五元组...
【专利技术属性】
技术研发人员:倪修峰,曹伟灿,范磊,施昀,张友国,刘江,吕军,胡少云,
申请(专利权)人:科大讯飞股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。