【技术实现步骤摘要】
中文姓名获取方法、中文姓名提取模型的训练方法及装置
本申请涉及信息识别
,具体而言,涉及一种中文姓名获取方法、中文姓名提取模型的训练方法及装置。
技术介绍
在某些业务场景中,由于数据来源较多,往往会出现一个手机号对应多个姓名的情况出现,比如对于同一个人员,在不同关系网络中,对方在其通讯录的联系人信息保存不一致,例如对于一个具体的人员张三(男性)来说,其父母对其保存的联系人名称可能是昵称“宝贝儿子”,好友或同学对其保存的名称是真实姓名张三,同事和客户保存的名称可能与公司信息有关,比如“xx公司张三”。然而,现有的提取中文姓名的方法通常基于长句子文本中的文字的上下文语境关系来提取文本中的中文姓名。例如对于一个句子“他在浙江金华出生,他的名字叫金华。”,对上述文本序列先进行分词,然后通过词性的上下文关系,利用深度学习或条件随机场等算法进行序列标注,得到每个分词对应的词性和实体类型,最终结果如下,“他\r在\p浙江\ns金华\ns出生\v,\w他\r的\u名字\n叫\v金华\nr。\w”,其中\ns表示地名,\nr代表 ...
【技术保护点】
1.一种中文姓名提取模型的训练方法,所述方法包括:/n获取多个候选姓名中的每个候选姓名对应的特征向量,并将所述多个特征向量组成特征矩阵;其中,不同的候选姓名对应的特征向量不同;所述多个候选姓名中包括需要从所述多个候选姓名中确定出的真实姓名;/n将所述特征矩阵输入至姓名提取模型中,获得索引向量;/n确定所述索引向量中的最大值在所述索引向量中的位置对应的第一特征向量与所述真实姓名对应的第二特征向量的第一距离值是否等于预设值;/n在确定所述第一距离值不等于所述预设值时,更新所述姓名提取模型中的参数列向量;其中,所述参数列向量的维度和所述特征向量的维度相同;/n将所述特征矩阵输入至 ...
【技术特征摘要】
1.一种中文姓名提取模型的训练方法,所述方法包括:
获取多个候选姓名中的每个候选姓名对应的特征向量,并将所述多个特征向量组成特征矩阵;其中,不同的候选姓名对应的特征向量不同;所述多个候选姓名中包括需要从所述多个候选姓名中确定出的真实姓名;
将所述特征矩阵输入至姓名提取模型中,获得索引向量;
确定所述索引向量中的最大值在所述索引向量中的位置对应的第一特征向量与所述真实姓名对应的第二特征向量的第一距离值是否等于预设值;
在确定所述第一距离值不等于所述预设值时,更新所述姓名提取模型中的参数列向量;其中,所述参数列向量的维度和所述特征向量的维度相同;
将所述特征矩阵输入至更新后的姓名提取模型,得到新的索引向量;
确定所述新的索引向量中的最大值在所述新的索引向量中的位置对应的第三特征向量与所述第二特征向量的第二距离值是否等于所述预设值;
在确定所述第二距离值等于所述预设值时,将所述更新后的姓名提取模型作为训练好的姓名提取模型。
2.根据权利要求1所述的方法,其特征在于,所述姓名提取模型为其中,X表示所述多个候选姓名,f(X)表示所述特征矩阵,α表示所述参数列向量;vi表示第i个候选姓名对应的特征向量,z表示所述索引向量;其中,i为大于等于1的整数。
3.根据权利要求1所述的方法,其特征在于,获取多个候选姓名中的每个候选姓名对应的特征向量,包括:
确定该候选姓名与所述多个候选姓名中剩余的每个候选姓名之间的距离和;
获取用于表征该候选姓名中的第一个字是否属于姓氏的判断结果;
获取该候选姓名中的每个字在所述多个候选姓名中出现的次数和;
获取所述距离和、所述判断结果,以及所述次数和为元素的向量,所述向量为所述对应的特征向量。
4.根据权利要求1所述的方法,其特征在于,更新所述姓名提取模型中的参数列向量,包括:
基于所述第二特征向量和所述第一特征向量的差,更新所述姓名提取模型中的参数列向量。
5.根据权利要求1所述的方法,其特征在于,确定所述第二距离值是否等于所述预设值之后,所述方法还包括:
在确定所述第二距离值不等于所述预设值时,确定当前更新次数是否等于预设更新次数;
在确定所述当前更新次数等于所述预设更新次数时,从所述第一距离值和所述第二距离值中确定出最小距离值;
利用所述最小距离值对应的参数列向量更新所述姓名提取模型。
6.根据权利要求5所述的方法,其特征在于,确定当前更新次数是否等于预设更新次数之后,所述方法还包括:
在确定所述当前更新次数小于所述预设更新次数时,更新所述姓名提取模型中的参数列向量...
【专利技术属性】
技术研发人员:袁杰,张杰,陈秀坤,高古明,
申请(专利权)人:北京明略软件系统有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。