【技术实现步骤摘要】
多类别实体识别模型训练、实体识别方法、服务器及终端
本申请涉及人工智能
,尤其涉及一种多类别实体识别模型训练、实体识别方法、服务器及终端。
技术介绍
随着人工智能和大数据技术的发展,对于自然语言处理的技术需求不断提高,其中,命名实体识别作为语义理解、语音合成等任务的必要前操作,在自然语言理解中具有重要的作用。在现有的命名实体(以下简称实体)识别方法中,应用较广泛的是基于条件随机场模型的实体识别方法。该方法可以基于某一领域的训练数据对模型进行训练,在训练过程中可以结合文本中的上下文信息辅助该领域的实体的识别。但上述现有的方案中实体识别的效果完全依赖于训练数据的选择和设计,无法应用到不同领域。在实际应用中,往往需要对包括人名、地名、机构名、视频、汽车、游戏等多个领域的不同类别的实体进行识别,导致在实际应用中实体识别的准确率低。因此,需要提供更可靠或更有效的方案。
技术实现思路
本申请提供了一种多类别实体识别模型训练、实体识别方法、服务器及终端,可以快速准确的识别出语料信息中的实体和实体类别,实现多类别实体的识别。一方面,本申请提供了一种多类别实体识别模型训练方法,所述方法包括:对语料信息进行实体和实体类别标签,得到目标标注语料信息,所述目标标注语料信息为包括实体和实体类别标签的语料信息;对所述目标标注语料信息中的语料信息进行多维度特征分析处理,得到所述目标标注语料信息的多维度信息;基于所述多维度信息和所述目标标注语料信息中实体和实体类别标签对预设深度学习模型进行多类别实体识别训练,得到多类别实体识别模型;其中,所述预设深度学习模型包括特征输入转换层、语义序列 ...
【技术保护点】
1.一种多类别实体识别模型训练方法,其特征在于,所述方法包括:对语料信息进行实体和实体类别标签,得到目标标注语料信息,所述目标标注语料信息为包括实体和实体类别标签的语料信息;对所述目标标注语料信息中的语料信息进行多维度特征分析处理,得到所述目标标注语料信息的多维度信息;基于所述多维度信息和所述目标标注语料信息中实体和实体类别标签对预设深度学习模型进行多类别实体识别训练,得到多类别实体识别模型;其中,所述预设深度学习模型包括特征输入转换层、语义序列表征层、实体特征筛选层和类别实体输出层。
【技术特征摘要】
1.一种多类别实体识别模型训练方法,其特征在于,所述方法包括:对语料信息进行实体和实体类别标签,得到目标标注语料信息,所述目标标注语料信息为包括实体和实体类别标签的语料信息;对所述目标标注语料信息中的语料信息进行多维度特征分析处理,得到所述目标标注语料信息的多维度信息;基于所述多维度信息和所述目标标注语料信息中实体和实体类别标签对预设深度学习模型进行多类别实体识别训练,得到多类别实体识别模型;其中,所述预设深度学习模型包括特征输入转换层、语义序列表征层、实体特征筛选层和类别实体输出层。2.根据权利要求1所述的方法,其特征在于,所述对语料数据进行实体和实体类别标签,得到目标标注语料信息包括:基于实体词典库对样本语料信息进行匹配标注,得到初始标注语料信息;对所述初始标注语料信息进行多次验证标注,得到多次验证标注后的标注语料信;基于可信度分析模型对多次验证标注后的标注语料信息进行可信度分析,得到每次验证标注的可信度;基于所述可信度从所述多次验证标注后的标注语料信息中确定所述目标标注语料信息。3.根据权利要求1所述的方法,其特征在于,所述基于所述多维度信息和所述目标标注语料信息中实体和实体类别标签对预设深度学习模型进行多类别实体识别训练,得到多类别实体识别模型包括:基于所述多维度信息和所述目标标注语料信息中实体和实体类别标签确定第一数量的训练标注语料信息和第二数量的验证标注语料信息;基于所述第一数量的训练标注语料信息对所述预设深度学习模型进行多类别实体识别训练,得到拟用多类别实体识别模型;将所述第二数量的验证标注语料信息中的多维度信息输入所述拟用多类别实体识别模型进行多类别实体识别,得到第一识别结果;当所述第一识别结果与输入的多维度信息对应的实体和实体类别标签相匹配时,将所述拟用多类别实体识别模型作为所述多类别实体识别模型;当所述第一识别结果与输入的多维度信息对应的实体和实体类别标签不匹配时,调整所述拟用多类别实体识别模型中的模型参数,基于所述第一数量的训练标注语料信息对所述调整后的拟用多类别实体识别模型进行实体类别预测训练,至拟用多类别实体识别模型输出的第一识别结果与输入的多维度信息对应的实体和实体类别标签相匹配。4.根据权利要求3所述的方法,其特征在于,所述基于所述第一数量的训练标注语料信息对所述预设深度学习模型进行多类别实体识别训练,得到拟用多类别实体识别模型包括:将所述第一数量的训练标注语料信息中的多维度信息输入所述预设深度学习模型的特征输入转换层进行特征转化处理,得到多维度的特征向量;将所述多维度的特征向量输入所述预设深度学习模型的语义序列表征层进行实体语义特征表征和实体语义表征特征的拼接处理,得到多维度的语义特征向量;将所述多维度的语义特征向量输入所述预设深度学习模型的实体特征筛选层进行实体类别特征筛选,得到实体类别特征向量;将所述多维度的语义特征向量和所述实体类别特征向量输入所述预设深度学习模型的类别实体输出层进行多类别实体识别,得到第二识别结果;基于所述第二识别结果与所述第一数量的训练标注语料信息中的实体和实体类别标签调整所述预设深度学习模型中的模型参数,得到拟用多类别实体识别模型。5.根据权利要求1所述的方法,其特征在于,所述对所述目标标注语料...
【专利技术属性】
技术研发人员:陈磊,刘祺,刘书凯,张博,王良栋,刘毅,孙振龙,丘志杰,苏舟,饶君,林乐宇,梁铭霏,商甜甜,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。