多类别实体识别模型训练、实体识别方法、服务器及终端技术

技术编号:21914238 阅读:23 留言:0更新日期:2019-08-21 12:30
本申请公开了一种多类别实体识别模型训练、实体识别方法、服务器及终端,所述多类别实体识别模型训练方法包括:对语料信息进行实体和实体类别标签,得到包括实体和实体类别标签的目标标注语料信息;对目标标注语料信息中的语料信息进行多维度特征分析处理,得到目标标注语料信息的多维度信息;基于多维度信息和目标标注语料信息中实体和实体类别标签对预设深度学习模型进行多类别实体识别训练,得到多类别实体识别模型;其中,所述预设深度学习模型包括特征输入转换层、语义序列表征层、实体特征筛选层和类别实体输出层。利用本申请提供的技术方案可以快速准确的识别出语料信息中的实体和实体类别,实现多类别实体的识别。

Multi-Category Entity Recognition Model Training, Entity Recognition Method, Server and Terminal

【技术实现步骤摘要】
多类别实体识别模型训练、实体识别方法、服务器及终端
本申请涉及人工智能
,尤其涉及一种多类别实体识别模型训练、实体识别方法、服务器及终端。
技术介绍
随着人工智能和大数据技术的发展,对于自然语言处理的技术需求不断提高,其中,命名实体识别作为语义理解、语音合成等任务的必要前操作,在自然语言理解中具有重要的作用。在现有的命名实体(以下简称实体)识别方法中,应用较广泛的是基于条件随机场模型的实体识别方法。该方法可以基于某一领域的训练数据对模型进行训练,在训练过程中可以结合文本中的上下文信息辅助该领域的实体的识别。但上述现有的方案中实体识别的效果完全依赖于训练数据的选择和设计,无法应用到不同领域。在实际应用中,往往需要对包括人名、地名、机构名、视频、汽车、游戏等多个领域的不同类别的实体进行识别,导致在实际应用中实体识别的准确率低。因此,需要提供更可靠或更有效的方案。
技术实现思路
本申请提供了一种多类别实体识别模型训练、实体识别方法、服务器及终端,可以快速准确的识别出语料信息中的实体和实体类别,实现多类别实体的识别。一方面,本申请提供了一种多类别实体识别模型训练方法,所述方法包括:对语料信息进行实体和实体类别标签,得到目标标注语料信息,所述目标标注语料信息为包括实体和实体类别标签的语料信息;对所述目标标注语料信息中的语料信息进行多维度特征分析处理,得到所述目标标注语料信息的多维度信息;基于所述多维度信息和所述目标标注语料信息中实体和实体类别标签对预设深度学习模型进行多类别实体识别训练,得到多类别实体识别模型;其中,所述预设深度学习模型包括特征输入转换层、语义序列表征层、实体特征筛选层和类别实体输出层。另一方面提供了一种多类别实体识别模型服务器,所述服务器包括:标注模块,用于对语料信息进行实体和实体类别标签,得到目标标注语料信息,所述目标标注语料信息为包括实体和实体类别标签的语料信息;第一多维度特征分析处理模块,用于对所述目标标注语料信息中的语料信息进行多维度特征分析处理,得到所述目标标注语料信息的多维度信息;多类别实体识别训练模块,用于基于所述多维度信息和所述目标标注语料信息中实体和实体类别标签对预设深度学习模型进行多类别实体识别训练,得到多类别实体识别模型;其中,所述预设深度学习模型包括特征输入转换层、语义序列表征层、实体特征筛选层和类别实体输出层。另一方面提供了一种多类别实体识别模型训练服务器,所述服务器包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述的多类别实体识别模型训练方法。另一方面提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上述的多类别实体识别模型训练方法。另一方面,本申请提供了一种多类别实体识别方法,所述方法包括:获取目标语料信息;对所述目标语料信息进行多维度特征分析处理,得到所述目标语料信息的多维度信息;基于多类别实体识别模型对所述目标语料信息的多维度信息进行多类别实体识别,得到所述目标语料信息的实体和实体类别标签;其中,所述多类别实体识别模型包括特征输入转换层、语义序列表征层、实体特征筛选层和类别实体输出层。另一方面,本申请提供了一种多类别命名实体识别终端,所述终端包括:目标语料信息获取模块,用于获取目标语料信息;第二多维度特征分析处理模块,用于对所述目标语料信息进行多维度特征分析处理,得到所述目标语料信息的多维度信息;多类别实体识别模块,用于基于多类别实体识别模型对所述目标语料信息的多维度信息进行多类别实体识别,得到所述目标语料信息的实体和实体类别标签;其中,所述多类别实体识别模型包括特征输入转换层、语义序列表征层、实体特征筛选层和类别实体输出层。另一方面提供了一种多类别实体识别终端,所述终端包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述的多类别实体识别方法。另一方面提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上述的多类别实体识别方法。本申请提供的多类别实体识别模型训练、实体识别方法、服务器及终端,具有如下技术效果:本申请能够通过对语料信息进行实体和实体类别标签,得到包括实体和实体类别标签的语料信息;接着,对所述语料信息进行多维度特征分析处理,得到可以从更多的维度来表征语料信息的多维度信息,提高了对目标语料信息的表征能力;最后,基于所述多维度信息、相应的实体和实体类别标签对包括特征输入转换层、语义序列表征层、实体特征筛选层和类别实体输出层的预设深度学习模型进行多类别实体识别训练,得到能够快速准确识别出语料信息中实体和实体类别的多类别实体识别模型。在多类别实体识别时,通过对获取的目标语料信息进行多维度特征分析处理,得到可以从更多的维度来表征目标语料信息的多维度信息,提高了对目标语料信息的表征能力;然后,将多维度特征分析处理后的多维度信息输入训练好的多类别实体识别模型进行多类别实体的识别,可以快速准确的识别目标语料信息中的实体和实体类别,实现多类别实体的识别。附图说明为了更清楚地说明本申请实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。图1是本申请实施例提供的一种应用环境的示意图;图2是本申请实施例提供的一种多类别实体识别模型训练方法的流程示意图;图3是本申请实施例提供的一种对语料数据进行实体和实体类别标签,得到标注语料信息方法的流程示意图;图4是本申请实施例提供的一种对所述目标标注语料信息中的语料信息进行多维度特征分析处理,得到所述目标标注语料信息的多维度信息方法的流程示意图;图5是本申请实施例提供的一种多类别实体识别方法的流程示意图;图6是本申请实施例提供的一种基于多类别实体识别模型对所述目标语料信息的多维度信息进行多类别实体识别,得到所述目标语料信息的实体和实体类别标签方法的流程示意图;图7是本申请实施例提供的一种基于多类别实体识别模型对目标语料信息的多维度信息进行多类别实体识别,得到目标语料信息的实体和实体类别标签的示意图;图8是本申请实施例提供的一种多类别实体识别模型训练服务器的结构示意图;图9是本申请实施例提供的一种多类别实体识别终端的结构示意图;图10是本申请实施例提供的一种服务器的结构示意图;图11是本申请实施例提供的一种基于多类别实体识别模型进行多种类别实体识别的应用场景示意图。具体实施方式下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没本文档来自技高网...

【技术保护点】
1.一种多类别实体识别模型训练方法,其特征在于,所述方法包括:对语料信息进行实体和实体类别标签,得到目标标注语料信息,所述目标标注语料信息为包括实体和实体类别标签的语料信息;对所述目标标注语料信息中的语料信息进行多维度特征分析处理,得到所述目标标注语料信息的多维度信息;基于所述多维度信息和所述目标标注语料信息中实体和实体类别标签对预设深度学习模型进行多类别实体识别训练,得到多类别实体识别模型;其中,所述预设深度学习模型包括特征输入转换层、语义序列表征层、实体特征筛选层和类别实体输出层。

【技术特征摘要】
1.一种多类别实体识别模型训练方法,其特征在于,所述方法包括:对语料信息进行实体和实体类别标签,得到目标标注语料信息,所述目标标注语料信息为包括实体和实体类别标签的语料信息;对所述目标标注语料信息中的语料信息进行多维度特征分析处理,得到所述目标标注语料信息的多维度信息;基于所述多维度信息和所述目标标注语料信息中实体和实体类别标签对预设深度学习模型进行多类别实体识别训练,得到多类别实体识别模型;其中,所述预设深度学习模型包括特征输入转换层、语义序列表征层、实体特征筛选层和类别实体输出层。2.根据权利要求1所述的方法,其特征在于,所述对语料数据进行实体和实体类别标签,得到目标标注语料信息包括:基于实体词典库对样本语料信息进行匹配标注,得到初始标注语料信息;对所述初始标注语料信息进行多次验证标注,得到多次验证标注后的标注语料信;基于可信度分析模型对多次验证标注后的标注语料信息进行可信度分析,得到每次验证标注的可信度;基于所述可信度从所述多次验证标注后的标注语料信息中确定所述目标标注语料信息。3.根据权利要求1所述的方法,其特征在于,所述基于所述多维度信息和所述目标标注语料信息中实体和实体类别标签对预设深度学习模型进行多类别实体识别训练,得到多类别实体识别模型包括:基于所述多维度信息和所述目标标注语料信息中实体和实体类别标签确定第一数量的训练标注语料信息和第二数量的验证标注语料信息;基于所述第一数量的训练标注语料信息对所述预设深度学习模型进行多类别实体识别训练,得到拟用多类别实体识别模型;将所述第二数量的验证标注语料信息中的多维度信息输入所述拟用多类别实体识别模型进行多类别实体识别,得到第一识别结果;当所述第一识别结果与输入的多维度信息对应的实体和实体类别标签相匹配时,将所述拟用多类别实体识别模型作为所述多类别实体识别模型;当所述第一识别结果与输入的多维度信息对应的实体和实体类别标签不匹配时,调整所述拟用多类别实体识别模型中的模型参数,基于所述第一数量的训练标注语料信息对所述调整后的拟用多类别实体识别模型进行实体类别预测训练,至拟用多类别实体识别模型输出的第一识别结果与输入的多维度信息对应的实体和实体类别标签相匹配。4.根据权利要求3所述的方法,其特征在于,所述基于所述第一数量的训练标注语料信息对所述预设深度学习模型进行多类别实体识别训练,得到拟用多类别实体识别模型包括:将所述第一数量的训练标注语料信息中的多维度信息输入所述预设深度学习模型的特征输入转换层进行特征转化处理,得到多维度的特征向量;将所述多维度的特征向量输入所述预设深度学习模型的语义序列表征层进行实体语义特征表征和实体语义表征特征的拼接处理,得到多维度的语义特征向量;将所述多维度的语义特征向量输入所述预设深度学习模型的实体特征筛选层进行实体类别特征筛选,得到实体类别特征向量;将所述多维度的语义特征向量和所述实体类别特征向量输入所述预设深度学习模型的类别实体输出层进行多类别实体识别,得到第二识别结果;基于所述第二识别结果与所述第一数量的训练标注语料信息中的实体和实体类别标签调整所述预设深度学习模型中的模型参数,得到拟用多类别实体识别模型。5.根据权利要求1所述的方法,其特征在于,所述对所述目标标注语料...

【专利技术属性】
技术研发人员:陈磊刘祺刘书凯张博王良栋刘毅孙振龙丘志杰苏舟饶君林乐宇梁铭霏商甜甜
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1