【技术实现步骤摘要】
模型训练方法、装置及计算机存储介质
[0001]本申请实施例涉及人工智能
,尤其涉及一种模型训练方法、装置及计算机存储介质。
技术介绍
[0002]随着人工智能技术的发展,基于神经网络模型的虚拟智能助手可以为用户提供各种功能。在一些应用场景中,例如,对实体进行标注的分类模型,在模型训练过程中,需要大量数据对模型进行训练。但是,如果待标注的实体的样本数量太少,就会导致分类模型的训练效果较差,影响分类模型的准确性。
技术实现思路
[0003]有鉴于此,本申请实施例提供一种模型训练方法、装置及计算机存储介质,以至少部分解决上述问题。
[0004]根据本申请实施例的第一方面,提供了一种模型训练方法,包括:从第一数据库中获取待标注的目标实体;基于第二数据库中包含的参考实体,对目标实体进行实体分类,第一数据库中的实体类型多于第二数据库中的实体类型;根据分类结果对目标实体进行标注;利用标注好的目标实体,以及第一数据库中包含的语句样本对分类模型进行训练。
[0005]根据本申请实施例的第二方面,提供了一 ...
【技术保护点】
【技术特征摘要】
1.一种模型训练方法,其中,包括:从第一数据库中获取待标注的目标实体;基于第二数据库中包含的参考实体,对所述目标实体进行实体分类,所述第一数据库中的实体类型多于所述第二数据库中的实体类型;根据分类结果对所述目标实体进行标注;利用标注好的所述目标实体,以及所述第一数据库中包含的语句样本对分类模型进行训练。2.根据权利要求1所述的方法,其中,所述第一数据库包括百科词典,所述从第一数据库中获取待标注的目标实体,包括:在所述第一数据库中,获取带有超链接的词语/词组作为所述目标实体。3.根据权利要求1所述的方法,其中,所述利用标注好的所述目标实体,以及所述第一数据库中包含的语句样本对分类模型进行训练,包括:将所述分类模型中包含的目标分类器替换为预设分类器,得到预训练分类模型,所述预设分类器进行分类的实体类型包含所述目标分类器进行分类的实体类型;利用标注好的所述目标实体,以及所述第一数据库中包含的语句样本对所述预训练分类模型进行预训练;将预训练之后的所述预训练分类模型中的所述预设分类器替换为所述目标分类器得到预训练之后的所述分类模型,利用标注好的所述目标实体,以及所述第一数据库中包含的至少一个语句样本对所述分类模型进行训练。4.根据权利要求1所述的方法,其中,所述基于第二数据库中包含的参考实体,对所述目标实体进行实体分类,包括:对于所述目标实体,在所述第二数据库中查找与所述目标实体含义相同的参考实体;如果查找到,则根据所述目标实体含义相同的参考实体的实体类型确定所述目标实体的实体类型;如果没有查找到,则将所述目标实体的实体类型确定为预设类型。5.根据权利要求4所述的方法,其中,所述利用标注好的所述目标实体,以及所述第一数据库中包含的语句样本对分类模型进行训练之前,所述方法还包括:根据标注好的所述目标实体,确定所述语句样本中包含的实体类型;根据所述语句样本中包含的实体类型,对所述语句样本进行数据过滤,以使得所述语句样本包含的实体类型分布均衡。6.根据权利要求5所述的方法,其中,所述根据所述语句样本中包含的实体类型...
【专利技术属性】
技术研发人员:姜飞俊,胡于响,施晨,刘子涵,冯雁,
申请(专利权)人:阿里巴巴中国有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。