【技术实现步骤摘要】
模型处理方法、装置、存储介质及电子设备
本公开涉及人工智能
,具体涉及一种模型处理方法、模型处理装置、计算机可读存储介质及电子设备。
技术介绍
人工智能(ArtificialIntelligence,简称AI)是研究使计算机来模拟人的某些思维过程和智能行为的学科,随着AI技术的发展,尤其是自然语言处理(NaturalLanguageProcessing,简称NLP)技术的进步,诸如智能助理、机器翻译等与自然语言理解相关的AI辅助工具得以实现并获得了广泛应用。与NLP技术相关的具体应用的实现主要得益于大数据处理和机器学习框架以及更进一步的深度学习算法。而且随着相关应用的落地实施,可以获得真实的用户反馈,并在用户反馈信息的帮助下对相关应用的算法或者模型进行改进和完善。NLP技术中涉及的大部分任务是监督学习问题,例如序列标注、文本分类、情感分析等应用都需要标注数据进行模型训练。现有技术中大多通过人工标注的方式得到标注数据,这一过程不仅繁琐、低效而且标注错误率也较高,严重影响模型的预测效果。因此,如何改善数据标注质量对 ...
【技术保护点】
1.一种模型处理方法,其特征在于,包括:/n将初始标注语料加入初始训练集,利用所述初始训练集训练得到语言模型;/n获取所述语言模型输出的预测结果,并提取所述预测结果中错误预测结果的特征信息;/n当判断所述特征信息与所述初始标注语料相关时,根据所述特征信息生成预设数量的模拟标注语料;/n将所述模拟标注语料加入所述初始训练集,并利用加入所述模拟标注语料的所述初始训练集继续训练所述语言模型。/n
【技术特征摘要】
1.一种模型处理方法,其特征在于,包括:
将初始标注语料加入初始训练集,利用所述初始训练集训练得到语言模型;
获取所述语言模型输出的预测结果,并提取所述预测结果中错误预测结果的特征信息;
当判断所述特征信息与所述初始标注语料相关时,根据所述特征信息生成预设数量的模拟标注语料;
将所述模拟标注语料加入所述初始训练集,并利用加入所述模拟标注语料的所述初始训练集继续训练所述语言模型。
2.根据权利要求1所述的模型处理方法,其特征在于,所述利用所述初始训练集训练得到语言模型,包括:
按照预设分类规则对所述初始训练集中的初始标注语料进行分类形成多个分类训练集;
利用分布式管理的多个所述分类训练集训练得到所述语言模型。
3.根据权利要求2所述的模型处理方法,其特征在于,所述方法还包括:
当判断所述特征信息与一分类训练集相关时,采集属于该分类训练集的追加原始语料;
获取对所述追加原始语料进行标注后得到的追加标注语料;
将所述追加标注语料加入所述初始训练集,并利用加入所述追加标注语料的所述初始训练集继续训练所述语言模型。
4.根据权利要求1所述的模型处理方法,其特征在于,所述语言模型包括分类模型和语义模型;
所述利用所述初始训练集训练得到语言模型,包括:
利用所述初始训练集训练得到所述分类模型;
利用经过所述分类模型分类后的二次训练集训练得到所述语义模型。
5.根据权利要求4所述的模型处理方法,其特征在于,所述分类模型是基于卷积神经网络的分类模型。
6.根据权利要求4所述的模型处理方法,其特征在于,所述语义模型是基于长短期记忆网络的语义模型。
7.根据权利要求4所述的模型处理方法,其特征在于,利用经过所述分类模型分类后的二次训练集训练得到所述语义模型,包括:
获取经过所述分类模型分类后的多种类别的训练语料;
将属于预设类别的训练语料加入所述二次训练集;
利用所述二次训练集训练得到所述语义模型。
8.根据权利要求7所述的模型处理方法,其特征在于,所述方法还包括:
当判断所述特征信息与所述分类模型分类结果中的一种分类类别相关...
【专利技术属性】
技术研发人员:王颖帅,李晓霞,苗诗雨,
申请(专利权)人:北京京东尚科信息技术有限公司,北京京东世纪贸易有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。