【技术实现步骤摘要】
待标注文本数据的推荐方法、装置及电子设备
[0001]本公开涉及人工智能
,尤其涉及深度学习、自然语言处理、智能搜索
,尤其涉及一种待标注文本数据的推荐方法、装置及电子设备。
技术介绍
[0002]目前的深度学习模型,例如文本处理模型,在训练结束后模型参数固定,对于每次相同的文本输入,给予相同的输出结果。对于实际应用中产生的错误文本样本(badcase),主要使用规则进行干预,例如,添加出现某个关键词就被分为某个类别,或者,符合某些正则语句就被分为某个类别等。
[0003]其中,规则的构建,花费的人力成本高,且容易导致出现新的错误样本,干预效率差,导致文本处理效率差。
技术实现思路
[0004]本公开提供了一种待标注文本数据的推荐方法、装置及电子设备。
[0005]根据本公开的一方面,提供了一种待标注文本数据的推荐方法,所述方法包括:获取第一训练文本样本集、多个第二训练文本样本集、验证文本样本集、经所述第一训练文本样本集训练得到的文本处理模型、所述文本处理模型在所述验证文本样本集上验证得到的第一错误文本样本集;针对每个第二训练文本样本集,采用所述第二训练文本样本集以及所述验证文本样本集对所述文本处理模型进行重新训练以及验证处理,获取所述第二训练文本样本集对应的第二错误文本样本集;根据多个所述第二错误文本样本集,从多个所述第二训练文本样本集中选择正训练文本样本集以及负训练文本样本集;根据所述第一训练文本样本集、所述正训练文本样本集以及所述负训练文本样本集,对初始文本匹配模型进 ...
【技术保护点】
【技术特征摘要】
1.一种待标注文本数据的推荐方法,包括:获取第一训练文本样本集、多个第二训练文本样本集、验证文本样本集、经所述第一训练文本样本集训练得到的文本处理模型、所述文本处理模型在所述验证文本样本集上验证得到的第一错误文本样本集;针对每个第二训练文本样本集,采用所述第二训练文本样本集以及所述验证文本样本集对所述文本处理模型进行重新训练以及验证处理,获取所述第二训练文本样本集对应的第二错误文本样本集;根据多个所述第二错误文本样本集,从多个所述第二训练文本样本集中选择正训练文本样本集以及负训练文本样本集;根据所述第一训练文本样本集、所述正训练文本样本集以及所述负训练文本样本集,对初始文本匹配模型进行训练,得到训练好的文本匹配模型;根据所述第一错误文本样本集以及所述文本匹配模型,从待标注文本数据库中选择待推荐的待标注文本数据。2.根据权利要求1所述的方法,其中,所述获取第一训练文本样本集、多个第二训练文本样本集、验证文本样本集、经所述第一训练文本样本集训练得到的文本处理模型、所述文本处理模型在所述验证文本样本集上验证得到的第一错误文本样本集,包括:获取训练文本样本数据以及验证文本样本集,所述训练文本样本数据包括多个已标注文本数据;对所述训练文本样本数据进行拆分处理,得到所述第一训练文本样本集以及多个所述第二训练文本样本集;采用所述第一训练文本样本集对初始文本处理模型进行训练,得到所述文本处理模型;采用所述验证文本样本集对所述文本处理模型进行验证处理,得到所述第一训练文本样本集对应的第一错误文本样本集。3.根据权利要求1所述的方法,其中,所述根据多个所述第二错误文本样本集,从多个所述第二训练文本样本集中选择正训练文本样本集以及负训练文本样本集,包括:根据多个所述第二错误文本样本集中错误文本样本的数量,对多个所述第二错误文本样本集进行升序排序,得到排序结果;将所述排序结果中排序在最前的第二错误文本样本集,确定为所述正训练文本样本集;将所述排序结果中排序在最后的第二错误文本样本集,确定为所述负训练文本样本集。4.根据权利要求1所述的方法,其中,所述根据所述第一训练文本样本集、所述正训练文本样本集以及所述负训练文本样本集,对初始文本匹配模型进行训练,得到训练好的文本匹配模型,包括:对所述第一训练文本样本集中的文本样本,以及所述正训练文本样本集中的文本样本进行配对处理,得到多个正文本样本对;对所述第一训练文本样本集中的文本样本,以及所述负训练文本样本集中的文本样本进行配对处理,得到多个负文本样本对;
采用所述正文本样本对以及所述负文本样本对,对所述初始文本匹配模型进行训练,得到训练好的文本匹配模型。5.根据权利要求1所述的方法,其中,所述根据所述第一错误文本样本集以及所述文本匹配模型,从待标注文本数据库中选择待推荐的待标注文本数据,包括:针对所述第一错误文本样本集中的每个错误文本样本,根据所述文本匹配模型,获取所述待标注文本数据库中与所述错误文本样本匹配的候选待标注文本数据;将所述第一错误文本样本集中各个所述错误文本样本匹配的候选待标注文本数据,确定为所述待推荐的待标注文本数据。6.根据权利要求1所述的方法,其中,所述方法还包括:获取文本相似度模型;根据所述文本相似度模型,获取所述待标注文本数据库中所述错误文本样本对应的相似待标注文本数据;将所述第一错误文本样本集中各个所述错误文本样本对应的相似待标注文本数据,确定为所述待推荐的待标注文本数据。7.根据权利要求6所述的方法,其中,所述根据所述文本相似度模型,获取所述待标注文本数据库中所述错误文本样本对应的相似待标注文本数据,包括:针对所述第一错误文本样本集中的每个错误文本样本,提取所述错误文本样本中的关键词;根据所述关键词查询所述待标注文本数据库,将所述待标注文本数据库中包括所述关键词的待标注文本数据,确定为所述错误文本样本对应的候选相似待标注文本数据;根据所述文本相似度模型,获取所述候选相似待标注文本数据中与所述错误文本样本对应的相似待标注文本数据。8.根据权利要求1所述的方法,其中,所述方法还包括:对所述待推荐的待标注文本数据进行标注处理以及组合处理,得到新增训练文本样本集;采用所述新增训练文本样本集,对经所述第一训练文本样本集训练得到的文本处理模型进行训练处理,得到训练好的文本处理模型。9.一种待标注文本数据的推荐装置,包括:第一获取模块,用于获取第一训练文本样本集、多个第二训练文本样本集、验证文本样本集、经...
【专利技术属性】
技术研发人员:尹何举,韩磊,刘凯,丁鑫哲,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。