待标注文本数据的推荐方法、装置及电子设备制造方法及图纸

技术编号:37628072 阅读:33 留言:0更新日期:2023-05-18 12:19
本公开提供了待标注文本数据的推荐方法、装置及电子设备,涉及人工智能技术领域,尤其涉及深度学习、自然语言处理、智能搜索技术领域。具体实现方案为:获取经第一训练文本样本集训练得到的文本处理模型、第一训练文本样本集对应的第一错误文本样本集;采用第二训练文本样本集、验证文本样本集以及文本处理模型,获取第二训练文本样本集对应的第二错误文本样本集;根据多个第二错误文本样本集,从多个第二训练文本样本集中选择正训练文本样本集以及负训练文本样本集,进而对初始文本匹配模型进行训练以及从待标注文本数据库中选择待推荐的待标注文本数据,从而能够选择得到对错误文本样本的处理准确度提升效果最好的待标注文本数据。注文本数据。注文本数据。

【技术实现步骤摘要】
待标注文本数据的推荐方法、装置及电子设备


[0001]本公开涉及人工智能
,尤其涉及深度学习、自然语言处理、智能搜索
,尤其涉及一种待标注文本数据的推荐方法、装置及电子设备。

技术介绍

[0002]目前的深度学习模型,例如文本处理模型,在训练结束后模型参数固定,对于每次相同的文本输入,给予相同的输出结果。对于实际应用中产生的错误文本样本(badcase),主要使用规则进行干预,例如,添加出现某个关键词就被分为某个类别,或者,符合某些正则语句就被分为某个类别等。
[0003]其中,规则的构建,花费的人力成本高,且容易导致出现新的错误样本,干预效率差,导致文本处理效率差。

技术实现思路

[0004]本公开提供了一种待标注文本数据的推荐方法、装置及电子设备。
[0005]根据本公开的一方面,提供了一种待标注文本数据的推荐方法,所述方法包括:获取第一训练文本样本集、多个第二训练文本样本集、验证文本样本集、经所述第一训练文本样本集训练得到的文本处理模型、所述文本处理模型在所述验证文本样本集上验证得到的第一错误文本样本集;针对每个第二训练文本样本集,采用所述第二训练文本样本集以及所述验证文本样本集对所述文本处理模型进行重新训练以及验证处理,获取所述第二训练文本样本集对应的第二错误文本样本集;根据多个所述第二错误文本样本集,从多个所述第二训练文本样本集中选择正训练文本样本集以及负训练文本样本集;根据所述第一训练文本样本集、所述正训练文本样本集以及所述负训练文本样本集,对初始文本匹配模型进行训练,得到训练好的文本匹配模型;根据所述第一错误文本样本集以及所述文本匹配模型,从待标注文本数据库中选择待推荐的待标注文本数据。
[0006]根据本公开的另一方面,提供了一种待标注文本数据的推荐装置,所述装置包括:第一获取模块,用于获取第一训练文本样本集、多个第二训练文本样本集、验证文本样本集、经所述第一训练文本样本集训练得到的文本处理模型、所述文本处理模型在所述验证文本样本集上验证得到的第一错误文本样本集;第二获取模块,用于针对每个第二训练文本样本集,采用所述第二训练文本样本集以及所述验证文本样本集对所述文本处理模型进行重新训练以及验证处理,获取所述第二训练文本样本集对应的第二错误文本样本集;第一选择模块,用于根据多个所述第二错误文本样本集,从多个所述第二训练文本样本集中选择正训练文本样本集以及负训练文本样本集;训练模块,用于根据所述第一训练文本样本集、所述正训练文本样本集以及所述负训练文本样本集,对初始文本匹配模型进行训练,得到训练好的文本匹配模型;第二选择模块,用于根据所述第一错误文本样本集以及所述文本匹配模型,从待标注文本数据库中选择待推荐的待标注文本数据。
[0007]根据本公开的另一方面,提供了一种电子设备,包括:至少一个处理器;以及与所
述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本公开上述提出的待标注文本数据的推荐方法。
[0008]根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使计算机执行本公开上述提出的待标注文本数据的推荐方法。
[0009]根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现本公开上述提出的待标注文本数据的推荐方法的步骤。
[0010]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0011]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0012]图1是根据本公开第一实施例的示意图;
[0013]图2是根据本公开第二实施例的示意图;
[0014]图3是根据本公开第三实施例的示意图;
[0015]图4是根据本公开第四实施例的示意图;
[0016]图5是用来实现本公开实施例的待标注文本数据的推荐方法的电子设备的框图。
具体实施方式
[0017]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0018]目前的深度学习模型,例如文本处理模型,在训练结束后模型参数固定,对于每次相同的文本输入,给予相同的输出结果。对于实际应用中产生的错误文本样本(badcase),主要使用规则进行干预,例如,添加出现某个关键词就被分为某个类别,或者,符合某些正则语句就被分为某个类别等。
[0019]其中,规则的构建,花费的人力成本高,且容易导致出现新的错误样本,干预效率差,导致文本处理效率差。
[0020]针对上述问题,本公开提出一种待标注文本数据的推荐方法、装置及电子设备。
[0021]图1是根据本公开第一实施例的示意图,需要说明的是,本公开实施例的待标注文本数据的推荐方法可应用于待标注文本数据的推荐装置,该装置可被配置于电子设备中,以使该电子设备可以执行待标注文本数据的推荐功能。以下实施例中以执行主体为电子设备为例进行说明。
[0022]其中,电子设备可以为任一具有计算能力的设备,例如可以为个人电脑(Personal Computer,简称PC)、移动终端、服务器等,移动终端例如可以为车载设备、手机、平板电脑、个人数字助理、穿戴式设备、智能音箱等具有各种操作系统、触摸屏和/或显示屏的硬件设备。
[0023]如图1所示,该待标注文本数据的推荐方法可以包括如下步骤:
[0024]步骤101,获取第一训练文本样本集、多个第二训练文本样本集、验证文本样本集、经第一训练文本样本集训练得到的文本处理模型、文本处理模型在验证文本样本集上验证得到的第一错误文本样本集。
[0025]在本公开实施例中,第一训练文本样本集中可以包括多个文本样本,以及文本样本对应的标注数据。第二训练文本样本集中可以包括多个文本样本,以及文本样本对应的标注数据。验证文本样本集中也可以包括多个文本样本,以及文本样本对应的标注数据。其中,标注数据例如,文本样本的类别、文本样本所属的领域、文本样本中的关键词等。
[0026]在本公开实施例中,电子设备执行步骤101的过程例如可以为,获取训练文本样本数据以及验证文本样本集,训练文本样本数据包括多个已标注文本数据;对训练文本样本数据进行拆分处理,得到第一训练文本样本集以及多个第二训练文本样本集;采用第一训练文本样本集对初始文本处理模型进行训练,得到文本处理模型;采用验证文本样本集对文本处理模型进行验证处理,得到第一训练文本样本集对应的第一错误文本样本集。
[002本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种待标注文本数据的推荐方法,包括:获取第一训练文本样本集、多个第二训练文本样本集、验证文本样本集、经所述第一训练文本样本集训练得到的文本处理模型、所述文本处理模型在所述验证文本样本集上验证得到的第一错误文本样本集;针对每个第二训练文本样本集,采用所述第二训练文本样本集以及所述验证文本样本集对所述文本处理模型进行重新训练以及验证处理,获取所述第二训练文本样本集对应的第二错误文本样本集;根据多个所述第二错误文本样本集,从多个所述第二训练文本样本集中选择正训练文本样本集以及负训练文本样本集;根据所述第一训练文本样本集、所述正训练文本样本集以及所述负训练文本样本集,对初始文本匹配模型进行训练,得到训练好的文本匹配模型;根据所述第一错误文本样本集以及所述文本匹配模型,从待标注文本数据库中选择待推荐的待标注文本数据。2.根据权利要求1所述的方法,其中,所述获取第一训练文本样本集、多个第二训练文本样本集、验证文本样本集、经所述第一训练文本样本集训练得到的文本处理模型、所述文本处理模型在所述验证文本样本集上验证得到的第一错误文本样本集,包括:获取训练文本样本数据以及验证文本样本集,所述训练文本样本数据包括多个已标注文本数据;对所述训练文本样本数据进行拆分处理,得到所述第一训练文本样本集以及多个所述第二训练文本样本集;采用所述第一训练文本样本集对初始文本处理模型进行训练,得到所述文本处理模型;采用所述验证文本样本集对所述文本处理模型进行验证处理,得到所述第一训练文本样本集对应的第一错误文本样本集。3.根据权利要求1所述的方法,其中,所述根据多个所述第二错误文本样本集,从多个所述第二训练文本样本集中选择正训练文本样本集以及负训练文本样本集,包括:根据多个所述第二错误文本样本集中错误文本样本的数量,对多个所述第二错误文本样本集进行升序排序,得到排序结果;将所述排序结果中排序在最前的第二错误文本样本集,确定为所述正训练文本样本集;将所述排序结果中排序在最后的第二错误文本样本集,确定为所述负训练文本样本集。4.根据权利要求1所述的方法,其中,所述根据所述第一训练文本样本集、所述正训练文本样本集以及所述负训练文本样本集,对初始文本匹配模型进行训练,得到训练好的文本匹配模型,包括:对所述第一训练文本样本集中的文本样本,以及所述正训练文本样本集中的文本样本进行配对处理,得到多个正文本样本对;对所述第一训练文本样本集中的文本样本,以及所述负训练文本样本集中的文本样本进行配对处理,得到多个负文本样本对;
采用所述正文本样本对以及所述负文本样本对,对所述初始文本匹配模型进行训练,得到训练好的文本匹配模型。5.根据权利要求1所述的方法,其中,所述根据所述第一错误文本样本集以及所述文本匹配模型,从待标注文本数据库中选择待推荐的待标注文本数据,包括:针对所述第一错误文本样本集中的每个错误文本样本,根据所述文本匹配模型,获取所述待标注文本数据库中与所述错误文本样本匹配的候选待标注文本数据;将所述第一错误文本样本集中各个所述错误文本样本匹配的候选待标注文本数据,确定为所述待推荐的待标注文本数据。6.根据权利要求1所述的方法,其中,所述方法还包括:获取文本相似度模型;根据所述文本相似度模型,获取所述待标注文本数据库中所述错误文本样本对应的相似待标注文本数据;将所述第一错误文本样本集中各个所述错误文本样本对应的相似待标注文本数据,确定为所述待推荐的待标注文本数据。7.根据权利要求6所述的方法,其中,所述根据所述文本相似度模型,获取所述待标注文本数据库中所述错误文本样本对应的相似待标注文本数据,包括:针对所述第一错误文本样本集中的每个错误文本样本,提取所述错误文本样本中的关键词;根据所述关键词查询所述待标注文本数据库,将所述待标注文本数据库中包括所述关键词的待标注文本数据,确定为所述错误文本样本对应的候选相似待标注文本数据;根据所述文本相似度模型,获取所述候选相似待标注文本数据中与所述错误文本样本对应的相似待标注文本数据。8.根据权利要求1所述的方法,其中,所述方法还包括:对所述待推荐的待标注文本数据进行标注处理以及组合处理,得到新增训练文本样本集;采用所述新增训练文本样本集,对经所述第一训练文本样本集训练得到的文本处理模型进行训练处理,得到训练好的文本处理模型。9.一种待标注文本数据的推荐装置,包括:第一获取模块,用于获取第一训练文本样本集、多个第二训练文本样本集、验证文本样本集、经...

【专利技术属性】
技术研发人员:尹何举韩磊刘凯丁鑫哲
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1