对话数据清洗方法、装置及存储介质制造方法及图纸

技术编号:26597755 阅读:21 留言:0更新日期:2020-12-04 21:19
本公开涉及一种对话数据清洗方法、装置及存储介质,包括:获取待清洗的对话数据;通过预训练好的风格分类器对待清洗的对话数据进行分类,以确定待清洗的对话数据所对应的对话风格;根据目标对话风格对待清洗的对话数据进行清洗。通过上述技术方案,根据预训练好的风格分类器对待清洗的对话数据进行分类,从而就能够清洗出与对话风格相关的对话数据,这样,带有对话风格的对话数据就能在后续应用于对话模型时提供对话风格的选择,为实现符合对话风格的对话场景提供对话语料上的助益。

【技术实现步骤摘要】
对话数据清洗方法、装置及存储介质
本公开涉及计算机领域,尤其涉及一种对话数据清洗方法、装置及存储介质。
技术介绍
相关技术中,在对对话语料进行清洗的过程中,通常会手动根据规则过滤清洗质量差的语料,或者也会存在通过生成式模型迭代算法进行对话语料的清洗,从而能够从语法和/或语义的角度对对话语料进行清洗,从而使得清洗后的语料在语法和/或语义上能够通顺,但并不能对对话语料进行风格区分。例如,可以先利用未清洗的数据训练一个<query,response>匹配模型,这个模型在训练集上准确度通常都很低。用训练好的模型把匹配度最低的那些<query,response>数据删掉,然后利用剩下的数据重新训练新的模型,之后再用新模型把匹配度最低的数据删掉,如此重复,直到模型在训练集上达到较高的准确度。为了召回一些被早期模型误过滤掉的样本,把最新的模型应用到原始的全量数据上,这样去除匹配度最低的数据后会留下更多的数据用于接下来的迭代。之后的迭代逻辑和前面的相同,利用模型清除匹配度最低的数据,再用清洗后的新数据训练新模型。由此,就本文档来自技高网...

【技术保护点】
1.一种对话数据清洗方法,其特征在于,包括:/n获取待清洗的对话数据;/n通过预训练好的风格分类器对所述待清洗的对话数据进行分类,以确定所述待清洗的对话数据所对应的对话风格;/n根据目标对话风格对所述待清洗的对话数据进行清洗。/n

【技术特征摘要】
1.一种对话数据清洗方法,其特征在于,包括:
获取待清洗的对话数据;
通过预训练好的风格分类器对所述待清洗的对话数据进行分类,以确定所述待清洗的对话数据所对应的对话风格;
根据目标对话风格对所述待清洗的对话数据进行清洗。


2.根据权利要求1所述的对话数据清洗方法,其特征在于,所述待清洗的对话数据包括问题数据和回答数据,所述通过预训练好的风格分类器对所述待清洗的对话数据进行分类,以确定所述待清洗的对话数据所对应的对话风格包括:
将所述待清洗的对话数据中的所述回答数据输入所述风格分类器中,以得到所述回答数据对应的所述对话风格;
根据所述回答数据对应的所述对话风格,确定所述回答数据所对应的所述待清洗的对话数据所对应的所述对话风格。


3.根据权利要求1所述对话数据清洗方法,其特征在于,所述风格分类器为二分类模型或多分类模型。


4.根据权利要求3所述的对话数据清洗方法,其特征在于,在所述风格分类器为二分类模型的情况下,通过以下方式对风格分类器进行训练:
获取第一训练数据,将所述第一训练数据中属于所述目标对话风格的训练数据标记为正样本语料,将所述第一训练数据中不属于所述目标对话风格的训练数据标记为负样本语料;
根据所述第一训练数据对所述风格分类器进行训练。


5.根据权利要求3所述的对话数据清洗方法,其特征在于,在所述风格分类器为多分类模型的情况下,通过以下方式对所述风格分类器进行训练:
获取第二训练数据,所述第二训练数据中包括属于多个目标分类中的任意一类的训练数据,还包括不属于所述多个目标分类中任意一类的训练数据,所述目标对话风格为所述多个目标分类中的至少一类对话风格;...

【专利技术属性】
技术研发人员:张嘉益
申请(专利权)人:北京小米松果电子有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1