聊天语料的清洗方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:24853544 阅读:32 留言:0更新日期:2020-07-10 19:07
本发明专利技术实施例公开了一种聊天语料的清洗方法、装置、计算机设备及存储介质,包括:获取聊天语料,所述聊天语料包括问语料和答语料;将所述聊天语料进行分词处理,并将分词结果转换成词向量,将所述词向量输入预设的深度检索匹配排序模型,获取与所述聊天语料对应的匹配分值;根据所述匹配分值对所述聊天语料进行清洗。通过上述方式,能够自动对聊天语料进行清洗,提高聊天语料的质量,从而提高后续模型训练的准确性。

【技术实现步骤摘要】
聊天语料的清洗方法、装置、计算机设备和存储介质
本专利技术涉及计算机
和深度学习
,尤其涉及一种聊天语料的清洗方法、装置、计算机设备和存储介质。
技术介绍
智能机器人聊天一直是人工领域的主要研究方向,如何通过深度学习等方法使得智能聊天机器人像人一样自如的进行聊天,例如,在产品售后部门中作为智能客服。在目前的智能聊天机器人的训练过程中,不管是检索式还是生成式,均需要闲聊语料来机器人进行训练。对智能聊天机器人进行问答训练需要大量的闲聊语料,目前大量的闲聊语料来自于网上的开源材料,但是这些闲聊语料普遍存在质量不高的情况,需要对这些闲聊语料进行清洗。而采用人工筛选的方式需要专业的人员对闲聊语料进行标注,不仅耗费人力、效率低下,还可能因为标注人员的水平和理解的不同导致结果的准确性不足,从而导致最终训练语料的质量不高。
技术实现思路
基于此,有必要针对上述问题,提出一种对聊天语料清洗效率高的聊天语料的清洗方法、装置、计算机设备和存储介质。在本专利技术的第一方面,提供了一种聊天语料的清洗方法,所述方法包括:...

【技术保护点】
1.一种聊天语料的清洗方法,其特征在于,所述方法包括:/n获取聊天语料,所述聊天语料包括问语料和答语料;/n将所述聊天语料进行分词处理,并将分词结果转换成词向量;/n将所述词向量输入预设的深度检索匹配排序模型,获取与所述聊天语料对应的匹配分值;/n根据所述匹配分值对所述聊天语料进行清洗。/n

【技术特征摘要】
1.一种聊天语料的清洗方法,其特征在于,所述方法包括:
获取聊天语料,所述聊天语料包括问语料和答语料;
将所述聊天语料进行分词处理,并将分词结果转换成词向量;
将所述词向量输入预设的深度检索匹配排序模型,获取与所述聊天语料对应的匹配分值;
根据所述匹配分值对所述聊天语料进行清洗。


2.根据权利要求1所述的聊天语料的清洗方法,其特征在于,所述将所述词向量输入预设的深度检索匹配排序模型,获取与所述聊天语料对应的匹配分值,还包括:
对所述问语料对应的词向量、所述答语料对应的词向量进行叉乘处理,按照预设的映射函数获取叉乘处理结果的预设数量的映射值,根据预设的激活函数、预设的投影函数获取与所述映射值对应的匹配分值。


3.根据权利要求1所述的聊天语料的清洗方法,其特征在于,所述将分词结果转换成词向量之后,还包括:
按照预设的长度阈值对所述词向量进行长度改写。


4.根据权利要求1所述的聊天语料的清洗方法,其特征在于,所述根据所述匹配分值对所述聊天语料进行清洗,还包括:
判断所述匹配分值是否大于或等于预设的匹配阈值;
在所述匹配分值小于所述匹配阈值的情况下,对所述聊天语料进行清洗。


5.根据权利要求1所述的聊天语料的清洗方法,其特征在于,所述方法还包括:
获取训练语料,根据所述训练语料构建问答对语料;
将所述问答对语料进行分词处理,并将分词结果转换成词向量;
根据所述问答对语料对预设的深度检索匹配排序模型进行训练,获取训练完成的深度检索匹配排序模型。


6.根据权利要求5所述的聊天语料的清洗方法,其特征在于,所述问答对语料包括训练问语料、第一答语料和第二答语料;
所...

【专利技术属性】
技术研发人员:熊友军熊为星廖洪涛
申请(专利权)人:深圳市优必选科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1