聊天语料的清洗方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:24799592 阅读:17 留言:0更新日期:2020-07-07 21:03
本发明专利技术实施例公开了一种聊天语料的清洗方法、装置、计算机设备及存储介质,包括:获取聊天语料,所述聊天语料包括问语料和答语料;对所述聊天语料进行分词处理,获取与所述分词结果转换成的词向量,并获取与所述聊天语料对应的字向量;将所述词向量和所述字向量输入预设的聊天语料匹配模型,获取与所述聊天语料对应的目标匹配分值;根据所述目标匹配分值对所述聊天语料进行清洗。通过上述方式,能够自动对聊天语料进行清洗,提高聊天语料的质量,从而提高后续模型训练的准确性。

【技术实现步骤摘要】
聊天语料的清洗方法、装置、计算机设备和存储介质
本专利技术涉及计算机
和深度学习
,尤其涉及一种聊天语料的清洗方法、装置、计算机设备和存储介质。
技术介绍
智能机器人聊天一直是人工领域的主要研究方向,如何通过深度学习等方法使得智能聊天机器人像人一样自如的进行聊天,例如,在产品售后部门中作为智能客服。在目前的智能聊天机器人的训练过程中,不管是检索式还是生成式,均需要闲聊语料来机器人进行训练。对智能聊天机器人进行问答训练需要大量的闲聊语料,目前大量的闲聊语料来自于网上的开源材料,但是这些闲聊语料普遍存在质量不高的情况,需要对这些闲聊语料进行清洗。而采用人工筛选的方式需要专业的人员对闲聊语料进行标注,不仅耗费人力、效率低下,还可能因为标注人员的水平和理解的不同导致结果的准确性不足,从而导致最终训练语料的质量不高。
技术实现思路
基于此,有必要针对上述问题,提出一种对聊天语料清洗效率高的聊天语料的清洗方法、装置、计算机设备和存储介质。在本专利技术的第一方面,提供了一种聊天语料的清洗方法,所述方法包括:获取聊天语料,所述聊天语料包括问语料和答语料;对所述聊天语料进行分词处理,获取与所述分词结果转换成的词向量,并获取与所述聊天语料对应的字向量;将所述词向量和所述字向量输入预设的聊天语料匹配模型,获取与所述聊天语料对应的目标匹配分值;根据所述目标匹配分值对所述聊天语料进行清洗。在本专利技术的第二方面,还提供了一种聊天语料的清洗装置,包括:>聊天语料获取模块,用于获取聊天语料,所述聊天语料包括问语料和答语料;聊天语料处理模块,用于对所述聊天语料进行分词处理,获取与所述分词结果转换成的词向量,并获取与所述聊天语料对应的字向量;模型计算模块,用于将所述词向量和所述字向量输入预设的聊天语料匹配模型,获取与所述聊天语料对应的目标匹配分值;语料清洗模块,用于根据所述目标匹配分值对所述聊天语料进行清洗。在本专利技术的第三方面,提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行以下步骤:获取聊天语料,所述聊天语料包括问语料和答语料;对所述聊天语料进行分词处理,获取与所述分词结果转换成的词向量,并获取与所述聊天语料对应的字向量;将所述词向量和所述字向量输入预设的聊天语料匹配模型,获取与所述聊天语料对应的目标匹配分值;根据所述目标匹配分值对所述聊天语料进行清洗。在本专利技术的第四方面,提供了一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行以下步骤:获取聊天语料,所述聊天语料包括问语料和答语料;对所述聊天语料进行分词处理,获取与所述分词结果转换成的词向量,并获取与所述聊天语料对应的字向量;将所述词向量和所述字向量输入预设的聊天语料匹配模型,获取与所述聊天语料对应的目标匹配分值;根据所述目标匹配分值对所述聊天语料进行清洗。实施本专利技术实施例,将具有如下有益效果:本专利技术提出了一种聊天语料的清洗方法、装置、计算机设备和存储介质,首先获取待清洗的聊天语料,每一条聊天语料包含了对应的问题和回复,对问题、回复对应的语料进行处理,分别转换成对应的词向量以及字向量,然后根据训练好的聊天语料匹配模型计算问题、回复对应的目标匹配分值,从而来判断当前聊天语料之间是否是匹配的,是否需要进行清洗。也就是说,对于原始获取的聊天语料,可以根据聊天语料匹配模型进行自动的清洗,不再需要人工逐条聊天语料进行标注,省去了大量的人工操作时间,在一定程度上减少了成本花销。并且,采用上述聊天语料的清洗方法,避免了人工操作的认为错误,也在一定程度上提高了聊天语料清洗的准确性。进一步的,在本实施例中,在对聊天语料匹配模型进行训练以及计算聊天语料之间的目标匹配分值的过程中,同时考虑了聊天语料对应的词向量和自向量,在最大程度上保留了词向量与字向量的特征,提高了在聊天语料匹配模型中特征提取的有效性,从而提高了聊天语料清晰的准确性。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。其中:图1为一个实施例中聊天语料的清洗方法的实现流程示意图;图2为一个实施例中聊天语料的清洗方法的实现流程示意图;图3为一个实施例中聊天语料匹配模型训练的实现流程示意图;图4为一个实施例中问答对语料构建示意图;图5为一个实施例中聊天语料匹配模型示意图;图6为一个实施例中聊天语料的清洗方法的实现流程示意图;图7为一个实施例中聊天语料的清洗装置的结构框图;图8为一个实施例中计算机设备的结构框图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。如图1所示,在一个实施例中,提供了一种聊天语料的清洗方法,本专利技术实施例所述的聊天语料的清洗方法的执行主体可以是服务器,当然本专利技术实施例所述的聊天语料的清洗方法的执行主体还可以是其他终端设备,例如,机器人设备。具体的,如图1所示,上述聊天语料的清洗方法包括如下步骤:步骤S102:获取聊天语料,所述聊天语料包括问语料和答语料。聊天语料为从网络或其他途径获取的未经清洗的闲聊语料,其中,每条聊天语料包括一个问句(问语料)和一个答句(答语料)。例如,相应的聊天语料为若干个问答对,如(问题1,回复1),(问题2,回复2),……需要说明的是,在本实施例中,在对聊天语料进行具体的清洗之前,还需要对聊天语料进行预处理,主要是针对原始的聊天语料中可能存在的不规范性,如,去掉反复重复的标点符号(如,一个问句后出现大量的问号,在这种情况下,仅保留其中的一个),再例如,去掉含有包情包的聊天语料,去掉聊天语料中含有的空格,过滤到敏感信息(如政治敏感词及色情暴力等词)。也就是说,经过针对聊天语料的预处理之后,可以去掉部分质量不高的聊天语料,提高后续聊天语料清洗的效率和准确性。进一步的,在本实施例中,对聊天语料还需要进一步的改写,例如,去标点、取空格、英文大小写转换、去停用词等,以去掉对语义理解无关的字符,避免对后续聊天语料的清洗过程的准确性的影响。步骤S104:对所述聊天语料进行分词处理,获取与所述分词结果转换成的词向量,并获取与所述聊天语料对应的字向量。在本实施例中,对聊天语料进行处理获取对应的词向量或字向量的过程中,既需要获取与聊天语料本文档来自技高网...

【技术保护点】
1.一种聊天语料的清洗方法,其特征在于,所述方法包括:/n获取聊天语料,所述聊天语料包括问语料和答语料;/n对所述聊天语料进行分词处理,获取与所述分词结果转换成的词向量,并获取与所述聊天语料对应的字向量;/n将所述词向量和所述字向量输入预设的聊天语料匹配模型,获取与所述聊天语料对应的目标匹配分值;/n根据所述目标匹配分值对所述聊天语料进行清洗。/n

【技术特征摘要】
1.一种聊天语料的清洗方法,其特征在于,所述方法包括:
获取聊天语料,所述聊天语料包括问语料和答语料;
对所述聊天语料进行分词处理,获取与所述分词结果转换成的词向量,并获取与所述聊天语料对应的字向量;
将所述词向量和所述字向量输入预设的聊天语料匹配模型,获取与所述聊天语料对应的目标匹配分值;
根据所述目标匹配分值对所述聊天语料进行清洗。


2.根据权利要求1所述的聊天语料的清洗方法,其特征在于,所述将所述词向量和所述字向量输入预设的聊天语料匹配模型,获取与所述聊天语料对应的目标匹配分值,还包括:
按照预设的叉乘函数分别对所述聊天语料对应的词向量和字向量进行叉乘处理,根据预设的映射函数获取叉乘处理结果的预设数量的映射向量,所述映射向量包括映射词向量和映射字向量;按照预设的融合算法对所述映射词向量和映射字向量进行融合处理,对融合后的结果进行特征提取,获取与所述聊天语料对应的第一目标匹配分值;
分别对所述聊天语料对应的词向量和字向量进行特征提取,按照预设的融合算法对特征提取后的词向量和字向量进行融合操作,将融合结果输入预设的投影层,获取与所述聊天语料对应的第二目标匹配分值;
按照预设的匹配拼接算法,根据所述第一目标匹配分值和所述第二目标匹配分值,计算与所述聊天语料对应的目标匹配分值。


3.根据权利要求1所述的聊天语料的清洗方法,其特征在于,所述对所述聊天语料进行分词处理,获取与所述分词结果转换成的词向量,并获取与所述聊天语料对应的字向量之后,还包括:
按照预设的第一长度阈值对所述词向量进行长度改写;
按照预设的第二长度阈值对所述字向量进行长度改写。


4.根据权利要求1所述的聊天语料的清洗方法,其特征在于,所述根据所述目标匹配分值对所述聊天语料进行清洗,还包括:
判断所述目标匹配分值是否大于或等于预设的匹配阈值;
在所述目标匹配分值小于所述匹配阈值的情况下,对所述聊天语料进行清洗。


5.根据权利要求1所述的聊天语料的清洗方法,其特征在于,所述方法还包括:

【专利技术属性】
技术研发人员:熊友军熊为星廖洪涛
申请(专利权)人:深圳市优必选科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1