语料处理方法、装置及存储介质制造方法及图纸

技术编号:27315657 阅读:20 留言:0更新日期:2021-02-10 09:47
本申请涉及数据处理技术,尤其涉及一种语料处理方法、装置及存储介质,方法包括:获取语音对话内容,所述语音对话内容为针对预设内容的答复信息;在所述语音对话内容的信噪比大于预设阈值时,将所述语音对话内容处理为文本内容;将所述文本内容输入到预先训练好的神经网络模型,得到目标标签,所述目标标签用于标记说话人主体的真实意图。采用本申请实施例能够快速将语音对话内容转化为文本,且通过神经网络模型识别相应的标签,能够提升语料标记效率。率。率。

【技术实现步骤摘要】
语料处理方法、装置及存储介质


[0001]本申请涉及数据处理
,具体涉及一种语料处理方法、装置及存储介质。

技术介绍

[0002]以智能语音项目为例,该项目是一个通过电话外呼,客户接通电话后,进行交互。项目刚开始没有语料,需要从零开始积累语料并提供给人工智能AI模型进行训练。按照现在业内一般的做法,先让系统上线到测试环境或者内测生产环境,由员工扮演客户角色,与AI机器人进行对话,积累语料后,导出对话文本,人工进行标注。还有一些可能有部分语料,可以对这些数据进行标注,往往数据还不够,也需要继续进行收集。也是按照员工扮演客户角色与AI机器人进行对话收集语料,然后再进行标注,如何提升语料标记的效率的问题亟待解决。

技术实现思路

[0003]本申请实施例提供了一种语料处理方法、装置及存储介质,能够提升语料标记效率。
[0004]第一方面,本申请实施例提供一种语料处理方法,所述方法包括:
[0005]获取语音对话内容,其中,所述语音对话内容为针对预设内容的答复信息;
[0006]在所述语音对话内容的信噪比大于本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种语料处理方法,其特征在于,所述方法包括:获取语音对话内容,其中,所述语音对话内容为针对预设内容的答复信息;在所述语音对话内容的信噪比大于预设阈值时,将所述语音对话内容处理为文本内容;将所述文本内容输入到预先训练好的神经网络模型,得到目标标签,所述目标标签用于标记说话人主体的真实意图。2.根据权利要求1所述的方法,其特征在于,所述将所述语音对话内容处理为文本内容,包括:将所述语音对话内容按照预设规则进行截取,得到第一语音信息,其中,所述预设规则包括按照所述语音对话内容中的声纹特征划分所述说话人主体及对应的语音内容,并根据所述说话人主体对所述语音信息进行截取分段;对所述第一语音信息进行滤波处理,得到第二语音信息;将所述第二语音信息输入到预设语义分割模型,得到所述文本内容。3.根据权利要求2所述的方法,其特征在于,所述对所述第一语音信息进行滤波处理,得到第二语音信息,包括:获取所述说话人主体的声纹特征匹配滤波处理规则;根据所匹配的所述滤波处理规则对对应的所述第一语音信息进行滤波处理,得到所述第二语音信息。4.根据权利要求1或2所述的方法,其特征在于,所述将所述文本内容输入到预先训练好的神经网络模型,得到目标标签,包括:获取目标身份信息;按照预设的身份信息与模型参数之间的映射关系,确定所述目标身份信息对应的目标模型参数;基于所述目标模型参数将所述文本内容输入到预先训练好的神经网络模型,得到目标标签。5.根据权利要求4所述的方法,其特征在于,所述基于所述目标模型参数将所述文本内容输入到预先训练好的神经网络模型,得到目标标签,包括:对所述文本内容进行特征提取,得到目标特征集;基于所述目标模型参数将所述目标特征集输入到所述预设训练好的神经网络模型,得到所述目标标签。6.根据权利要求1或2所述的方法,其特征在于,在所述获取语音对话内容之前,所述方法还包括:获取语料集,所述语料集包括多个语料,每一语料对应一个标签,所述多个语...

【专利技术属性】
技术研发人员:陆华
申请(专利权)人:平安消费金融有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1