数据检测方法、装置、存储介质及设备制造方法及图纸

技术编号:26731112 阅读:27 留言:0更新日期:2020-12-15 14:32
本公开实施例公开了数据检测方法、装置、存储介质及设备。该方法包括:针对目标类别对应的分类数据集中的每个样本数据,计算当前样本数据与第一样本数据的文本相似度,并根据所述文本相似度确定所述当前样本数据对应的正常度评分,其中,所述第一样本数据包括所述分类数据集中除所述当前样本数据之外的样本数据;将正常度评分较低的第一数量的样本数据确定为检测到的异常数据。通过采用上述技术方案,可以更加快速准确地识别异常数据。

【技术实现步骤摘要】
数据检测方法、装置、存储介质及设备
本公开实施例涉及计算机
,尤其涉及数据检测方法、装置、存储介质及设备。
技术介绍
人机对话系统一般包括自动语音识别、自然语言理解、对话管理、自然语言生成和语音合成等子系统。自然语言理解子系统主要用于理解用户输入的查询语句,一般负责垂直领域分类、领域意图识别和槽位抽取三个任务,其中的垂直领域分类和领域意图识别都属于文本分类任务。通常一个人机对话系统包含用于垂直领域分类和领域意图识别的多个文本分类模型,影响分类模型的效果的一个关键因素就是模型使用的样本数据的质量。在人机对话系统的生命周期中,有多种数据来源,通常包括用户日志数据、众包采集数据、众包标注数据以及自动生成数据等。无论哪种数据来源,都会掺杂异常数据,异常数据不等同于错误数据,对于单类别的数据集而言,异常数据可包含不属于当前类别的数据,即模型预测或者人工标注导致的分类错误,使该数据被误划分至当前类别,成为当前类别下的异常数据。在对分类模型进行训练时,若采用的数据集中包含异常数据,则会对训练结果产生影响,进而导致训练得到的分类模型不够准确,因此本文档来自技高网...

【技术保护点】
1.一种数据检测方法,其特征在于,包括:/n针对目标类别对应的分类数据集中的每个样本数据,计算当前样本数据与第一样本数据的文本相似度,并根据所述文本相似度确定所述当前样本数据对应的正常度评分,其中,所述第一样本数据包括所述分类数据集中除所述当前样本数据之外的样本数据;/n将正常度评分较低的第一数量的样本数据确定为检测到的异常数据。/n

【技术特征摘要】
1.一种数据检测方法,其特征在于,包括:
针对目标类别对应的分类数据集中的每个样本数据,计算当前样本数据与第一样本数据的文本相似度,并根据所述文本相似度确定所述当前样本数据对应的正常度评分,其中,所述第一样本数据包括所述分类数据集中除所述当前样本数据之外的样本数据;
将正常度评分较低的第一数量的样本数据确定为检测到的异常数据。


2.根据权利要求1所述的方法,其特征在于,所述第一数量为所述分类数据集中样本总量与预设比例的乘积,或者,所述第一数量为正常度评分小于或等于预设正常度评分阈值的样本数据的数量;
所述将正常度评分较低的第一数量的样本数据确定为检测到的异常数据,包括:
根据所述正常度评分对所述分类数据集中的各样本数据进行升序排列,得到第一序列;
将所述第一序列中所对应的序号小于或等于预设序号阈值的样本数据确定为检测到的异常数据,其中,所述预设序号阈值与所述第一数量对应。


3.根据权利要求2所述的方法,其特征在于,所述预设正常度评分阈值为预设归一化正常度评分阈值;
在所述根据所述正常度评分对所述分类数据集中的各样本数据进行升序排列,得到第一序列之前,还包括:
对所述正常度评分进行归一化处理,得到归一化正常度评分,其中,所述归一化处理包括线性比例变换法、极差变换法以及0均值标准化中的任意一种;
所述根据所述正常度评分对所述分类数据集中的各样本数据进行升序排列,得到第一序列,包括:
根据所述归一化正常度评分对所述分类数据集中的各样本数据进行升序排列,得到第一序列。


4.根据权利要求1所述的方法,其特征在于,所述根据所述文本相似度确定所述当前样本数据对应的正常度评分,包括:
将所述文本相似度的总和或平均值确定为所述当前样本数据对应的正常度评分。


5.根据权利要求2所述的方法,其特征在于,在所述根据所述正常度评分对所述分类数据集中的各样本数据进行升序排列,得到第一序列之后,还包括:
针对所述分类数据集中的样本数据,将当前样本数据对应的第一样本数据按照所述文本相似度进行降序排序,得到第二序列,将所述第二序列作为人工标注参考信息进行保存。


6.根据权利要求5所述的方法,其特征在于,在将所述第一序列中所对应的序号小于预设序号阈值...

【专利技术属性】
技术研发人员:张贺
申请(专利权)人:北京字节跳动网络技术有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1