一种意图数据质检方法及系统技术方案

技术编号:24206595 阅读:81 留言:0更新日期:2020-05-20 14:55
本发明专利技术公开了一种意图数据质检方法,所述方法包括:S1:获取待质检数据集,并制定训练集和测试集;S2:以bert为embedding,利用CNN训练所述的训练集得到文本分类模型;S3:通过所述的文本分类模型预测所述测试集,得到包含意图伪标签的意图数据集;S4:整合后生成标准正确率的参考值。

A method and system of intention data inspection

【技术实现步骤摘要】
一种意图数据质检方法及系统
本专利技术涉及数据处理
,尤其涉及一种意图数据质检方法及系统,主要适用于医美领域。
技术介绍
在仿真营销机器人中,意图识别和项目识别是机器人做出回复的重要依据之一。机器人依据访客的项目和意图到知识库里抽取对应的话术进行回复。意图和项目识别的准确与否关系到机器人回答的准确性,直接影响到使用者的体验。尤其在医美领域,机器人涉及到的意图有数十种,识别错误的话会导致机器人话术调用错误,出现答非所问甚至机器人不回复的情况。意图识别需要基于大量高质量的标注数据来训练模型和矫正,因此标注数据的质量决定了。在标注数据使用前需要对标注数据进行质检,质检的比例通常为标注数据集的10%,数量级可达几万至几十万。质检抽查的比例越高的数据的质量越高,耗费的人力和时间成本也越高。质检的比例低了的话,可能造成漏检,导致最终效果不好。
技术实现思路
本专利技术所要解决的技术问题是针对上述现有技术的不足提供一种意图数据质检方法及系统,能够在提高质检比例的情况下减少质检的人工和时间成本。为实现上述目的,本专利技术还提供本文档来自技高网...

【技术保护点】
1.一种意图数据质检方法,其特征在于,所述方法包括:/nS1:获取待质检数据集,并制定训练集和测试集;/nS2:以bert为embedding,利用CNN训练所述的训练集得到文本分类模型;/nS3:通过所述的文本分类模型预测所述测试集,得到包含意图伪标签的意图数据集;/nS4:整合后生成标准正确率的参考值。/n

【技术特征摘要】
1.一种意图数据质检方法,其特征在于,所述方法包括:
S1:获取待质检数据集,并制定训练集和测试集;
S2:以bert为embedding,利用CNN训练所述的训练集得到文本分类模型;
S3:通过所述的文本分类模型预测所述测试集,得到包含意图伪标签的意图数据集;
S4:整合后生成标准正确率的参考值。


2.根据权利要求1所述的一种意图数据质检方法,其特征在于,步骤S4进一步包括:
S4-1:重复步骤S2和S3执行n次,得到n组伪标签的意图数据集;其中,n定义的范围为5≤n≤10;
S4-2:提取n组伪标签的意图数据集中相同文本的文本数据集,以所述文本数据集中的伪标签为标准;
S4-...

【专利技术属性】
技术研发人员:黄友福肖龙源蔡振华李稀敏刘晓葳谭玉坤
申请(专利权)人:厦门快商通科技股份有限公司
类型:发明
国别省市:福建;35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1