【技术实现步骤摘要】
数据质量检测方法、装置、电子设备及介质
本专利技术涉及数据处理领域,尤其涉及一种数据质量检测方法、装置、电子设备及计算机可读存储介质。
技术介绍
对话是每天都会发生的行为,对话数据的质量对于评估整个对话数据集具有重要的意义,目前,学术界和产业界评测对话数据集的主要方式有人工测评和基于机器学习模型自动测评,人工测评的方式主观性较强,要求数据质检员有较高的专注度和业务背景知识水平,另外,考虑到人工的成本、时间等因素,人工评测方式的代价是比较高的。而于统计或机器学习模型自动评测考虑到对话数据与通用语料分布存在差异,评测结果往往会低估数据集的质量。总的来说,目前的对话数据集质量评测方案,考虑的维度还比较少,导致数据质量检测的准确性不高。
技术实现思路
本专利技术提供一种数据质量检测方法、装置、电子设备及计算机可读存储介质,其主要目的在于解决对话数据集质量评测中考虑维度较少的问题。为实现上述目的,本专利技术提供的一种数据质量检测方法,包括:获取原始数据集,其中,所述原始数据集包括对话数据;利用预设的采样方法从所述原始数据集中随机抽取预设数量的句子,对所述句子进行流畅度评分,根据所述流畅度评分,得到所述原始数据集的流畅度值;利用预构建的添加注意力机制的语言模型对所述原始数据集进行困惑度分析,得到所述原始数据集的困惑度值;将所述原始数据集中的文本切分为N个句子,利用预构建的语法检测模型对所述N个句子进行检测,统计得到不存在语法错误的M个句子,并计算得到所述原始数据集的正确 ...
【技术保护点】
1.一种数据质量检测方法,其特征在于,所述方法包括:/n获取原始数据集,其中,所述原始数据集包括对话数据;/n利用预设的采样方法从所述原始数据集中随机抽取预设数量的句子,对所述句子进行流畅度评分,根据所述流畅度评分,得到所述原始数据集的流畅度值;/n利用预构建的添加注意力机制的语言模型对所述原始数据集进行困惑度分析,得到所述原始数据集的困惑度值;/n将所述原始数据集中的文本切分为N个句子,利用预构建的语法检测模型对所述N个句子进行检测,统计得到不存在语法错误的M个句子,并计算得到所述原始数据集的正确度值;/n通过训练包含正负例的分类器,得到监督模型,利用所述监督模型对所述原始数据集中的对话数据进行匹配度检测,得到所述原始数据集的匹配度值;/n根据所述流畅度值、所述困惑度值、所述正确度值和所述匹配度值,分析得到所述原始数据集质量得分。/n
【技术特征摘要】
1.一种数据质量检测方法,其特征在于,所述方法包括:
获取原始数据集,其中,所述原始数据集包括对话数据;
利用预设的采样方法从所述原始数据集中随机抽取预设数量的句子,对所述句子进行流畅度评分,根据所述流畅度评分,得到所述原始数据集的流畅度值;
利用预构建的添加注意力机制的语言模型对所述原始数据集进行困惑度分析,得到所述原始数据集的困惑度值;
将所述原始数据集中的文本切分为N个句子,利用预构建的语法检测模型对所述N个句子进行检测,统计得到不存在语法错误的M个句子,并计算得到所述原始数据集的正确度值;
通过训练包含正负例的分类器,得到监督模型,利用所述监督模型对所述原始数据集中的对话数据进行匹配度检测,得到所述原始数据集的匹配度值;
根据所述流畅度值、所述困惑度值、所述正确度值和所述匹配度值,分析得到所述原始数据集质量得分。
2.如权利要求1所述的数据质量检测方法,其特征在于,所述利用预设的采样方法从所述原始数据集中随机抽取预设数量的句子,对所述句子进行流畅度评分,根据所述流畅度评分,得到所述原始数据集的流畅度值,包括:
利用预设的采样方法从所述原始数据集随机抽取预设数量的句子,得到句子集;
将所述句子集输出给用户,并提示用户基于阅读时的主观感受对所述句子集中的每个句子执行评分,根据所述用户的评分得到评分集;
对所述评分集进行均值处理,得到所述评分集的均值;
对所述均值进行标幺化处理,得到所述原始数据集的流畅度值。
3.如权利要求2述的数据质量检测方法,其特征在于,所述对所述均值进行标幺化处理,得到所述原始数据集的流畅度值,包括:
预设一个标幺值;
根据所述标幺值平分所述均值,得到所述原始数据集的流畅度值。
4.如权利要求1所述的数据质量检测方法,其特征在于,所述利用预构建的添加注意力机制的语言模型对所述原始数据集进行困惑度分析,得到所述原始数据集的困惑度值之前,还包括:
构建原始BERT模型;
在所述原始BERT模型内添加注意力机制,得到初级BERT模型;
利用预构建分类函数连接所述初级BERT模型,得到所述语言模型。
5.如权利要求4所述的数据质量检测方法,其特征在于,所述利用预构建的添加注意力机制的语言模型对所述原始数据集进行困惑度分析,得到所述原始数据集的困惑度值,包括:
利用所述初级BERT模型计算所述原始数据集中文本的分布式表示,并利用所述分类函数计算所述文本中的字或词在时间上的概率分布p(to...
【专利技术属性】
技术研发人员:李鹏宇,郑毅,李剑锋,
申请(专利权)人:平安科技深圳有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。