数据质量检测方法、装置、电子设备及介质制造方法及图纸

技术编号:28979843 阅读:20 留言:0更新日期:2021-06-23 09:26
本发明专利技术涉及数据处理技术,揭露一种数据质量检测方法,包括:获取原始数据集,利用预构建的流畅度分析模型对原始数据集进行流畅度处理,得到流畅度值,利用预构建的语言模型对原始数据集进行困惑度分析,得到困惑度值,利用预构建的语法检测模型对原始数据集进行正确度检测处理,得到正确度值,利用预构建的监督模型对原始数据集中的对话数据进行匹配度检测,得到匹配度值;根据流畅度值、困惑度值、正确度值和匹配度值,分析得到原始数据集质量得分。本发明专利技术还涉及区块链技术,所述原始数据集质量得分可以存储在区块链节点中。本发明专利技术还揭露一种数据质量检测装置、电子设备及存储介质。本发明专利技术可以提高数据质量检测的准确性。

【技术实现步骤摘要】
数据质量检测方法、装置、电子设备及介质
本专利技术涉及数据处理领域,尤其涉及一种数据质量检测方法、装置、电子设备及计算机可读存储介质。
技术介绍
对话是每天都会发生的行为,对话数据的质量对于评估整个对话数据集具有重要的意义,目前,学术界和产业界评测对话数据集的主要方式有人工测评和基于机器学习模型自动测评,人工测评的方式主观性较强,要求数据质检员有较高的专注度和业务背景知识水平,另外,考虑到人工的成本、时间等因素,人工评测方式的代价是比较高的。而于统计或机器学习模型自动评测考虑到对话数据与通用语料分布存在差异,评测结果往往会低估数据集的质量。总的来说,目前的对话数据集质量评测方案,考虑的维度还比较少,导致数据质量检测的准确性不高。
技术实现思路
本专利技术提供一种数据质量检测方法、装置、电子设备及计算机可读存储介质,其主要目的在于解决对话数据集质量评测中考虑维度较少的问题。为实现上述目的,本专利技术提供的一种数据质量检测方法,包括:获取原始数据集,其中,所述原始数据集包括对话数据;利用预设的采样方法从所述原始数据集中随机抽取预设数量的句子,对所述句子进行流畅度评分,根据所述流畅度评分,得到所述原始数据集的流畅度值;利用预构建的添加注意力机制的语言模型对所述原始数据集进行困惑度分析,得到所述原始数据集的困惑度值;将所述原始数据集中的文本切分为N个句子,利用预构建的语法检测模型对所述N个句子进行检测,统计得到不存在语法错误的M个句子,并计算得到所述原始数据集的正确度值;通过训练包含正负例的分类器,得到监督模型,利用所述监督模型对所述原始数据集中的对话数据进行匹配度检测,得到所述原始数据集的匹配度值;根据所述流畅度值、所述困惑度值、所述正确度值和所述匹配度值,分析得到所述原始数据集质量得分。可选地,所述利用预设的采样方法从所述原始数据集中随机抽取预设数量的句子,对所述句子进行流畅度评分,根据所述流畅度评分,得到所述原始数据集的流畅度值,包括:利用预设的采样方法从所述原始数据集随机抽取预设数量的句子,得到句子集;将所述句子集输出给用户,并提示用户基于阅读时的主观感受对所述句子集中的每个句子执行评分,根据所述用户的评分得到评分集;对所述评分集进行均值处理,得到所述评分集的均值;对所述均值进行标幺化处理,得到所述原始数据集的流畅度值。可选地,所述对所述均值进行标幺化处理,得到所述原始数据集的流畅度值,包括:预设一个标幺值;根据所述标幺值对所述均值进行平分,得到所述原始数据集的流畅度值。可选地,所述利用预构建的添加注意力机制的语言模型对所述原始数据集进行困惑度分析,得到所述原始数据集的困惑度值之前,还包括:构建原始BERT模型;在所述原始BERT模型内添加注意力机制,得到初级BERT模型;利用预构建分类函数连接所述初级BERT模型,得到所述语言模型。可选地,所述利用预构建的语言模型对所述原始数据集进行困惑度分析,得到所述原始数据集的困惑度值,包括:利用所述初级BERT模型计算所述原始数据集中文本的分布式表示,并利用所述分类函数计算所述文本中的字或词在时间上的概率分布p(tokent);利用第一预设公式计算所述原始数据集的困惑度值。可选地,所述利用第一预设公式计算所述原始数据集的困惑度值,包括:利用下述第一预设公式计算所述困惑度值:其中,T为所述文本中所有字或词总数量。可选地,所述通过训练包含正负例的分类器,得到监督模型,利用所述监督模型对所述原始数据集中的对话数据进行匹配度检测,得到所述原始数据集的匹配度值,包括:使用预设领域的对话数据构造包含正负例的分类器训练数据集;利用所述训练数据集训练一个分类器,得到监督模型;获取所述原始数据集中的每一对对话数据,利用所述监督模型计算所述对话数据的匹配度;利用第二预设公式计算得到所述原始数据集的匹配度值。为了解决上述问题,本专利技术还提供一种数据质量检测装置,所述装置包括:原始数据集获取模块,用于获取原始数据集,其中,所述原始数据集包括对话数据;流畅度分析模块,用于利用预设的采样方法从所述原始数据集中随机抽取预设数量的句子,对所述句子进行流畅度评分,根据所述流畅度评分,得到所述原始数据集的流畅度值;困惑度分析模块,用于利用预构建的添加注意力机制的语言模型对所述原始数据集进行困惑度分析,得到所述原始数据集的困惑度值;正确度分析模块,用于将所述原始数据集中的文本切分为N个句子,利用预构建的语法检测模型对所述N个句子进行检测,统计得到不存在语法错误的M个句子,并计算得到所述原始数据集的正确度值;匹配度分析模块,用于通过训练包含正负例的分类器,得到监督模型,利用所述监督模型对所述原始数据集中的对话数据进行匹配度检测,得到所述原始数据集的匹配度值;质量得分计算模块,用于根据所述流畅度值、所述困惑度值、所述正确度值和所述匹配度值,分析得到所述原始数据集质量得分。为了解决上述问题,本专利技术还提供一种电子设备,所述电子设备包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的计算机程序指令,所述计算机程序指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述的数据质量检测方法。为了解决上述问题,本专利技术还提供一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现上述的数据质量检测方法。本专利技术实施例对所述原始数据集进行流畅度处理,得到流畅度值;对所述原始数据集进行困惑度分析,得到困惑度值;对所述原始数据集进行正确度检测处理,得到正确度值;对所述原始数据集中的对话数据进行匹配度检测,得到匹配度值;并根据所述流畅度值、所述困惑度值、所述正确度值和所述匹配度值,分析得到所述原始数据集质量得分。本专利技术实施例从对话数据的流畅度、困惑度、正确度和匹配度四个维度对对话数据进行分析计算,得到对话数据的质量得分。因此本专利技术提出的数据质量检测方法、装置及计算机可读存储介质,可以提高数据质量检测方法的准确率。附图说明图1为本专利技术一实施例提供的数据质量检测方法的流程示意图;图2为图1所示的数据质量检测方法中其中一个步骤的流程示意图;图3为本专利技术一实施例提供的数据质量检测装置的模块示意图;图4为本专利技术一实施例提供的实现数据质量检测方法的电子设备的内部结构示意图;本专利技术目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。具体实施方式应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。本申请实施例提供一种数据质量检测方法。所述数据质量检测方法的执行主体包括但不限于服务端、终端等能够被配置为执行本申请实施例提供的该方法的电本文档来自技高网...

【技术保护点】
1.一种数据质量检测方法,其特征在于,所述方法包括:/n获取原始数据集,其中,所述原始数据集包括对话数据;/n利用预设的采样方法从所述原始数据集中随机抽取预设数量的句子,对所述句子进行流畅度评分,根据所述流畅度评分,得到所述原始数据集的流畅度值;/n利用预构建的添加注意力机制的语言模型对所述原始数据集进行困惑度分析,得到所述原始数据集的困惑度值;/n将所述原始数据集中的文本切分为N个句子,利用预构建的语法检测模型对所述N个句子进行检测,统计得到不存在语法错误的M个句子,并计算得到所述原始数据集的正确度值;/n通过训练包含正负例的分类器,得到监督模型,利用所述监督模型对所述原始数据集中的对话数据进行匹配度检测,得到所述原始数据集的匹配度值;/n根据所述流畅度值、所述困惑度值、所述正确度值和所述匹配度值,分析得到所述原始数据集质量得分。/n

【技术特征摘要】
1.一种数据质量检测方法,其特征在于,所述方法包括:
获取原始数据集,其中,所述原始数据集包括对话数据;
利用预设的采样方法从所述原始数据集中随机抽取预设数量的句子,对所述句子进行流畅度评分,根据所述流畅度评分,得到所述原始数据集的流畅度值;
利用预构建的添加注意力机制的语言模型对所述原始数据集进行困惑度分析,得到所述原始数据集的困惑度值;
将所述原始数据集中的文本切分为N个句子,利用预构建的语法检测模型对所述N个句子进行检测,统计得到不存在语法错误的M个句子,并计算得到所述原始数据集的正确度值;
通过训练包含正负例的分类器,得到监督模型,利用所述监督模型对所述原始数据集中的对话数据进行匹配度检测,得到所述原始数据集的匹配度值;
根据所述流畅度值、所述困惑度值、所述正确度值和所述匹配度值,分析得到所述原始数据集质量得分。


2.如权利要求1所述的数据质量检测方法,其特征在于,所述利用预设的采样方法从所述原始数据集中随机抽取预设数量的句子,对所述句子进行流畅度评分,根据所述流畅度评分,得到所述原始数据集的流畅度值,包括:
利用预设的采样方法从所述原始数据集随机抽取预设数量的句子,得到句子集;
将所述句子集输出给用户,并提示用户基于阅读时的主观感受对所述句子集中的每个句子执行评分,根据所述用户的评分得到评分集;
对所述评分集进行均值处理,得到所述评分集的均值;
对所述均值进行标幺化处理,得到所述原始数据集的流畅度值。


3.如权利要求2述的数据质量检测方法,其特征在于,所述对所述均值进行标幺化处理,得到所述原始数据集的流畅度值,包括:
预设一个标幺值;
根据所述标幺值平分所述均值,得到所述原始数据集的流畅度值。


4.如权利要求1所述的数据质量检测方法,其特征在于,所述利用预构建的添加注意力机制的语言模型对所述原始数据集进行困惑度分析,得到所述原始数据集的困惑度值之前,还包括:
构建原始BERT模型;
在所述原始BERT模型内添加注意力机制,得到初级BERT模型;
利用预构建分类函数连接所述初级BERT模型,得到所述语言模型。


5.如权利要求4所述的数据质量检测方法,其特征在于,所述利用预构建的添加注意力机制的语言模型对所述原始数据集进行困惑度分析,得到所述原始数据集的困惑度值,包括:
利用所述初级BERT模型计算所述原始数据集中文本的分布式表示,并利用所述分类函数计算所述文本中的字或词在时间上的概率分布p(to...

【专利技术属性】
技术研发人员:李鹏宇郑毅李剑锋
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1