基于BERT的数据纠错方法、装置、设备及存储介质制造方法及图纸

技术编号:29461292 阅读:23 留言:0更新日期:2021-07-27 17:31
本申请实施例涉及数据处理领域,公开了一种基于BERT的数据纠错方法、装置、设备及存储介质,该方法包括:获取待纠错源数据,识别所述待纠错源数据中的异常数据,并确定所述异常数据对应的候选数据集合,所述候选数据集合中包括一个或多个候选数据;调用基于BERT的掩码语言模型对所述异常数据进行掩码处理,得到所述异常数据对应的候选数据排序结果;根据所述异常数据对应的候选数据排序结果中排在第一位的候选数据,确定所述异常数据对应的替换数据;根据所述替换数据对所述异常数据进行替换,得到所述待纠错源数据的目标语句。可以有效的提高数据纠错准确性。本申请涉及区块链技术,如可将上述数据写入区块链中,以用于数据纠错等场景。

【技术实现步骤摘要】
基于BERT的数据纠错方法、装置、设备及存储介质
本申请涉及数据处理
,尤其涉及一种基于BERT的数据纠错方法、装置、设备及存储介质。
技术介绍
随着计算机技术的快速发展,问答机器人,对话系统等技术越来越广泛地应用在人们的日常工作或生活中,这些技术的输入一般是文字或者语音,而文字输入或语音输入通常会出现输入错误。例如,针对问答机器人,用户在问答机器人进行语音输入时,问答机器人在识别用户的语音的过程中可能出现错误识别,即导致最终输入到问答机器人中的文字出现错字,或者用户在问答机器人进行文字输入时,用户可能输错了某个字。因此,在纠错领域中,如何提高纠错准确性成为了亟需解决的问题。
技术实现思路
本申请实施例提供了一种基于BERT的数据纠错方法、装置、设备及存储介质,通过实施上述方法,可以在得到异常数据对应的候选数据集合后,对候选数据集合中的各个候选数据进行排序,以根据排序结果来来确定最终可替换的数据,从而提高纠错准确性。第一方面,本申请实施例公开了一种基于BERT的数据纠错方法,所述方法包括:<br>获取待纠错源数本文档来自技高网...

【技术保护点】
1.一种基于BERT的数据纠错方法,其特征在于,包括:/n获取待纠错源数据,识别所述待纠错源数据中的异常数据,并确定所述异常数据对应的候选数据集合,所述候选数据集合中包括一个或多个候选数据;/n调用基于BERT的掩码语言模型对所述异常数据进行掩码处理,得到所述异常数据对应的候选数据排序结果;/n根据所述异常数据对应的候选数据排序结果中排在第一位的候选数据,确定所述异常数据对应的替换数据;/n根据所述替换数据对所述异常数据进行替换,得到所述待纠错源数据的目标数据。/n

【技术特征摘要】
1.一种基于BERT的数据纠错方法,其特征在于,包括:
获取待纠错源数据,识别所述待纠错源数据中的异常数据,并确定所述异常数据对应的候选数据集合,所述候选数据集合中包括一个或多个候选数据;
调用基于BERT的掩码语言模型对所述异常数据进行掩码处理,得到所述异常数据对应的候选数据排序结果;
根据所述异常数据对应的候选数据排序结果中排在第一位的候选数据,确定所述异常数据对应的替换数据;
根据所述替换数据对所述异常数据进行替换,得到所述待纠错源数据的目标数据。


2.根据权利要求1所述的方法,其特征在于,所述调用基于BERT的掩码语言模型对所述异常数据进行掩码处理,得到所述异常数据对应的候选数据排序结果,包括:
将所述待纠错源数据输入到基于BERT的掩码语言模型,所述基于BERT的掩码语言模型是根据目标领域的训练数据集对初始掩码语言模型进行微调处理得到的;
利用所述基于BERT的掩码语言模型对所述待纠错源数据中异常数据对应的异常数据位置进行掩码处理,确定所述候选数据集合中每一个候选数据在所述异常数据位置的出现概率;
对所述候选数据集合中每一个候选数据在所述异常数据位置的出现概率进行降序排序,得到所述异常数据对应的候选数据排序结果。


3.根据权利要求2所述的方法,其特征在于,所述利用所述基于BERT的掩码语言模型对所述待纠错源数据中的异常数据位置进行掩码处理,确定所述候选数据集合中每一个候选数据在所述异常数据位置的出现概率,包括:
利用所述基于BERT的掩码语言模型对所述待纠错源数据中异常数据位置进行掩码处理,得到针对参考字典中所有参考数据对应的置信度集合,所述置信度集合包括所述参考字典中每一个参考数据对应的置信度;
从所述置信度集合中确定所述候选数据集合中每一个候选数据的置信度;
将所述每一个候选数据的置信度确定为所述每一个候选数据在所述异常数据位置的出现概率。


4.根据权利要求3所述的方法,其特征在于,所述从所述置信度集合中确定所述候选数据集合中每一个候选数据的置信度,包括:
针对所述候选数据集合中的任一候选数据,将所述参考字典中的各个参考数据与所述候选数据进行匹配;
确定匹配到的参考数据在所述参考字典中的指定位置;
确定所述指定位置在所述置信度集合中的目标位置,将所述置信度集合中处于所述目标位置的置信度确定为所述候选数据的置信度。


5.根据权利要求3或4所述的方法,其特征在于,所述根据所述异常数据对应的候选数据排序结果中排在第一位的候选数据,确定所述异常数据对应的替换数据,包括:
将所述异常数据对应的候选数据排序结果中排在第一位的候选数据确定为所述异常数据的候选替换数据;
...

【专利技术属性】
技术研发人员:马丹黄少波曾增烽
申请(专利权)人:中国平安人寿保险股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1