媒体数据修正方法、装置、计算机、存储介质及程序产品制造方法及图纸

技术编号:33776063 阅读:49 留言:0更新日期:2022-06-12 14:29
本申请实施例公开了一种媒体数据修正方法、装置、计算机、存储介质及程序产品,涉及人工智能领域的机器学习技术,该方法包括:获取组成待修正媒体数据的初始字符串及初始字符串之间的字符关联度,基于初始字符串及字符关联度,确定待修正媒体数据的待修正数据特征;获取第i轮预测中的输入字符与待修正数据特征之间的特征注意力,基于特征注意力对待修正数据特征进行数据预测,得到位于第i轮预测中的输入字符之后且相邻的预测字符,在预测字符不为结束字符时,将预测字符确定为第i+1轮预测中的输入字符;在预测字符为结束字符时,将预测出的预测字符组成参考媒体数据。采用本申请,可以提高数据修正的准确性及通用性。可以提高数据修正的准确性及通用性。可以提高数据修正的准确性及通用性。

【技术实现步骤摘要】
媒体数据修正方法、装置、计算机、存储介质及程序产品


[0001]本申请涉及计算机
,尤其涉及一种媒体数据修正方法、装置、计算机、存储介质及程序产品。

技术介绍

[0002]不规范文本是指一段或一句表达方式不符合常规语法的文本,如带有省略、冗余的非正式文本、带有错别字的文本或其他包含特殊字符的网络文本等。而这种不规范文本往往会影响用户或机器的阅读,因此,需要对不规范文本进行文本修正,以提高不规范文本的可阅读性。目前,一般情况下,会枚举常见的语法错误类型,基于语法错误类型所对应的修正规则对文本中的错误部分进行修正,得到正常文本,然而由于文本的复杂性及语法错误类型的多样性,可能导致部分错误无法被检测或修正,从而降低文本修正的准确性,且文本修正适用性较差。

技术实现思路

[0003]本申请实施例提供了一种媒体数据修正方法、装置、计算机、存储介质及程序产品,可以提高对数据修正的准确性及通用性。
[0004]本申请实施例一方面提供了一种数据修正方法,该方法包括:
[0005]获取待修正媒体数据;
[0006]获取组成待修正媒体数据的初始字符串及初始字符串之间的字符关联度,基于初始字符串及字符关联度,确定待修正媒体数据的待修正数据特征;
[0007]获取第i轮预测中的输入字符与待修正数据特征之间的特征注意力,基于特征注意力对待修正数据特征进行数据预测,得到位于第i轮预测中的输入字符之后且相邻的预测字符,在预测字符不为结束字符时,将预测字符确定为第i+1轮预测中的输入字符;i为正整数;
[0008]在预测字符为结束字符时,将已预测出的每个预测字符组成用于对待修正媒体数据进行修正的参考媒体数据。
[0009]本申请实施例一方面提供了一种数据修正方法,该方法包括:
[0010]获取参考数据样本,对参考数据样本进行加噪处理,得到参考数据样本所对应的待修正数据样本;
[0011]将待修正数据样本输入初始数据修正模型中,获取组成待修正数据样本的初始字符串样本及初始字符串样本之间的样本字符关联度,基于初始字符串样本及样本字符关联度,确定待修正数据样本的修正样本数据特征;
[0012]在初始数据修正模型中,获取第i轮预测中的样本输入字符与修正样本数据特征之间的样本特征注意力,基于样本特征注意力对修正样本数据特征进行数据预测,得到位于第i轮预测中的样本输入字符之后且相邻的样本预测字符,在样本预测字符不为结束字符时,将样本预测字符确定为第(i+1)轮预测中的样本输入字符;i为正整数;
[0013]在样本预测字符为结束字符时,将已预测出的每个样本预测字符组成用于对待修正数据样本进行修正的预测样本修正数据;
[0014]基于参考数据样本及预测样本修正数据,对初始数据修正模型进行参数调整,得到用于进行媒体数据修正的数据修正模型。
[0015]本申请实施例一方面提供了一种数据修正装置,该装置包括:
[0016]数据获取模块,用于获取待修正媒体数据;
[0017]特征获取模块,用于获取组成待修正媒体数据的初始字符串及初始字符串之间的字符关联度,基于初始字符串及字符关联度,确定待修正媒体数据的待修正数据特征;
[0018]字符预测模块,用于获取第i轮预测中的输入字符与待修正数据特征之间的特征注意力,基于特征注意力对待修正数据特征进行数据预测,得到位于第i轮预测中的输入字符之后且相邻的预测字符;i为正整数;
[0019]输入确定模块,用于在预测字符不为结束字符时,将预测字符确定为第i+1轮预测中的输入字符;
[0020]数据生成模块,用于在预测字符为结束字符时,将已预测出的每个预测字符组成用于对待修正媒体数据进行修正的参考媒体数据。
[0021]其中,该数据获取模块,包括:
[0022]初始获取单元,用于获取初始检测媒体数据;
[0023]格式检测单元,用于对初始检测媒体数据进行数据格式检测;
[0024]预修正单元,用于若初始检测媒体数据中存在预修正格式,则基于预修正格式对初始检测媒体数据进行格式预修正处理,得到待修正媒体数据。
[0025]其中,该格式检测单元,包括:
[0026]数据分词子单元,用于对初始检测媒体数据进行分词处理,得到N个分词词组;N为正整数;
[0027]分词检测子单元,用于对N个分词词组分别进行数据格式检测,得到N个分词词组分别对应的词组数据格式;
[0028]预修正确定子单元,用于若N个分词词组分别对应的词组数据格式中存在预修正格式,则确定初始检测媒体数据中存在预修正格式。
[0029]其中,该预修正单元,包括:
[0030]词组获取子单元,用于若初始检测媒体数据中存在预修正格式,则获取预修正格式所对应的待修正词组;
[0031]字体转换子单元,用于若待修正词组的预修正格式为第一书写字体,则获取待修正词组在第二书写字体下的第一关联词组,将初始检测媒体数据中的待修正词组替换为第一关联词组,得到待修正媒体数据;
[0032]字符转换子单元,用于若待修正词组的预修正格式为第一字符格式,则获取待修正词组在第一字符格式下所对应的第一标准编码,基于第一标准编码,确定待修正词组在第二字符格式下所对应的第二标准编码,基于第二标准编码确定待修正词组的第二关联词组,将初始检测媒体数据中的待修正词组替换为第二关联词组,得到待修正媒体数据。
[0033]其中,预修正格式包括字符数量大于阈值的格式;该预修正单元,包括:
[0034]数据拆分子单元,用于若初始检测媒体数据中存在预修正格式,则基于预修正格
式,获取初始检测媒体数据中的语句间隔符,基于语句间隔符对初始检测媒体数据进行拆分处理,得到待修正媒体数据。
[0035]其中,初始字符串的数量为M,M为正整数;
[0036]该特征获取模块,包括:
[0037]字符串获取单元,用于获取组成待修正媒体数据的M个初始字符串;
[0038]关联获取单元,用于通过自注意力机制,获取M个初始字符串之间的字符关联度;
[0039]特征增强单元,用于基于M个初始字符串之间的字符关联度,对M个初始字符串的初始数据特征进行特征增强,得到M个初始字符串的增强数据特征;
[0040]特征融合单元,用于将M个初始字符串的增强数据特征进行特征融合,得到待修正媒体数据的待修正数据特征。
[0041]其中,该关联获取单元,包括:
[0042]相似确定子单元,用于通过自注意力机制,对第j个初始字符串的初始数据特征与其他初始字符串的初始数据特征进行点积处理,得到第j个初始字符串与其他初始字符串之间的字符相似度;j为小于或等于M的正整数;其他初始字符串是指M个初始字符串中除第j个初始字符串之外的初始字符串;
[0043]归一处理子单元,用于对第j个初始字符串与其他初始字符串之间的字符相似度进行归一化处理,得到第j个初始字符串与其他初始字符本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种媒体数据修正方法,其特征在于,所述方法包括:获取待修正媒体数据;获取组成所述待修正媒体数据的初始字符串及所述初始字符串之间的字符关联度,基于所述初始字符串及所述字符关联度,确定所述待修正媒体数据的待修正数据特征;获取第i轮预测中的输入字符与所述待修正数据特征之间的特征注意力,基于所述特征注意力对所述待修正数据特征进行数据预测,得到位于所述第i轮预测中的输入字符之后且相邻的预测字符,在所述预测字符不为结束字符时,将所述预测字符确定为第i+1轮预测中的输入字符;i为正整数;在所述预测字符为所述结束字符时,将已预测出的每个预测字符组成用于对所述待修正媒体数据进行修正的参考媒体数据。2.如权利要求1所述的方法,其特征在于,所述获取待修正媒体数据,包括:获取初始检测媒体数据,对所述初始检测媒体数据进行数据格式检测,若所述初始检测媒体数据中存在预修正格式,则基于所述预修正格式对所述初始检测媒体数据进行格式预修正处理,得到待修正媒体数据。3.如权利要求2所述的方法,其特征在于,所述对所述初始检测媒体数据进行数据格式检测,包括:对所述初始检测媒体数据进行分词处理,得到N个分词词组;N为正整数;对所述N个分词词组分别进行数据格式检测,得到所述N个分词词组分别对应的词组数据格式;若所述N个分词词组分别对应的词组数据格式中存在所述预修正格式,则确定所述初始检测媒体数据中存在所述预修正格式。4.如权利要求2所述的方法,其特征在于,所述若所述初始检测媒体数据中存在预修正格式,则基于所述预修正格式对所述初始检测媒体数据进行格式预修正处理,得到待修正媒体数据,包括:若所述初始检测媒体数据中存在预修正格式,则获取所述预修正格式所对应的待修正词组;若所述待修正词组的所述预修正格式为第一书写字体,则获取所述待修正词组在第二书写字体下的第一关联词组,将所述初始检测媒体数据中的所述待修正词组替换为所述第一关联词组,得到待修正媒体数据;若所述待修正词组的所述预修正格式为第一字符格式,则获取所述待修正词组在所述第一字符格式下所对应的第一标准编码,基于所述第一标准编码,确定所述待修正词组在第二字符格式下所对应的第二标准编码,基于所述第二标准编码确定所述待修正词组的第二关联词组,将所述初始检测媒体数据中的所述待修正词组替换为所述第二关联词组,得到所述待修正媒体数据。5.如权利要求2所述的方法,其特征在于,所述预修正格式包括字符数量大于阈值的格式;所述若所述初始检测媒体数据中存在预修正格式,则基于所述预修正格式对所述初始检测媒体数据进行格式预修正处理,得到待修正媒体数据,包括:若所述初始检测媒体数据中存在预修正格式,则基于所述预修正格式,获取所述初始检测媒体数据中的语句间隔符,基于所述语句间隔符对所述初始检测媒体数据进行拆分处
理,得到待修正媒体数据。6.如权利要求1所述的方法,其特征在于,所述初始字符串的数量为M,M为正整数;所述获取组成所述待修正媒体数据的初始字符串及所述初始字符串之间的字符关联度,基于所述初始字符串及所述字符关联度,确定所述待修正媒体数据的待修正数据特征,包括:获取组成所述待修正媒体数据的M个初始字符串,通过自注意力机制,获取所述M个初始字符串之间的字符关联度;基于所述M个初始字符串之间的字符关联度,对所述M个初始字符串的初始数据特征进行特征增强,得到所述M个初始字符串的增强数据特征;将所述M个初始字符串的增强数据特征进行特征融合,得到所述待修正媒体数据的待修正数据特征。7.如权利要求6所述的方法,其特征在于,所述通过自注意力机制,获取所述M个初始字符串之间的字符关联度,包括:通过自注意力机制,对第j个初始字符串的初始数据特征与其他初始字符串的初始数据特征进行点积处理,得到所述第j个初始字符串与所述其他初始字符串之间的字符相似度;j为小于或等于M的正整数;所述其他初始字符串是指所述M个初始字符串中除所述第j个初始字符串之外的初始字符串;对所述第j个初始字符串与所述其他初始字符串之间的字符相似度进行归一化处理,得到所述第j个初始字符串与所述其他初始字符串之间的字符关联度;所述基于所述M个初始字符串之间的字符关联度,对所述M个初始字符串的初始数据特征进行特征增强,得到所述M个初始字符串的增强数据特征,包括:基于所述第j个初始字符串与所述其他初始字符串之间的字符关联度,对所述其他初始字符串的初始数据特征进行加权处理,得到所述第j个初始字符串的待增强特征;基于所述第j个初始字符串的待增强特征对所述第j个初始字符串的初始数据特征进行特征增强,得到所述第j个初始字符串的增强数据特征。8.如权利要求1所述的方法,其特征在于,所述初始字符串的数量为M,M为正整数;所述获取组成所述待修正媒体数据的初始字符串及所述初始字符串之间的字符关联度,基于所述初始字符串及所述字符关联度,确定所述待修正媒体数据的待修正数据特征,包括:获取组成所述待修正媒体数据的M个初始字符串;获取第j个初始字符串的初始数据特征,获取所述第j个初始字符串与第(j+1)个初始字符串之间的字符关联度,基于所述第j个初始字符串与所述第(j+1)个初始字符串之间的字符关联度以及所述第j个初始字符串的初始数据特征,对所述第(j+1)个初始字符串的初始数据特征进行特征增强,得到所述第(j+1)个初始字符串的隐藏特征,直至得到第M个初始字符串的隐藏特征;j为小于M的正整数;将所述第M个初始字符串的隐藏特征,确定为所述待修正媒体数据的待修正数据特征。9.如权利要求1所述的方法,其特征在于,所述初始字符串的数量为M,M为正整数;所述获取组成所述待修正媒体数据的初始字符串及所述初始字符串之间的字符关联度,基于所述初始字符串及所述字符关联度,确定所述待修正媒体数据的待修正数据特征,
包括:获取组成所述待修正媒体数据的M个初始字符串,获取所述M个初始字符串分别对应的初始数据特征;对所述M个初始字符串分别对应的初始数据特征进行语义信息提取,得到所述M个初始字符串分别对应的语...

【专利技术属性】
技术研发人员:刘昊岩赵哲侯成毛伟权刘伟杰杨雪峰鞠奇
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1