媒体数据修正方法、装置、计算机、存储介质及程序产品制造方法及图纸

技术编号：33776063 阅读：49 留言：0更新日期：2022-06-12 14:29

本申请实施例公开了一种媒体数据修正方法、装置、计算机、存储介质及程序产品，涉及人工智能领域的机器学习技术，该方法包括：获取组成待修正媒体数据的初始字符串及初始字符串之间的字符关联度，基于初始字符串及字符关联度，确定待修正媒体数据的待修正数据特征；获取第i轮预测中的输入字符与待修正数据特征之间的特征注意力，基于特征注意力对待修正数据特征进行数据预测，得到位于第i轮预测中的输入字符之后且相邻的预测字符，在预测字符不为结束字符时，将预测字符确定为第i+1轮预测中的输入字符；在预测字符为结束字符时，将预测出的预测字符组成参考媒体数据。采用本申请，可以提高数据修正的准确性及通用性。可以提高数据修正的准确性及通用性。可以提高数据修正的准确性及通用性。

全部详细技术资料下载

【技术实现步骤摘要】
媒体数据修正方法、装置、计算机、存储介质及程序产品

[0001]本申请涉及计算机
，尤其涉及一种媒体数据修正方法、装置、计算机、存储介质及程序产品。

技术介绍

[0002]不规范文本是指一段或一句表达方式不符合常规语法的文本，如带有省略、冗余的非正式文本、带有错别字的文本或其他包含特殊字符的网络文本等。而这种不规范文本往往会影响用户或机器的阅读，因此，需要对不规范文本进行文本修正，以提高不规范文本的可阅读性。目前，一般情况下，会枚举常见的语法错误类型，基于语法错误类型所对应的修正规则对文本中的错误部分进行修正，得到正常文本，然而由于文本的复杂性及语法错误类型的多样性，可能导致部分错误无法被检测或修正，从而降低文本修正的准确性，且文本修正适用性较差。

技术实现思路

[0003]本申请实施例提供了一种媒体数据修正方法、装置、计算机、存储介质及程序产品，可以提高对数据修正的准确性及通用性。
[0004]本申请实施例一方面提供了一种数据修正方法，该方法包括：
[0005]获取待修正媒体数据；
[0006]获取组成待修正媒体数据的初始字符串及初始字符串之间的字符关联度，基于初始字符串及字符关联度，确定待修正媒体数据的待修正数据特征；
[0007]获取第i轮预测中的输入字符与待修正数据特征之间的特征注意力，基于特征注意力对待修正数据特征进行数据预测，得到位于第i轮预测中的输入字符之后且相邻的预测字符，在预测字符不为结束字符时，将预测字符确定为第i+1轮预测中的输入字符；i为正...

【技术保护点】

【技术特征摘要】
1.一种媒体数据修正方法，其特征在于，所述方法包括：获取待修正媒体数据；获取组成所述待修正媒体数据的初始字符串及所述初始字符串之间的字符关联度，基于所述初始字符串及所述字符关联度，确定所述待修正媒体数据的待修正数据特征；获取第i轮预测中的输入字符与所述待修正数据特征之间的特征注意力，基于所述特征注意力对所述待修正数据特征进行数据预测，得到位于所述第i轮预测中的输入字符之后且相邻的预测字符，在所述预测字符不为结束字符时，将所述预测字符确定为第i+1轮预测中的输入字符；i为正整数；在所述预测字符为所述结束字符时，将已预测出的每个预测字符组成用于对所述待修正媒体数据进行修正的参考媒体数据。2.如权利要求1所述的方法，其特征在于，所述获取待修正媒体数据，包括：获取初始检测媒体数据，对所述初始检测媒体数据进行数据格式检测，若所述初始检测媒体数据中存在预修正格式，则基于所述预修正格式对所述初始检测媒体数据进行格式预修正处理，得到待修正媒体数据。3.如权利要求2所述的方法，其特征在于，所述对所述初始检测媒体数据进行数据格式检测，包括：对所述初始检测媒体数据进行分词处理，得到N个分词词组；N为正整数；对所述N个分词词组分别进行数据格式检测，得到所述N个分词词组分别对应的词组数据格式；若所述N个分词词组分别对应的词组数据格式中存在所述预修正格式，则确定所述初始检测媒体数据中存在所述预修正格式。4.如权利要求2所述的方法，其特征在于，所述若所述初始检测媒体数据中存在预修正格式，则基于所述预修正格式对所述初始检测媒体数据进行格式预修正处理，得到待修正媒体数据，包括：若所述初始检测媒体数据中存在预修正格式，则获取所述预修正格式所对应的待修正词组；若所述待修正词组的所述预修正格式为第一书写字体，则获取所述待修正词组在第二书写字体下的第一关联词组，将所述初始检测媒体数据中的所述待修正词组替换为所述第一关联词组，得到待修正媒体数据；若所述待修正词组的所述预修正格式为第一字符格式，则获取所述待修正词组在所述第一字符格式下所对应的第一标准编码，基于所述第一标准编码，确定所述待修正词组在第二字符格式下所对应的第二标准编码，基于所述第二标准编码确定所述待修正词组的第二关联词组，将所述初始检测媒体数据中的所述待修正词组替换为所述第二关联词组，得到所述待修正媒体数据。5.如权利要求2所述的方法，其特征在于，所述预修正格式包括字符数量大于阈值的格式；所述若所述初始检测媒体数据中存在预修正格式，则基于所述预修正格式对所述初始检测媒体数据进行格式预修正处理，得到待修正媒体数据，包括：若所述初始检测媒体数据中存在预修正格式，则基于所述预修正格式，获取所述初始检测媒体数据中的语句间隔符，基于所述语句间隔符对所述初始检测媒体数据进行拆分处
理，得到待修正媒体数据。6.如权利要求1所述的方法，其特征在于，所述初始字符串的数量为M，M为正整数；所述获取组成所述待修正媒体数据的初始字符串及所述初始字符串之间的字符关联度，基于所述初始字符串及所述字符关联度，确定所述待修正媒体数据的待修正数据特征，包括：获取组成所述待修正媒体数据的M个初始字符串，通过自注意力机制，获取所述M个初始字符串之间的字符关联度；基于所述M个初始字符串之间的字符关联度，对所述M个初始字符串的初始数据特征进行特征增强，得到所述M个初始字符串的增强数据特征；将所述M个初始字符串的增强数据特征进行特征融合，得到所述待修正媒体数据的待修正数据特征。7.如权利要求6所述的方法，其特征在于，所述通过自注意力机制，获取所述M个初始字符串之间的字符关联度，包括：通过自注意力机制，对第j个初始字符串的初始数据特征与其他初始字符串的初始数据特征进行点积处理，得到所述第j个初始字符串与所述其他初始字符串之间的字符相似度；j为小于或等于M的正整数；所述其他初始字符串是指所述M个初始字符串中除所述第j个初始字符串之外的初始字符串；对所述第j个初始字符串与所述其他初始字符串之间的字符相似度进行归一化处理，得到所述第j个初始字符串与所述其他初始字符串之间的字符关联度；所述基于所述M个初始字符串之间的字符关联度，对所述M个初始字符串的初始数据特征进行特征增强，得到所述M个初始字符串的增强数据特征，包括：基于所述第j个初始字符串与所述其他初始字符串之间的字符关联度，对所述其他初始字符串的初始数据特征进行加权处理，得到所述第j个初始字符串的待增强特征；基于所述第j个初始字符串的待增强特征对所述第j个初始字符串的初始数据特征进行特征增强，得到所述第j个初始字符串的增强数据特征。8.如权利要求1所述的方法，其特征在于，所述初始字符串的数量为M，M为正整数；所述获取组成所述待修正媒体数据的初始字符串及所述初始字符串之间的字符关联度，基于所述初始字符串及所述字符关联度，确定所述待修正媒体数据的待修正数据特征，包括：获取组成所述待修正媒体数据的M个初始字符串；获取第j个初始字符串的初始数据特征，获取所述第j个初始字符串与第(j+1)个初始字符串之间的字符关联度，基于所述第j个初始字符串与所述第(j+1)个初始字符串之间的字符关联度以及所述第j个初始字符串的初始数据特征，对所述第(j+1)个初始字符串的初始数据特征进行特征增强，得到所述第(j+1)个初始字符串的隐藏特征，直至得到第M个初始字符串的隐藏特征；j为小于M的正整数；将所述第M个初始字符串的隐藏特征，确定为所述待修正媒体数据的待修正数据特征。9.如权利要求1所述的方法，其特征在于，所述初始字符串的数量为M，M为正整数；所述获取组成所述待修正媒体数据的初始字符串及所述初始字符串之间的字符关联度，基于所述初始字符串及所述字符关联度，确定所述待修正媒体数据的待修正数据特征，
包括：获取组成所述待修正媒体数据的M个初始字符串，获取所述M个初始字符串分别对应的初始数据特征；对所述M个初始字符串分别对应的初始数据特征进行语义信息提取，得到所述M个初始字符串分别对应的语...

【专利技术属性】
技术研发人员：刘昊岩，赵哲，侯成，毛伟权，刘伟杰，杨雪峰，鞠奇，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人