基于人工智能的文本纠错方法、装置、电子设备及介质制造方法及图纸

技术编号:38018562 阅读:9 留言:0更新日期:2023-06-30 10:45
本发明专利技术涉及人工智能技术领域,提供一种基于人工智能的文本纠错方法、装置、电子设备及介质,所述方法包括:响应于接收的文本纠错请求,获取第一训练集;对第一训练集中的文本进行预处理,得到第二训练集;采用预设的构建规则对第二训练集中的文本进行构建,得到纠错文本集;基于纠错文本集对预训练模型BERT进行参数微调,得到目标纠错模型;响应于接收的纠错文本,将纠错文本输入至目标纠错模型中,获得纠错后目标文本。本发明专利技术采用预设的构建规则构建纠错文本集,解决了数据匮乏的问题,同时基于纠错文本集对预训练模型BERT进行参数微调,降低了目标纠错模型的损失和过拟合程度,提高了目标纠错模型的纠错准确率。了目标纠错模型的纠错准确率。了目标纠错模型的纠错准确率。

【技术实现步骤摘要】
基于人工智能的文本纠错方法、装置、电子设备及介质


[0001]本专利技术涉及人工智能
,具体涉及一种基于人工智能的文本纠错方法、装置、电子设备及介质。

技术介绍

[0002]随着越来越多的自媒体新闻的大量涌入,用户通过发表帖子、评论等手段表达内心的观点,在此过程中会产生大量的文本数据,而文本数据中通常蕴含着错别字、中文繁简体混杂、重复标点等错误的文本信息,因此文本纠错技术在日常生活中起着关键作用。
[0003]现有的文本纠错模型面临这两大难题:首先是数据匮乏,当前语言模型在训练过程中往往需要大量的数据,而通常中文的文本纠错数据需要专业的人员进行标注,浪费大量的人力物力,纠错效率及准确率低;其次是过拟合问题,因数据源的缺少,而模型复杂度又不断增加导致纠错模型的过拟合问题难以解决。

技术实现思路

[0004]鉴于以上内容,有必要提出一种基于人工智能的文本纠错方法、装置、电子设备及介质,采用预设的构建规则构建纠错文本集,解决了数据匮乏的问题,同时基于纠错文本集对预训练模型BERT进行参数微调,降低了目标纠错模型的损失和过拟合程度,提高了目标纠错模型的纠错准确率。
[0005]本专利技术的第一方面提供一种基于人工智能的文本纠错方法,所述方法包括:
[0006]响应于接收的文本纠错请求,获取第一训练集;
[0007]对所述第一训练集中的文本进行预处理,得到第二训练集;
[0008]采用预设的构建规则对所述第二训练集中的文本进行构建,得到纠错文本集;
[0009]基于所述纠错文本集对预训练模型BERT进行参数微调,得到目标纠错模型;
[0010]响应于接收的纠错文本,将所述纠错文本输入至所述目标纠错模型中,获得纠错后目标文本。
[0011]可选地,所述采用预设的构建规则对所述第二训练集中的文本进行构建,得到纠错文本集包括:
[0012]获取所述第二训练集中的每条文本;
[0013]基于预设的构建规则对每条文本进行构建,得到纠错文本集,其中,所述预设的构建规则包括以下一种或者多种的组合:形似字替换规则、相似拼音字替换规则、随机选取目标字替换规则及不替换规则。
[0014]可选地,所述基于预设的构建规则对每条文本进行构建,得到纠错文本集包括:
[0015]基于所述形似字替换规则对每条文本进行构建,得到对应文本的纠错文本,包括,识别每条文本中是否存在形似字,若所述每条文本中存在形似字,将对应文本中的形似字替换为第一目标字,得到对应文本的纠错文本;和/或
[0016]基于所述相似拼音字替换规则对每条文本进行构建,得到对应文本的纠错文本,
包括,识别每条文本中是否存在相似拼音字,若所述每条文本中存在相似拼音字,将对应文本中的相似拼音字替换为第二目标字,得到对应文本的纠错文本;和/或
[0017]基于所述随机选取目标字替换规则对每条文本进行构建,得到对应文本的纠错文本,包括,从每条文本中随机选取一个第三目标字,将所述第三目标字替换为预设掩码标记,得到对应文本的纠错文本;和/或
[0018]基于所述不替换规则对每条文本进行构建,得到对应文本的纠错文本,包括,获取每条文本的准确文本,确定为对应文本的纠错文本。
[0019]可选地,所述对所述第一训练集中的文本进行预处理,得到第二训练集包括:
[0020]剔除所述第一训练集中每个文本中的无用字符,得到目标文本;
[0021]判断所述目标文本的长度是否大于预设的长度;
[0022]若所述目标文本的长度大于所述预设的长度,按照所述预设的长度对所述目标文本进行断句,得到多个句子,并将不满足所述预设的长度的每个句子,根据预设补全标记补全对应句子的长度,直至补全后的对应句子的长度等于所述预设的长度,基于满足所述预设的长度的句子和补全后的对应句子构建第二训练集;
[0023]若所述目标文本的长度小于或者等于所述预设的长度,根据所述预设补全标记补全所述目标文本的长度,直至补全后的所述目标文本的长度等于所述预设的长度,基于补全后的所述目标文本构建第二训练集。
[0024]可选地,所述响应于接收的文本纠错请求,获取第一训练集包括:
[0025]解析所述文本纠错请求,获取纠错请求的报文信息;
[0026]从所述报文信息中获取对应的新闻调用接口;
[0027]通过所述新闻调用接口从对应数据库中获取多条新闻标题;
[0028]基于每条新闻标题获取对应新闻的新闻简介文本;
[0029]将获取的多个新闻简介文本作为第一训练集。
[0030]可选地,所述基于所述纠错文本集对预训练模型BERT进行参数微调,得到目标纠错模型包括:
[0031]对所述纠错文本集中的每个文本进行分词处理,得到多个分词;
[0032]对所述多个分词进行全词掩码处理,得到目标纠错文本集;
[0033]将所述目标纠错文本集输入至预训练模型BERT,获取所述预训练模型BERT中的多个编码层和多个解码层,并确定编码层和解码层之间的对应关系;
[0034]获取每个所述编码层的参数,并将所述参数更新为所述编码层对应的解码层的参数;
[0035]基于参数更新后的预训练模型BERT重新进行训练,得到目标纠错模型。
[0036]可选地,所述将所述纠错文本输入至所述目标纠错模型中,获得纠错后目标文本包括:
[0037]剔除所述纠错文本中无用字符,得到目标纠错文本;
[0038]对所述目标纠错文本,按照所述预设的长度进行断句,得到多个纠错句子;
[0039]将不满足所述预设的长度的每个纠错句子,根据所述预设补全标记补全对应纠错句子的长度,直至补全后的对应纠错句子的长度等于所述预设的长度,得到多个目标纠错句子;
[0040]将所述多个目标纠错句子输入至所述目标纠错模型中,得到纠错后目标文本。
[0041]本专利技术的第二方面提供一种基于人工智能的文本纠错装置,所述装置包括:
[0042]获取模块,用于响应于接收的文本纠错请求,获取第一训练集;
[0043]预处理模块,用于对所述第一训练集中的文本进行预处理,得到第二训练集;
[0044]构建模块,用于采用预设的构建规则对所述第二训练集中的文本进行构建,得到纠错文本集;
[0045]参数微调模块,用于基于所述纠错文本集对预训练模型BERT进行参数微调,得到目标纠错模型;
[0046]输入模块,用于响应于接收的纠错文本,将所述纠错文本输入至所述目标纠错模型中,获得纠错后目标文本。
[0047]本专利技术的第三方面提供一种电子设备,所述电子设备包括处理器和存储器,所述处理器用于执行所述存储器中存储的计算机程序时实现所述的基于人工智能的文本纠错方法。
[0048]本专利技术的第四方面提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现所述的基于人工智能的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于人工智能的文本纠错方法,其特征在于,所述方法包括:响应于接收的文本纠错请求,获取第一训练集;对所述第一训练集中的文本进行预处理,得到第二训练集;采用预设的构建规则对所述第二训练集中的文本进行构建,得到纠错文本集;基于所述纠错文本集对预训练模型BERT进行参数微调,得到目标纠错模型;响应于接收的纠错文本,将所述纠错文本输入至所述目标纠错模型中,获得纠错后目标文本。2.如权利要求1所述的基于人工智能的文本纠错方法,其特征在于,所述采用预设的构建规则对所述第二训练集中的文本进行构建,得到纠错文本集包括:获取所述第二训练集中的每条文本;基于预设的构建规则对每条文本进行构建,得到纠错文本集,其中,所述预设的构建规则包括以下一种或者多种的组合:形似字替换规则、相似拼音字替换规则、随机选取目标字替换规则及不替换规则。3.如权利要求2所述的基于人工智能的文本纠错方法,其特征在于,所述基于预设的构建规则对每条文本进行构建,得到纠错文本集包括:基于所述形似字替换规则对每条文本进行构建,得到对应文本的纠错文本,包括,识别每条文本中是否存在形似字,若所述每条文本中存在形似字,将对应文本中的形似字替换为第一目标字,得到对应文本的纠错文本;和/或基于所述相似拼音字替换规则对每条文本进行构建,得到对应文本的纠错文本,包括,识别每条文本中是否存在相似拼音字,若所述每条文本中存在相似拼音字,将对应文本中的相似拼音字替换为第二目标字,得到对应文本的纠错文本;和/或基于所述随机选取目标字替换规则对每条文本进行构建,得到对应文本的纠错文本,包括,从每条文本中随机选取一个第三目标字,将所述第三目标字替换为预设掩码标记,得到对应文本的纠错文本;和/或基于所述不替换规则对每条文本进行构建,得到对应文本的纠错文本,包括,获取每条文本的准确文本,确定为对应文本的纠错文本。4.如权利要求1所述的基于人工智能的文本纠错方法,其特征在于,所述对所述第一训练集中的文本进行预处理,得到第二训练集包括:剔除所述第一训练集中每个文本中的无用字符,得到目标文本;判断所述目标文本的长度是否大于预设的长度;若所述目标文本的长度大于所述预设的长度,按照所述预设的长度对所述目标文本进行断句,得到多个句子,并将不满足所述预设的长度的每个句子,根据预设补全标记补全对应句子的长度,直至补全后的对应句子的长度等于所述预设的长度,基于满足所述预设的长度的句子和补全后的对应句子构建第二训练集;若所述目标文本的长度小于或者等于所述预设的长度,根据所述预设补全标记补全所述目标文本的长度,直至补全后的所述目标文本的长度等于所述预设的长...

【专利技术属性】
技术研发人员:陈浩
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1