文本集生成方法、装置、电子设备和介质制造方法及图纸

技术编号:28037267 阅读:40 留言:0更新日期:2021-04-09 23:19
本公开的实施例公开了文本集生成方法、装置、电子设备和介质。方法的一具体实施方式包括:对预先获取的、待校正的目标文本进行错误预标注,得到标注后的目标文本;构建与标注后的目标文本相关的混淆文本集,其中,每个混淆文本为对标注后的目标文本进行错误修改后的文本;根据混淆文本集,构建与目标文本相关联的有向无环图,其中,有向无环图中每条路径表征对目标文本进行文字处理后的文本;确定有向无环图中每条路径的各个指标信息,其中,每个指标信息表征每条路径对应文本的属性特征信息;基于各个指标信息,对混淆文本集进行筛选,得到筛选后的文本集作为目标文本的校正集。实施方式可以准确、高效的生成与目标文本相关的校正文本集。

【技术实现步骤摘要】
文本集生成方法、装置、电子设备和介质
本公开的实施例涉及计算机
,具体涉及文本集生成方法、装置、电子设备和计算机可读介质。
技术介绍
随着电子书、电子报纸、电子邮件、办公文件等文本电子出版物不断涌现,如何保证这些文本的正确性,显得越来越重要。汉语文本自动校对的研究已成为一项亟待解决的紧迫课题。通常采用的方式为:基于文法规则的方法依赖于人工建立的形近、音近的字典库,对匹配的错误模式进行字符串替换。然而,当采用上述方式来进行文本校正,经常会存在如下技术问题:人工构建成本高、覆盖率差、无法识别语义级的错误等问题。
技术实现思路
本公开的内容部分用于以简要的形式介绍构思,这些构思将在后面的具体实施方式部分被详细描述。本公开的内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征,也不旨在用于限制所要求的保护的技术方案的范围。本公开的一些实施例提出了文本集生成方法、装置、电子设备和计算机可读介质,来解决以上
技术介绍
部分提到的技术问题中的一项或多项。第一方面,本公开的一些实施例提供了一种文本集生成方法,本文档来自技高网...

【技术保护点】
1.一种文本集生成方法,包括:/n对预先获取的、待校正的目标文本进行错误预标注,得到标注后的目标文本;/n构建与所述标注后的目标文本相关的混淆文本集,其中,所述混淆文本集中每个混淆文本为对标注后的目标文本进行错误修改后的文本;/n根据所述混淆文本集,构建与所述目标文本相关联的有向无环图,其中,所述有向无环图中每条路径表征对所述目标文本进行文字处理后的文本;/n确定所述有向无环图中每条路径的各个指标信息,其中,所述各个指标信息中每个指标信息表征所述每条路径对应文本的属性特征信息;/n基于所述各个指标信息,对所述混淆文本集进行筛选,得到筛选后的文本集作为所述目标文本的校正集。/n

【技术特征摘要】
1.一种文本集生成方法,包括:
对预先获取的、待校正的目标文本进行错误预标注,得到标注后的目标文本;
构建与所述标注后的目标文本相关的混淆文本集,其中,所述混淆文本集中每个混淆文本为对标注后的目标文本进行错误修改后的文本;
根据所述混淆文本集,构建与所述目标文本相关联的有向无环图,其中,所述有向无环图中每条路径表征对所述目标文本进行文字处理后的文本;
确定所述有向无环图中每条路径的各个指标信息,其中,所述各个指标信息中每个指标信息表征所述每条路径对应文本的属性特征信息;
基于所述各个指标信息,对所述混淆文本集进行筛选,得到筛选后的文本集作为所述目标文本的校正集。


2.根据权利要求1所述的方法,其中,所述方法还包括:
根据所述目标文本的校正集,对所述目标文本进行校正。


3.根据权利要求1所述的方法,其中,所述对预先获取的、待校正的目标文本进行错误预标注,得到标注后的目标文本,包括:
将所述目标文本输入至预先训练的目标文本预处理模型,得到所述标注后的目标文本,其中,所述目标文本预处理模型用于对所述目标文本中每个字或词语进行错误预估和标注。


4.根据权利要求1所述的方法,其中,所述构建与所述标注后的目标文本相关的混淆文本集,包括:
对所述标注后的目标文本中标注错误的每个字或词语的关联位置添加第一数目个掩饰字符以生成添加文本,得到添加文本集;
将所述标注后的目标文本中标注错误的每个字或词语替换为所述第一数目个掩饰字符以生成替换文本,得到替换文本集;
对所述标注后的目标文本中标注错误的每个字或词语进行删除以生成删除文本,得到删除文本集;
将所述添加文本集合和所述替换文本集输入至预先训练的掩码语言模型,得到子混淆文本集,其中,所述掩码语言模型用于预测所述添加文本集合和所述替换文本集中的每个...

【专利技术属性】
技术研发人员:赵忠信张瀚予
申请(专利权)人:五八有限公司
类型:发明
国别省市:天津;12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1