文本纠错及其模型训练方法、装置、存储介质及设备制造方法及图纸

技术编号:36757079 阅读:23 留言:0更新日期:2023-03-04 10:49
本公开示例性实施方式中提供文本纠错及其模型训练方法、装置、存储介质及设备,方法包括:在文本纠错模型训练阶段,对文本数据中的每个字符进行特征提取,得到字符特征,字符特征包括读音特征和字形特征,其中每个字符携带有字符纠错标签,利用字符特征对待训练模型进行训练,直至达到训练停止条件,以将训练得到的模型作为文本纠错模型。使用本公开实施方式,使用带有读音特征及字形特征的文本数据训练文本纠错模型,文本纠错模型学习相应字符的字形特征及读音特征,从而能够在文本纠错阶段,通过识别字符的读音特征及字形特征进行文本纠错。因此,本实施例的文本纠错模型能够应用于解决因拼音或五笔输入导致的笔误问题,提升文本纠错精度。升文本纠错精度。升文本纠错精度。

【技术实现步骤摘要】
文本纠错及其模型训练方法、装置、存储介质及设备


[0001]本公开的实施方式涉及图像显示
,更具体地,本公开的实施方式涉及文本纠错及其模型训练方法、装置、存储介质及设备。

技术介绍

[0002]本部分旨在为权利要求中陈述的本公开的实施方式提供背景或上下文,此处的描述不因为包括在本部分中就承认是现有技术。
[0003]在各类文本编辑场景中,存在由于作者的笔误或认知错误而导致的错误文本输入,这些错误不仅会影响阅读体验,降低文章质量,在一些特殊场景,如政府公文、公司公告、法律文书,还会造成较大的负面影响。由于人的思维习惯,这些错误作者自身很难发现,往往需要专门的文字校对人员来进行严格的校对审核工作。而人工审核的方式效率低下,无法满足大规模文本数据的纠错工作。

技术实现思路

[0004]在本上下文中,本公开的实施方式提供文本纠错及其模型训练方法、装置、存储介质及设备。
[0005]根据本公开的第一个方面,提供一种文本纠错模型训练方法,其包括:
[0006]对文本数据中的每个字符进行特征提取,得到字符特征,字本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种文本纠错模型训练方法,其特征在于,包括:对文本数据中的每个字符进行特征提取,得到字符特征,所述字符特征包括读音特征和字形特征,其中所述每个字符携带有字符纠错标签;利用所述字符特征对待训练模型进行训练,直至达到训练停止条件,以将训练得到的模型作为文本纠错模型。2.根据权利要求1所述的文本纠错模型训练方法,其特征在于,在所述字符特征包括读音特征的情况下,所述对文本数据中的每个字符进行特征提取,得到字符特征,包括:获取所述文本数据中每个字符的拼音,所述拼音用于指示字符的读音;通过语音识别网络对每个字符对应的拼音进行编码,得到每个字符的读音特征。3.根据权利要求1所述的文本纠错模型训练方法,其特征在于,在所述字符特征包括字形特征的情况下,所述对文本数据中的每个字符进行特征提取,得到字符特征,包括:获取相应字符的字形结构及字根,以基于所述字形结构及字根确定相应字符的字形特征。4.一种文本纠错方法,其特征在于,包括:对待纠错文本数据进行特征提取,得到字符特征,所述字符特征包括读音特征和字形特征;将所述字符特征输入文本纠错模型,输出预测文本。5.根据权利要求4所述的文本纠错方法,其特征在于,在所述字符特征包括读音特征的情况下,所述对待纠错文本数据进行特征提取,得到字符特征,包括:获取所述待纠错文本数据中每个字符的拼音,所述拼音用于指示字符的读音;通过语音识别网络对每个字符对应的拼...

【专利技术属性】
技术研发人员:吴邦誉林洋港杨卫强朱浩齐
申请(专利权)人:杭州网易智企科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1