【技术实现步骤摘要】
文本纠错及其模型训练方法、装置、存储介质及设备
[0001]本公开的实施方式涉及图像显示
,更具体地,本公开的实施方式涉及文本纠错及其模型训练方法、装置、存储介质及设备。
技术介绍
[0002]本部分旨在为权利要求中陈述的本公开的实施方式提供背景或上下文,此处的描述不因为包括在本部分中就承认是现有技术。
[0003]在各类文本编辑场景中,存在由于作者的笔误或认知错误而导致的错误文本输入,这些错误不仅会影响阅读体验,降低文章质量,在一些特殊场景,如政府公文、公司公告、法律文书,还会造成较大的负面影响。由于人的思维习惯,这些错误作者自身很难发现,往往需要专门的文字校对人员来进行严格的校对审核工作。而人工审核的方式效率低下,无法满足大规模文本数据的纠错工作。
技术实现思路
[0004]在本上下文中,本公开的实施方式提供文本纠错及其模型训练方法、装置、存储介质及设备。
[0005]根据本公开的第一个方面,提供一种文本纠错模型训练方法,其包括:
[0006]对文本数据中的每个字符进行特征提 ...
【技术保护点】
【技术特征摘要】
1.一种文本纠错模型训练方法,其特征在于,包括:对文本数据中的每个字符进行特征提取,得到字符特征,所述字符特征包括读音特征和字形特征,其中所述每个字符携带有字符纠错标签;利用所述字符特征对待训练模型进行训练,直至达到训练停止条件,以将训练得到的模型作为文本纠错模型。2.根据权利要求1所述的文本纠错模型训练方法,其特征在于,在所述字符特征包括读音特征的情况下,所述对文本数据中的每个字符进行特征提取,得到字符特征,包括:获取所述文本数据中每个字符的拼音,所述拼音用于指示字符的读音;通过语音识别网络对每个字符对应的拼音进行编码,得到每个字符的读音特征。3.根据权利要求1所述的文本纠错模型训练方法,其特征在于,在所述字符特征包括字形特征的情况下,所述对文本数据中的每个字符进行特征提取,得到字符特征,包括:获取相应字符的字形结构及字根,以基于所述字形结构及字根确定相应字符的字形特征。4.一种文本纠错方法,其特征在于,包括:对待纠错文本数据进行特征提取,得到字符特征,所述字符特征包括读音特征和字形特征;将所述字符特征输入文本纠错模型,输出预测文本。5.根据权利要求4所述的文本纠错方法,其特征在于,在所述字符特征包括读音特征的情况下,所述对待纠错文本数据进行特征提取,得到字符特征,包括:获取所述待纠错文本数据中每个字符的拼音,所述拼音用于指示字符的读音;通过语音识别网络对每个字符对应的拼...
【专利技术属性】
技术研发人员:吴邦誉,林洋港,杨卫强,朱浩齐,
申请(专利权)人:杭州网易智企科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。