英文文本拼写纠错方法、装置、存储介质及电子设备制造方法及图纸

技术编号:29675066 阅读:26 留言:0更新日期:2021-08-13 21:57
本公开涉及一种英文文本拼写纠错方法、装置、存储介质及电子设备。英文文本拼写纠错方法,包括:获取英文文本,对英文文本进行分句,得到英文文本包括的多个分句;针对每个分句,对该分句进行分词,得到该分句包括的多个单词,针对每个单词,从预先确定的概率词库中确定该单词的预测候选单词,之后根据该分句中的每一单词在该分句中的位置,以及该分句中每一单词的预测候选单词,得到该分句的预测候选分句,根据预测候选分句,确定该分句对应的目标分句,其中,概率词库中包括英文单词,以及英文单词的一元文法概率;根据每一分句对应的目标分句,确定英文文本的目标文本。通过本公开,可提高英文文本纠错的召回率和准确度。

【技术实现步骤摘要】
英文文本拼写纠错方法、装置、存储介质及电子设备
本公开涉及自然语言处理
,具体地,涉及一种英文文本拼写纠错方法、装置、存储介质及电子设备。
技术介绍
目前,对英文文本进行拼写纠错时,通常包括人工统计的方式对英文文本进行拼写纠错,或者基于深度学习的语言模型对英文文本进行拼写纠错。通过人工统计的方式对英文文本进行拼写纠错时,需要消耗大量的人力物力,成本巨大。通过深度学习的语言模型对英文文本进行拼写纠错时,可实现对多种错误拼写类型进行纠错,但是由于英文文本训练数据多样化的不足,使得在英文文本拼写纠错方面,召回率比较低。进而,如何有效地解决英文文本拼写纠错,是目前本领域技术人员急需解决的技术问题。
技术实现思路
为克服相关技术中存在的问题,本公开提供一种英文文本拼写纠错方法、装置、存储介质及电子设备。根据本公开实施例的第一方面,为了实现上述目的,本公开提供一种英文文本拼写纠错方法,所述方法包括:获取英文文本,对所述英文文本进行分句,得到所述英文文本包括的多个分句;r>针对每个所述分句本文档来自技高网...

【技术保护点】
1.一种英文文本拼写纠错方法,其特征在于,所述方法包括:/n获取英文文本,对所述英文文本进行分句,得到所述英文文本包括的多个分句;/n针对每个所述分句,对该分句进行分词,得到该分句包括的多个单词,针对每个所述单词,从预先确定的概率词库中确定该单词的预测候选单词,之后根据该分句中的每一单词在该分句中的位置,以及该分句中每一单词的预测候选单词,得到该分句的预测候选分句,根据所述预测候选分句,确定该分句对应的目标分句,其中,所述概率词库中包括英文单词,以及英文单词的一元文法概率;/n根据每一分句对应的目标分句,确定所述英文文本的目标文本。/n

【技术特征摘要】
1.一种英文文本拼写纠错方法,其特征在于,所述方法包括:
获取英文文本,对所述英文文本进行分句,得到所述英文文本包括的多个分句;
针对每个所述分句,对该分句进行分词,得到该分句包括的多个单词,针对每个所述单词,从预先确定的概率词库中确定该单词的预测候选单词,之后根据该分句中的每一单词在该分句中的位置,以及该分句中每一单词的预测候选单词,得到该分句的预测候选分句,根据所述预测候选分句,确定该分句对应的目标分句,其中,所述概率词库中包括英文单词,以及英文单词的一元文法概率;
根据每一分句对应的目标分句,确定所述英文文本的目标文本。


2.根据权利要求1所述的方法,其特征在于,所述概率词库通过如下方式确定得到:
获取英文单语语料;
对所述单语语料进行分词,得到单词语料;
确定所述单词语料的一元文法概率;
根据所述单词语料、所述单词语料的一元文法概率和预设词库,确定所述概率词库。


3.根据权利要求2所述的方法,其特征在于,所述根据所述单词语料、所述单词语料的一元文法概率和预设词库,确定所述概率词库,包括:
针对所述单词语料中的第一单词语料,获取所述第一单词语料中一元文法概率大于第一概率阈值的单词语料,得到第二单词语料,其中,所述第一单词语料为单词包括的字符数量大于或者等于第一预设字符数量阈值的单词语料;
针对所述预设词库中的第一单词,获取所述第一单词中一元文法概率大于第二概率阈值的单词,得到第二单词,其中,所述第一单词为单词包括的字符数量大于或者等于第二预设字符数量阈值的单词,其中,所述第一概率阈值小于所述第二概率阈值;
针对所述预设词库中的第三单词,获取所述第三单词中一元文法概率大于第三概率阈值的单词,得到第四单词,其中,所述第三单词为单词包括的字符数量小于第三预设字符数量阈值的单词,所述第三概率阈值小于所述第二概率阈值;
将所述第二单词语料、所述第二单词、以及所述第四单词组成的词库,确定为所述概率词库。


4.根据权利要求2所述的方法,其特征在于,所述方法还包括:
对所述预设词库中弃用的单词进行过滤。


5.根据权利要求2所述的方法,其特征在于,所述方法还包括:
获取新的英文单语语料,根据新的英文单语语料,得到新的单词语料,之后确定所述新的单词语料的一元文法概率,将所述新的单词语料以及所述新的单词语料的一元文法概率补充至所述概率词库中。


6.根据权利要求1所述的方法,其特征在于,所述针对每个所述单词,从预先确定的概率词库中确定该单词的预测候选单词,包括:
针对每个所述单词,执行如下操作,得到该单词的预测候选单词:
根据该单词包括的字符以及第一字符数量,从所述概率词库中获取与该单词的编辑距离等于预设编辑距离的第一预测候选单词,并获取所述第一预测候选单词的一元文法概率;
对该单词进行切分,得到与该单词对应的多组字符串集合,其中,每组字符串集合中包括多个字符串,针对每组字符串集合,从所述概率词库中检测是否存在每个所述字符串,若存在,则将该组字符串集合中包括的字符串作为该单词的第二预测候选单词,并获取所述第二预测候选单词的一元文法概率;
根据所述第一预测候选单词的一元文法概率、所述第二预测候选单词的一元文法概率,确定该单词的预测候选单词。

【专利技术属性】
技术研发人员:时静一邱伟伟张晓雷陶俊杰
申请(专利权)人:北京智通东方软件科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1