语句纠错的方法及装置、电子设备、存储介质制造方法及图纸

技术编号:38327117 阅读:14 留言:0更新日期:2023-07-29 09:09
本申请涉及文本处理技术领域,公开一种语句纠错的方法,包括:对待纠错语句进行词块替换处理,获得至少一个生成语句;将每个生成语句分别与待纠错语句进行组合,构成与至少一个生成语句一一对应的至少一个句对;对每个句对进行特征提取处理,得到每个句对的句对特征;根据每个句对的句对特征对每个生成语句进行评分,获得每个生成语句的分数;根据分数对待纠错语句进行纠错,获得纠错后的语句。由于考虑了生成的纠错语句和原句的关系,能够基于生成的纠错语句和原句的关系在生成的纠错语句中确定出最终的纠错语句,从而提高了对语句进行纠错的效果。本申请还公开一种语句纠错的装置、电子设备、存储介质。存储介质。存储介质。

【技术实现步骤摘要】
语句纠错的方法及装置、电子设备、存储介质


[0001]本申请涉及文本处理
,例如涉及一种语句纠错的方法及装置、电子设备、存储介质。

技术介绍

[0002]目前生活、工作中,各行各业都涉及到语句处理,由于语句中的字音字形语法顺序等都较为复杂,所以各类语句常常存在错误的情况,对语句进行纠错有非常大的需求量。现有技术在进行语句纠错时,获取多个备选纠正语句,然后提取备选纠正语句的特征,并根据备选纠正语句的特征确定最终的纠正语句。
[0003]现有技术中在提取备选纠正语句的特征时,通常仅考虑备选纠正语句中两个词共现的条件概率、备选纠正语句中的词语在语料库中出现的次数等,这种方式仅考虑了备选纠正语句本身的特征,从而导致对语句进行纠错的效果不佳。

技术实现思路

[0004]为了对披露的实施例的一些方面有基本的理解,下面给出了简单的概括。所述概括不是泛泛评述,也不是要确定关键/重要组成元素或描绘这些实施例的保护范围,而是作为后面的详细说明的序言。
[0005]本公开实施例提供了一种语句纠错的方法及装置、电子设备、存储介质,以提高语句纠错的效果。
[0006]在一些实施例中,语句纠错的方法,包括:对待纠错语句进行词块替换处理,获得至少一个生成语句;将每个所述生成语句分别与所述待纠错语句进行组合,构成与所述至少一个生成语句一一对应的至少一个句对;对每个所述句对进行特征提取处理,得到每个所述句对的句对特征;根据每个所述句对的句对特征对每个所述生成语句进行评分,获得每个所述生成语句的分数;根据所述分数对所述待纠错语句进行纠错,获得纠错后的语句。
[0007]在一些实施例中,对待纠错语句进行词块替换处理,获得至少一个生成语句,包括:获取第一备选词块,所述第一备选词块由所述待纠错语句中若干个连续字符拼接而成;利用预设的混淆字符集中的混淆字符对第一备选词块中的至少一个字符进行替换,获得至少一个第二备选词块;若预设的词块表中不包含所述第一备选词块,则利用所述混淆字符集中的混淆字符对所述待纠错语句中的第一字符进行替换,获得所述待纠错语句的生成语句,其中,所述第一字符为所述第一备选词块中的任一字符;若所述预设的词块表中包含所述第二备选词块,则将所述待纠错语句中的第一备选词块替换为所述第二备选词块,获得所述待纠错语句的生成语句。
[0008]在一些实施例中,对每个所述句对进行特征提取处理,得到每个所述句对的句对特征,包括:针对每个所述句对执行以下处理:提取所述句对的分数特征、编辑距离特征、困惑度分数特征和词块数量差特征中的一种或多种;将所述句对的分数特征、编辑距离特征、困惑度分数特征和词块数量差特征中的一种或多种确定为所述句对的句对特征。
[0009]在一些实施例中,提取所述句对的分数特征,包括:获取所述句对中的待纠错语句中进行词块替换处理的字符位置的第一字符概率;获取所述句对中的生成语句中被词块替换处理后的字符位置的第二字符概率;计算所述第二字符概率和所述第一字符概率之间的第一差值;将所述第一字符概率、所述第二字符概率和所述第一差值确定为所述句对的分数特征。
[0010]在一些实施例中,提取所述句对的编辑距离特征,包括:计算所述句对中的生成语句与待纠错语句之间的汉字编辑距离;将所述句对中的生成语句及待纠错语句转换为拼音序列,并基于转换后的拼音序列分别计算所述句对中的生成语句与待纠错语句之间的拼音编辑距离;将所述句对对应的汉字编辑距离和拼音编辑距离确定为所述句对的编辑距离特征。
[0011]在一些实施例中,提取所述句对的困惑度分数特征,包括:获取所述句对中待纠错语句的第一困惑度分数;获取所述句对中生成语句的第二困惑度分数;获取所述句对中第二困惑度分数和第一困惑度分数之间的第二差值;将所述句对对应的第一困惑度分数、第二困惑度分数和第二差值确定为所述句对的困惑度分数特征。
[0012]在一些实施例中,获取所述句对的词块数量差特征,包括:获取所述句对中待纠错语句的第一词块数量;获取所述句对中生成语句的第二词块数量;获取所述句对中第二词块数量和第一词块数量之间的第三差值;将所述句对对应的第三差值确定为所述句对的词块数量差特征。
[0013]在一些实施例中,根据每个所述句对的句对特征对每个所述生成语句进行评分,获得每个所述生成语句的分数,包括:获取所述句对特征的权重向量;并针对每个所述句对执行以下处理:根据所述句对的句对特征和权重向量对所述句对中的生成语句进行评分,获得所述句对中的生成语句的分数。
[0014]在一些实施例中,根据所述分数对所述待纠错语句进行纠错,获得纠错后的语句,包括:选取最高的分数对应的生成语句作为备选语句;将所述备选语句确定为所述待纠错语句对应纠错后的语句。
[0015]在一些实施例中,所述语句纠错的装置,包括:替换模块,被配置为对待纠错语句进行词块替换处理,获得至少一个生成语句;句对生成模块,被配置为将每个所述生成语句分别与所述待纠错语句进行组合,构成与所述至少一个生成语句一一对应的至少一个句对;特征提取模块,被配置为对每个所述句对进行特征提取处理,得到每个所述句对的句对特征;评分模块,被配置为根据每个所述句对的句对特征对每个所述生成语句进行评分,获得每个所述生成语句的分数;纠错模块,被配置为根据所述分数对所述待纠错语句进行纠错,获得纠错后的语句。
[0016]在一些实施例中,替换模块通过以下方式对待纠错语句进行词块替换处理获得至少一个生成语句:获取第一备选词块,所述第一备选词块由所述待纠错语句中若干个连续字符拼接而成;利用预设的混淆字符集中的混淆字符对第一备选词块中的至少一个字符进行替换,获得至少一个第二备选词块;若预设的词块表中不包含所述第一备选词块,则利用所述混淆字符集中的混淆字符对所述待纠错语句中的第一字符进行替换,获得所述待纠错语句的生成语句,其中,所述第一字符为所述第一备选词块中的任一字符;若所述预设的词块表中包含所述第二备选词块,则将所述待纠错语句中的第一备选词块替换为所述第二备
选词块,获得所述待纠错语句的生成语句。
[0017]在一些实施例中,特征提取模块通过以下方式对每个所述句对进行特征提取处理得到每个所述句对的句对特征:针对每个所述句对执行以下处理:提取所述句对的分数特征、编辑距离特征、困惑度分数特征和词块数量差特征中的一种或多种;将所述句对的分数特征、编辑距离特征、困惑度分数特征和词块数量差特征中的一种或多种确定为所述句对的句对特征。
[0018]在一些实施例中,特征提取模块通过以下方式提取所述句对的分数特征:获取所述句对中的待纠错语句中进行词块替换处理的字符位置的第一字符概率;获取所述句对中的生成语句中被词块替换处理后的字符位置的第二字符概率;计算所述第二字符概率和所述第一字符概率之间的第一差值;将所述第一字符概率、所述第二字符概率和所述第一差值确定为所述句对的分数特征。
[0019]在一些实施例中,特征提取模块通过以下方式提取所述句对的编辑距离特征:计算所述句对中的生成语句与待纠错语句之间本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语句纠错的方法,其特征在于,包括:对待纠错语句进行词块替换处理,获得至少一个生成语句;将每个所述生成语句分别与所述待纠错语句进行组合,构成与所述至少一个生成语句一一对应的至少一个句对;对每个所述句对进行特征提取处理,得到每个所述句对的句对特征;根据每个所述句对的句对特征对每个所述生成语句进行评分,获得每个所述生成语句的分数;根据所述分数对所述待纠错语句进行纠错,获得纠错后的语句。2.根据权利要求1所述的方法,其特征在于,对待纠错语句进行词块替换处理,获得至少一个生成语句,包括:获取第一备选词块,所述第一备选词块由所述待纠错语句中若干个连续字符拼接而成;利用预设的混淆字符集中的混淆字符对所述第一备选词块中的至少一个字符进行替换,获得至少一个第二备选词块;若预设的词块表中不包含所述第一备选词块,则利用所述混淆字符集中的混淆字符对所述待纠错语句中的第一字符进行替换,获得所述待纠错语句的生成语句,其中,所述第一字符为所述第一备选词块中的任一字符;若所述预设的词块表中包含所述第二备选词块,则将所述待纠错语句中的第一备选词块替换为所述第二备选词块,获得所述待纠错语句的生成语句。3.根据权利要求1所述的方法,其特征在于,对每个所述句对进行特征提取处理,得到每个所述句对的句对特征,包括:针对每个所述句对执行以下处理:提取所述句对的分数特征、编辑距离特征、困惑度分数特征和词块数量差特征中的一种或多种;将所述句对的分数特征、编辑距离特征、困惑度分数特征和词块数量差特征中的一种或多种确定为所述句对的句对特征。4.根据权利要求3所述的方法,其特征在于,提取所述句对的分数特征,包括:获取所述句对中的待纠错语句中进行词块替换处理的字符位置的第一字符概率;获取所述句对中的生成语句中被词块替换处理后的字符位置的第二字符概率;计算所述第二字符概率和所述第一字符概率之间的第一差值;将所述第一字符概率、所述第二字符概率和所述第一差值确定为所述句对的分数特征。5.根据权利要求3所述的方法,其特征在于,提取所述句对的编辑距离特征,包括:计算所述句对中的生成语句与待纠错语句之间的汉字编辑距离;将所述句对中的生成语句及待纠错语句转换为拼音序列,并基于转换后的拼音序列分别计算所述句对中的生成语句与待纠错语句之间的拼音编辑距离;将所述句对...

【专利技术属性】
技术研发人员:伍正祥王浪
申请(专利权)人:北京金山办公软件股份有限公司武汉金山办公软件有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1