中文相似音别字校正方法及系统技术方案

技术编号:38905344 阅读:80 留言:0更新日期:2023-09-22 14:24
一种中文相似音别字校正方法及系统。此方法包括下列步骤:撷取待校正的中文字串,此中文字串包括多个文字;针对中文字串中的每一个文字,搜寻符合该文字的前后文语义的至少一个候选字;以及从候选字中筛选出与该文字的发音相似的注音相似字并用以校正该文字。相似的注音相似字并用以校正该文字。相似的注音相似字并用以校正该文字。

【技术实现步骤摘要】
中文相似音别字校正方法及系统


[0001]本揭露是有关于一种文字输入方法及系统,且特别是有关于一种中文相似音别字校正方法及系统。

技术介绍

[0002]过去在使用注音输入法的过程中,常会不经意地出现一些拼音上的错误。同时,在许多文字转语音的系统中,也时常会看到相似音文字判断错误的问题。例如:语者说「大不相同」,但系统输出文字为「大步相同」。
[0003]现有的中文文字校正方法大多需要搜集大量的词组组成常用词组库,并用此词组库来校正错字,但这样的方法不仅需耗费大量时间,同时校正能力相当有限。例如:某人说「这是先人长大的地方」,文字转语音的系统输出「这是先人掌大的地方」,而一般使用词组库的校正系统可能会将其校正为「这是仙人掌大的地方」。在这样的情况下,不但没有成功校正文字,反而造成更多的错误。

技术实现思路

[0004]本揭露一实施例提供一种中文相似音别字校正方法,适用于具处理器的电子装置。此方法包括下列步骤:撷取待校正的中文字串,此中文字串包括多个文字;针对中文字串中的每一个文字,搜寻符合该文字的前后文语义的至少一个候选字本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种中文相似音别字校正方法,适用于具处理器的电子装置,所述方法包括下列步骤:撷取待校正的中文字串,所述中文字串包括多个文字;针对所述中文字串中的每一所述文字,搜寻符合所述文字的前后文的语义的至少一候选字;以及从所述候选字中筛选出与所述文字的发音相似的注音相似字并用以校正所述文字。2.如权利要求1所述的方法,其特征在于,撷取待校正的中文字串的步骤包括:撷取由标点符号断开的多个输入文字或是由语音断点断开的多个语音文字作为待校正的所述中文字串。3.如权利要求1所述的方法,其特征在于,针对所述中文字串中的每一所述文字,搜寻符合所述文字的前后文的语义的至少一候选字的步骤包括:输入所述文字的所述前后文于经训练的机器学习模型,以输出符合所述前后文的语义的所述候选字,其中所述机器学习模型经使用多个中文文本及对应的多个字词训练。4.如权利要求1所述的方法,其特征在于,所述前后文包括所述文字所在的所述中文字串以及位在所述中文字串之前或之后的多个字串。5.如权利要求1所述的方法,其特征在于,从所述候选字中筛选出与所述文字的发音相似的注音相似字的步骤包括:从所述候选字中筛选出与所述文字的注音相同,且声调相同或不同的候选字作为所述注音相似字。6.如权利要求1所述的方法,其特征在于,从所述候选字中筛选出与所述文字的发...

【专利技术属性】
技术研发人员:林品铨朱升玮林意淳蔡宗宪蔡岳洋
申请(专利权)人:宏碁股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1