文本纠错方法、装置及通信设备制造方法及图纸

技术编号:28839207 阅读:15 留言:0更新日期:2021-06-11 23:37
本申请适用于文本纠错技术领域,提供了文本纠错方法、装置及通信设备,包括:对待纠错文本进行分词,得到对应的词语;根据预设的概率分布表确定各个词语出现的每个字对应的最高词长,最高词长为最高的分布概率所对应的词长,其中,一个词语的词长与词语的字数相等,预设的概率分布表用于存储字、分布概率与词长的对应关系,分布概率为字组成的不同词长的词语在文本出现的概率;根据目标字在待纠错文本中的位置确定待预测字,目标字为各个词语出现的每个字中,所在的词语的词长与最高词长不相等的字;待预测字的数量大于或等于目标字的数量;根据待预测字对待纠错文本进行纠错,得到校正文本。通过上述方法,能够提高纠错的准确率。

【技术实现步骤摘要】
文本纠错方法、装置及通信设备
本申请属于文本纠错
,尤其涉及文本纠错方法、装置、通信设备及计算机可读存储介质。
技术介绍
文本纠错长期以来是自然语言处理的一大技术难题,通常文本纠错在很多人机会话系统都会涉及,以提升对话系统的体验。文本纠错可通过先检错再纠错的方式实现。例如采用传统的n-gram,贝叶斯等方法都能实现句子的检错,纠错的模块通常采用计算编辑距离来找错误和纠正错误。其中,N-gram是一种基于统计的语言模型,常常用来做句子相似度比较,句子合理性判断。即在现有的文本纠错方法中,通常通过n-gram对待纠错文本进行相似度比较和距离合理性判断后,得出待纠错文本中存在错误的具体位置,再采用计算编辑距离实现错误的纠正。但现有的文本纠错方法仍存在纠错准确率较低的问题。
技术实现思路
本申请实施例提供了文本纠错方法,可以解决现有的文本存在的纠错准确率较低问题。第一方面,本申请实施例提供了一种文本纠错方法,包括:对待纠错文本进行分词,得到对应的词语;根据预设的概率分布表确定各个词语出现的每个字对应的最高词长,所述最高词长为最高的分布概率所对应的词长,其中,一个词语的词长与所述词语的字数相等,所述预设的概率分布表用于存储字、分布概率与词长的对应关系,所述分布概率为所述字组成的不同词长的词语在文本出现的概率;根据目标字在所述待纠错文本中的位置确定待预测字,所述目标字为各个词语出现的每个字中,所在的词语的词长与所述最高词长不相等的字;所述待预测字为所述待纠错文本中将要预测的字,所述待预测字的数量大于或等于所述目标字的数量;根据所述待预测字对所述待纠错文本进行纠错,得到校正文本。第二方面,本申请实施例提供了一种文本纠错装置,包括:分词单元,用于对待纠错文本进行分词,得到对应的词语;最高词长确定单元,用于根据预设的概率分布表确定各个词语出现的每个字对应的最高词长,所述最高词长为最高的分布概率所对应的词长,其中,一个词语的词长与所述词语的字数相等,所述预设的概率分布表用于存储字、分布概率与词长的对应关系,所述分布概率为所述字组成的不同词长的词语在文本出现的概率;待预测字确定单元,用于根据目标字在所述待纠错文本中的位置确定待预测字,所述目标字为各个词语出现的每个字中,所在的词语的词长与所述最高词长不相等的字;所述待预测字为所述待纠错文本中将要预测的字,所述待预测字的数量大于或等于所述目标字的数量;校正文本确定单元,用于根据所述待预测字对所述待纠错文本进行纠错,得到校正文本。第三方面,本申请实施例提供了一种通信设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面所述的方法。第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的方法。第五方面,本申请实施例提供了一种计算机程序产品,当计算机程序产品在通信设备上运行时,使得通信设备执行上述第一方面中任一项所述的方法。本申请实施例与现有技术相比存在的有益效果是:在本申请实施例中,对待纠错文本进行分词,得到对应的词语后,再根据预设的概率分布表确定各个词语出现的每个字对应的最高词长,最后根据目标字在该待纠错文本中的位置确定待预测字,并根据该待预测字对该待纠错文本进行纠错,得到校正文本。由于目标字为各个词语出现的每个字中,所在的词语的词长与该最高词长不相等的字,而目标字在待纠错文本中的词长与最高词长不同时,该目标字出现错误的概率较高,因此,根据目标字在待纠错文本中的位置确定的待预测字出现错误的概率也较高,也即,本申请实施例提供的文本纠错方法通过统计分词的方式进行检错,能够较快以及较准确地检测出待纠错文本中可能存在错误的字,从而提高了纠错的准确率。可以理解的是,上述第二方面至第五方面的有益效果可以参见上述第一方面中的相关描述,在此不再赘述。附图说明为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。图1是本申请一实施例提供的第一种文本纠错方法的流程图;图2是本申请一实施例提供的第二种文本纠错方法的流程图;图3是本申请一实施例提供的第三种文本纠错方法的流程图;图4是本申请一实施例提供的对“[mask]国是世界文明股国。”进行预测得到的预测结果示意图;图5是本申请另一实施例提供的对“钟[mask]是世界文明股国。”进行预测得到的预测结果示意图;图6是本申请一实施例提供的对“钟国是世界文明[mask]国。”进行预测得到的预测结果示意图;图7是本申请另一实施例提供的第四种文本纠错方法的流程图;图8是本申请实施例提供的一种混淆集中的第一字和第二字的对应关系的示意图;图9是本申请实施例提供的一种文本纠错装置的结构示意图;图10是本申请实施例提供的通信设备的结构示意图。具体实施方式以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。应当理解,当在本申请说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。还应当理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。现有的文本纠错方法中,在检错过程中直接给出待纠错文本中一个具体的需要纠错的位置,最后再对该具体的需要纠错的位置上的字进行纠错。但由于检错过程直接给出一个具体的位置,因此,其泛化性较差,进而导致纠错的准确率较低。为了解决上述技术问题,本申请实施例提供了一种文本纠错方法,在该文本纠错方法中,通过统计分词的方式对待纠错文本进行检错,提高了检测的效率,且其比直接给出一个具体的需要纠错的位置的纠错方法更具泛化性,从而提高了纠错的准确率。下面结合具体附图对本申请实施例的文本纠错方法进行描述。图1示出了本申请实施例提供的第一种文本纠错方法的流程图,该文本纠错方法可应用于通信设备中,如应用在机器人中,详述如下:步骤S11,对待纠错文本进行分词,得到对应的词语。其中,待纠错文本为中文文本。本实施例中,可采用预设的分词器对待纠错文本进行分词,该预设的分词器可为结巴(jieba)分词器。在一些实施例中,预设的分词器也可以为训练后的分词器,具体训练过程如下:1)首先获取大量的中文文本,这些中文文本本文档来自技高网...

【技术保护点】
1.一种文本纠错方法,其特征在于,包括:/n对待纠错文本进行分词,得到对应的词语;/n根据预设的概率分布表确定各个词语出现的每个字对应的最高词长,所述最高词长为最高的分布概率所对应的词长,其中,一个词语的词长与所述词语的字数相等,所述预设的概率分布表用于存储字、分布概率与词长的对应关系,所述分布概率为所述字组成的不同词长的词语在文本出现的概率;/n根据目标字在所述待纠错文本中的位置确定待预测字,所述目标字为各个词语出现的每个字中,所在的词语的词长与所述最高词长不相等的字;所述待预测字为所述待纠错文本中将要预测的字,所述待预测字的数量大于或等于所述目标字的数量;/n根据所述待预测字对所述待纠错文本进行纠错,得到校正文本。/n

【技术特征摘要】
1.一种文本纠错方法,其特征在于,包括:
对待纠错文本进行分词,得到对应的词语;
根据预设的概率分布表确定各个词语出现的每个字对应的最高词长,所述最高词长为最高的分布概率所对应的词长,其中,一个词语的词长与所述词语的字数相等,所述预设的概率分布表用于存储字、分布概率与词长的对应关系,所述分布概率为所述字组成的不同词长的词语在文本出现的概率;
根据目标字在所述待纠错文本中的位置确定待预测字,所述目标字为各个词语出现的每个字中,所在的词语的词长与所述最高词长不相等的字;所述待预测字为所述待纠错文本中将要预测的字,所述待预测字的数量大于或等于所述目标字的数量;
根据所述待预测字对所述待纠错文本进行纠错,得到校正文本。


2.如权利要求1所述的文本纠错方法,其特征在于,所述根据所述待预测字对所述待纠错文本进行纠错,得到校正文本,包括:
对所述待预测字进行预测,得到对应的预测字;
根据所述预测字和所述待纠错文本中除所述待预测字之外的字确定预测文本,以及,根据所述待预测字和所述待纠错文本中除所述待预测字之外的字确定预测文本;
根据所述预测文本确定校正文本。


3.如权利要求2所述的文本纠错方法,其特征在于,所述对所述待预测字进行预测之后,还得到:预测概率,所述预测概率用于指示所述待预测字为所述预测字的概率;
所述根据所述预测字和所述待纠错文本中除所述待预测字之外的字确定预测文本,以及,根据所述待预测字和所述待纠错文本中除所述待预测字之外的字确定预测文本,包括:
若得到的所述预测字的数量大于预设的字数量,则根据所述大于概率阈值的预测概率所对应的预测字和所述待纠错文本中除所述待预测字之外的字确定预测文本,以及,根据所述待预测字和所述待纠错文本中除所述待预测字之外的字确定预测文本。


4.如权利要求2所述的文本纠错方法,其特征在于,所述根据所述预测字和所述待纠错文本中除所述待预测字之外的字确定预测文本,以及,根据所述待预测字和所述待纠错文本中除所述待预测字之外的字确定预测文本,包括:
若预设的混淆集存在所述待预测字与所述预测字的对应关系,则根据存在所述对应关系的预测字和所述待纠错文本中除所述待预测字之外的字确定预测文本,以及,根据所述待预测字和所述待...

【专利技术属性】
技术研发人员:熊为星
申请(专利权)人:深圳市优必选科技股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1