用于执行文本纠错的方法和系统技术方案

技术编号:21914233 阅读:24 留言:0更新日期:2019-08-21 12:30
本申请涉及一种用于文本纠错的方法,所述方法包括:接收待纠错词语;对于目标词库中的每个目标词语,计算所述待纠错词语与该目标词语的字形相似度;确定所述目标词库中与所述待纠错词语具有最大字形相似度的目标词语来作为候选目标词语;以及如果所述待纠错词语与所述候选目标词语之间的字形相似度在预定义阈值范围内,则用所述候选目标词语替换所述待纠错词语。本申请还涉及智能客服方法和垂直搜索方法、以及相关系统和计算机存储介质。本申请能够用较少的计算量实现文本纠错。

Method and System for Executing Text Error Correction

【技术实现步骤摘要】
用于执行文本纠错的方法和系统
本说明书的一个或多个实施例涉及用于执行文本纠错的方法和系统。
技术介绍
为了改正用户输入的文本中的错误,文本纠错变得越来越重要。例如,用户在执行搜索时,可能输入了错误的关键字,此时为了提供正确的搜索结果,通常需要对用户输入的关键字自动执行文本纠错,以便提供用户想要的结果。然而,目前的文本纠错方案存在各种缺陷,需要一种能够高效地执行文本纠错的方案。
技术实现思路
为了克服现有技术的缺陷,本说明书的一个或多个实施例提供了用于文本纠错的技术方案。本说明书的一个或多个实施例通过以下技术方案来实现其上述目的。在一个方面中,公开了一种用于文本纠错的方法,所述方法包括:接收待纠错词语;对于目标词库中的每个目标词语,计算所述待纠错词语与该目标词语的字形相似度;确定所述目标词库中与所述待纠错词语具有最大字形相似度的目标词语来作为候选目标词语;以及如果所述待纠错词语与所述候选目标词语之间的字形相似度在预定义阈值范围内,则用所述候选目标词语替换所述待纠错词语。优选地,计算所述待纠错词语与该目标词语的字形相似度包括:基于所述待纠错词语中的汉字的点阵字体和该目标词语中的汉字的点阵字体来计算所述字形相似度。优选地,计算所述待纠错词语与该目标词语的字形相似度包括:计算所述待纠错词语中的每个汉字与该目标词语的相应汉字的字形相似度;以及基于所述待纠错词语中的每个汉字与该目标词语的相应汉字的字形相似度的平均值和/或最小值来确定所述待纠错词语与该目标词语的字形相似度。优选地,计算所述待纠错词语中的每个汉字与该目标词语的相应汉字的字形相似度包括:确定所述待纠错词语中的每个汉字的点阵字体;将所述待纠错词语中的每个汉字的点阵字体和该目标词语的相应汉字的点阵字体进行比较;以及基于所述比较确定所述待纠错词语中的每个汉字与该目标词语的相应汉字的字形相似度。优选地,所述待纠错词语中的每个汉字的点阵字体和该目标词语的相应汉字的点阵字体具有同样多的像素。优选地,基于所述比较确定所述待纠错词语中的每个汉字与该目标词语的相应汉字的字形相似度包括:确定所述待纠错词语中的每个汉字的点阵字体和该目标词语的相应汉字的点阵字体间的像素值相同的像素的数量;以及基于所述像素值相同的像素的数量来确定所述待纠错词语中的每个汉字与该目标词语的相应汉字的字形相似度。优选地,基于所述比较确定所述待纠错词语中的每个汉字与该目标词语的相应汉字的字形相似度包括:确定所述待纠错词语中的每个汉字的点阵字体和该目标词语的相应汉字的点阵字体间的像素值相同的像素的数量;确定所述像素值相同的像素的数量占所述待纠错词语中的所有汉字的总像素数量的比例;以及基于所述比例来确定所述待纠错词语中的每个汉字与该目标词语的相应汉字的字形相似度。优选地,确定所述待纠错词语中的每个汉字的点阵字体包括:对于所述待纠错词语中的每个汉字,将该汉字表示为GBK编码;获取用GBK编码表示的该汉字的字节信息;基于所述字节信息确定该汉字的区位码和偏移量;以及基于汉字的偏移量来找到该汉字在点阵字库中的字模的位置,以获得该汉字的二进制数据。优选地,所述方法还包括:对于所述待纠错词语中的每个汉字,将该汉字的二进制数据与该目标词语中的相应汉字的二进制数据进行逐位比较,以确定该汉字与该目标词语中的相应汉字的字形相似度。优选地,所述方法还包括:获得所述目标词库,所述目标词库由与特定场景相关联的词语构成。在另一方面中,公开了一种用于提供智能客服服务的方法,所述方法包括:接收由所述用户提供的智能客服问题;对所述智能客服问题执行分词处理,以获得所述智能客服问题中包括的多个词语;采用如本文所述的用于文本纠错的方法对所述多个词语执行文本纠错,其中以与所述智能客服服务相关联的词库作为目标词库;针对经文本纠错的智能客服问题提供智能客服服务。优选地,所述方法还包括:在对所述多个词语执行文本纠错之前,请求用户确认是否要执行文本纠错;以及只有在接收到用户对执行文本纠错的确认的情况下,才对所述多个词语执行文本纠错。优选地,所述方法还包括:向用户告知所述智能客服服务是基于所述经文本纠错的智能客服问题来提供的。在另一方面中,公开了提供垂直搜索服务的方法,所述方法包括:接收由所述用户提供的垂直搜索查询;对所述垂直搜索查询执行分词处理,以获得所述垂直搜索查询中包括的多个词语;采用如本文所述的用于文本纠错的方法对所述多个词语执行文本纠错,其中以与所述垂直搜索服务相关联的词库作为目标词库;针对经文本纠错的垂直搜索查询提供搜索结果。优选地,所述方法还包括:在对所述多个词语执行文本纠错之前,请求用户确认是否要执行文本纠错;以及只有在接收到用户对执行文本纠错的确认的情况下,才对所述多个词语执行文本纠错。优选地,所述方法还包括:向用户告知所述智能客服服务是基于所述经文本纠错的智能客服问题来提供的。在再一方面中,公开了一种系统,所述系统包括用于执行上述方法的装置。在又一方面中,公开了一种存储指令的计算机可读存储介质,所述指令当被计算机执行时,使所述计算机执行上述方法。与现有技术相比,本说明书的一个或多个实施例可在不需要大量数据和大量处理的情况下提供准确的文本纠错。当然,实施本申请的任一技术方案无需同时达到所有上述技术效果。附图说明以上
技术实现思路
以及下面的具体实施方式在结合附图阅读时会得到更好的理解。需要说明的是,附图仅作为所请求保护的专利技术的示例。在附图中,相同的附图标记代表相同或类似的元素。图1A-1B示出两个汉字的点阵字体的示例。图2示出根据本说明书实施例的用于文本纠错的方法的示例流程图。图3示出计算两个词语的字形相似度的方法的示例流程图。图4示出计算两个汉字的字形相似度的方法的示例流程图。图5示出根据本说明实施例的用于提供智能客服服务的方法的示例流程图。图6示出根据本说明实施例的用于提供垂直搜索服务的方法的示例流程图。具体实施方式以下具体实施方式的内容足以使任何本领域技术人员了解本说明书的一个或多个实施例的
技术实现思路
并据以实施,且根据本说明书所揭露的说明书、权利要求及附图,本领域技术人员可轻易地理解本说明书的一个或多个实施例相关的目的及优点。应用上下文在许多应用场景中,需要对用户输入的文本执行文本纠错。例如,在输入英文的情况下,用户可能将“long”输入为“lomg”,这可能因为“n”和“m”两个字符在键盘上的位置较近。又例如,在输入中文的情况下,用户可能将“芈月传”输入为“米月传”。以上是输入英文或者采用拼音输入法进行输入时的示例。在采用手写输入法或其它字形输入法(例如五笔输入法等)的情况下,也可能出错。例如,用户在想要输入“白酒”时,可能错误地输入成“白洒”。又例如,用户在想要输入“手续费”时,可能错误地输入成“乎读费”。对于可能的输入错误,通常可存在两个进行纠错的机会。一个机会是在输入时。例如,在用输入法输入文本时的自动纠错。例如,目前有些英文输入法对于英文输入有自动纠错功能。又例如,在中文中,有些拼音输入法也会自动对错误的输入进行纠正。另一个机会是在输入后。例如,有些网站或应用提供搜索服务,用户可在搜索框中输入关键词(例如,“专利”)甚至自然语言语句(例如,“是什么专利”)。当然,有些网站或应用允许在特定领域中提供搜索服务。例如,有些网站或本文档来自技高网
...

【技术保护点】
1.一种用于文本纠错的方法,其特征在于,所述方法包括:接收待纠错词语;对于目标词库中的每个目标词语,计算所述待纠错词语与该目标词语的字形相似度;确定所述目标词库中与所述待纠错词语具有最大字形相似度的目标词语来作为候选目标词语;以及如果所述待纠错词语与所述候选目标词语之间的字形相似度在预定义阈值范围内,则用所述候选目标词语替换所述待纠错词语。

【技术特征摘要】
1.一种用于文本纠错的方法,其特征在于,所述方法包括:接收待纠错词语;对于目标词库中的每个目标词语,计算所述待纠错词语与该目标词语的字形相似度;确定所述目标词库中与所述待纠错词语具有最大字形相似度的目标词语来作为候选目标词语;以及如果所述待纠错词语与所述候选目标词语之间的字形相似度在预定义阈值范围内,则用所述候选目标词语替换所述待纠错词语。2.如权利要求1所述的方法,其特征在于,计算所述待纠错词语与该目标词语的字形相似度包括:基于所述待纠错词语中的汉字的点阵字体和该目标词语中的汉字的点阵字体来计算所述字形相似度。3.如权利要求1所述的方法,其特征在于,计算所述待纠错词语与该目标词语的字形相似度包括:计算所述待纠错词语中的每个汉字与该目标词语的相应汉字的字形相似度;以及基于所述待纠错词语中的每个汉字与该目标词语的相应汉字的字形相似度的平均值和/或最小值来确定所述待纠错词语与该目标词语的字形相似度。4.如权利要求3所述的方法,其特征在于,计算所述待纠错词语中的每个汉字与该目标词语的相应汉字的字形相似度包括:确定所述待纠错词语中的每个汉字的点阵字体;将所述待纠错词语中的每个汉字的点阵字体和该目标词语的相应汉字的点阵字体进行比较;以及基于所述比较确定所述待纠错词语中的每个汉字与该目标词语的相应汉字的字形相似度。5.如权利要求4所述的方法,其特征在于,所述待纠错词语中的每个汉字的点阵字体和该目标词语的相应汉字的点阵字体具有同样多的像素。6.如权利要求4所述的方法,其特征在于,基于所述比较确定所述待纠错词语中的每个汉字与该目标词语的相应汉字的字形相似度包括:确定所述待纠错词语中的每个汉字的点阵字体和该目标词语的相应汉字的点阵字体间的像素值相同的像素的数量;以及基于所述像素值相同的像素的数量来确定所述待纠错词语中的每个汉字与该目标词语的相应汉字的字形相似度。7.如权利要求4所述的方法,其特征在于,基于所述比较确定所述待纠错词语中的每个汉字与该目标词语的相应汉字的字形相似度包括:确定所述待纠错词语中的每个汉字的点阵字体和该目标词语的相应汉字的点阵字体间的像素值相同的像素的数量;确定所述像素值相同的像素的数量占所述待纠错词语中的所有汉字的总像素数量的比例;以及基于所述比例来确定所述待纠错词语中的每个汉字与该目标词语的相应汉字的字形相似度。8.如权利要求4所述的方法,其特征在于,确定所述待纠错词语中的每个汉字的点阵字体包括:对于所述待纠错词语中的每个汉字,将该汉字表示为GBK编码;获取用GBK编码表示的该汉字的字节信息;基于所述字节信息确定该汉字的区位码和偏移量;以及基于汉字的偏移量来找到该汉字在点阵字库中的字模的位置,以获得该汉字的二进制数据。9.如权利要求8所述的方法,其特征在于,所述方法还包括:对于所述待纠错词语中的每个汉字,将该汉字的二进制数据与该目标词语中的相应汉字的二进制数据进行逐位比较,以确定该汉字与该目标词语中的相应汉字的字形相似度。10.如权利要求1所述的方法,其特征在于,所述方法还包括:获得所述目标词库,所述目标词库由与特定场景相关联的词语构成。11.一种用于提供智能...

【专利技术属性】
技术研发人员:陈召群
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1