形近字纠错语料挖掘方法、纠错方法、设备及存储介质技术

技术编号:24576439 阅读:60 留言:0更新日期:2020-06-21 00:26
本公开的实施例提供了一种形近字纠错语料挖掘方法、纠错方法、设备及存储介质。所述形近字纠错语料挖掘方法包括:根据用户搜索日志中的搜索词query和搜索结果title,构建query/title对;对比所述query/title对中的query和title,得到形近字匹配对;根据所述形近字匹配对生成纠错语料。本公开的实施例提供的方法能够帮助用户在采用手写体或字形方式输入搜索信息情况下准确地纠正识别错误,改善搜索体验。

Data mining method, error correction method, equipment and storage medium of near form error correction

【技术实现步骤摘要】
形近字纠错语料挖掘方法、纠错方法、设备及存储介质
本公开的实施例一般地涉及信息
,并且更具体地,涉及一种形近字纠错语料挖掘方法、纠错方法、设备及存储介质。
技术介绍
随着互联网的发展和普及,用户经常需要输入文字进行信息的交互,例如很多互联网用户具有主动搜索的习惯用来获取自己所关注的信息。目前大多数的主流APP都提供给用户搜索框,方便用户来搜索站内信息,帮助用户更好地发现站内优质资源。目前,文字的输入方式较为多样,包括拼音输入法、例如五笔输入法等字型输入法、语音输入、手写输入等,对于一些用户,喜欢通过手写体来输入文字,系统通过OCR(OpticalCharacterRecognition,光学字符识别)技术识别文字,但有时候由于书写错误或者书写过于潦草导致OCR识别错误的情况,造成输入或识别的汉字并非用户真实期望输入的汉字而是其形近字,从而不利于检索到需要的信息,影响用户体验,而且增加了搜索处理的负担,耗费计算资源。已有的一些文字纠错方法基于文字编码距离的远近进行形近字的匹配,在手写体输入的情况下准确度较低。
技术实现思路
为了解决上述问题,本公开的实施例提供了一种形近字纠错方案,能够提高形近字纠错的效率和准确性。在本公开的第一方面,提供了一种形近字纠错语料挖掘方法,包括:根据用户搜索日志中的搜索词query和搜索结果title,构建query/title对;对比所述query/title对中的query和title,得到形近字匹配对;根据所述形近字匹配对生成纠错语料。进一步地,所述根据用户搜索日志中的搜索词query和搜索结果title,构建query/title对包括:从用户搜索日志中获取query以及搜索所述query得到的title;从搜索所述query得到的title中抽取被用户查看的title;将所述query与所述被用户查看的title组成query/title对。进一步地,所述对比所述query/title对中的query和title,得到形近字匹配对包括:对所述query和title分别进行分词处理,得到query词序列和title词序列;对比所述query词序列和title词序列,得到不一致的单字;将所述不一致的单字组成形近字匹配对。进一步地,所述query为用户通过手写方式和/或字型输入法输入的。进一步地,在得到形近字匹配对之后,方法包括:采用形近字验证对对所述形近字匹配对进行筛选,所述形近字验证对是基于图像算法生成的;根据所述筛选后的形近字匹配对生成纠错语料。进一步地,采取以下步骤生成所述形近字验证对:对汉字进行图像化处理;采用图像算法抽取汉字的图像特征;计算汉字的图像特征之间的相似度,得到每个汉字的形近字序列;将每个汉字与其形近字序列中的汉字组成形近字验证对。在本公开的第二方面,提供了一种形近字纠错方法,包括:获取输入的文字序列;使用根据第一方面所述的方法生成的纠错语料对所述文字序列进行纠错。进一步地,所述文字序列包括用户手写输入的汉字和/或以字型输入法输入的汉字。在本公开的第三方面,提供了一种电子设备。该电子设备包括:存储器和处理器,所述存储器上存储有计算机程序,所述处理器执行所述程序时实现如以上所述的方法。在本公开的第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如以上所述的方法。本公开的实施例提供的形近字纠错语料挖掘方法、纠错方法、设备及存储介质通过对用户搜索日志进行挖掘,得到query/title的点击对,然后采用query和title的对齐规则得到形近字匹配对,能够帮助用户在采用手写体或字形方式输入搜索信息情况下准确地纠正识别错误,改善搜索体验;并且,采用基于图像的形近字识别算法生成形近字验证对,对形近字匹配对进行筛选,从而提高纠错备选形近字的可靠性,减少人工检查的成本。应当理解,
技术实现思路
部分中所描述的内容并非旨在限定本公开的实施例的关键或重要特征,亦非用于限制本公开的范围。本公开的其它特征将通过以下的描述变得容易理解。附图说明结合附图并参考以下详细说明,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中,相同或相似的附图标记表示相同或相似的元素,其中:图1示出了根据本公开实施例的形近字纠错语料挖掘方法的流程图;图2示出了根据本公开另一实施例的形近字纠错语料挖掘方法的流程图;图3示出了根据本公开实施例的形近字纠错方法的流程图;图4示出了能够实施本公开实施例的示例性电子设备的方框图。具体实施方式为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本公开一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的全部其他实施例,都属于本公开保护的范围。另外,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。图1示出了根据本公开实施例的一种形近字纠错语料挖掘方法,包括:S101、根据用户搜索日志中的搜索词query和搜索结果title,构建query/title对;其中,query即搜索词,是指为了在数据库中寻找特定的文件、网站、消息或记录等而输入的信息,用户通过输入query来表达需求,例如用户想搜索“科技公司”,则通过手写方式在搜索框中输入文字“科技公司”,但被OCR错误识别为“科枝公司”,“科枝公司”即为此次搜索的搜索词query。title即搜索结果,是指根据query从数据库中按照预设的搜索算法得到的相关文件、消息或记录等。在得到搜索结果title后,通过用户界面呈现,用户从呈现的title中采取点击等方式选择并查看符合个人搜索需求的titile。例如对于“科枝公司”的query,用户根据需求会从呈现的title中点击包含“科技公司”的title。所述用户搜索日志为历史数据,其包含了历史搜索的query、每个query得到的title以及被查看的title等信息。具体地,该步骤包括:从用户搜索日志中获取query以及搜索所述query得到的title;从搜索所述query得到的全部title中抽取被用户查看的title,例如日志中记录有点击行为的title;将所述query与所述被用户查看的title组成query/title对。其中,所述query/title对中的title为用户搜索日志中用户搜索该query后查看的title,通过本文档来自技高网
...

【技术保护点】
1.一种形近字纠错语料挖掘方法,其特征在于,包括:/n根据用户搜索日志中的搜索词query和搜索结果title,构建query/title对;/n对比所述query/title对中的query和title,得到形近字匹配对;/n根据所述形近字匹配对生成纠错语料。/n

【技术特征摘要】
1.一种形近字纠错语料挖掘方法,其特征在于,包括:
根据用户搜索日志中的搜索词query和搜索结果title,构建query/title对;
对比所述query/title对中的query和title,得到形近字匹配对;
根据所述形近字匹配对生成纠错语料。


2.根据权利要求1所述的方法,其特征在于,所述根据用户搜索日志中的搜索词query和搜索结果title,构建query/title对包括:
从用户搜索日志中获取query以及搜索所述query得到的title;
从搜索所述query得到的title中抽取被用户查看的title;
将所述query与所述被用户查看的title组成query/title对。


3.根据权利要求2所述的方法,其特征在于,所述对比所述query/title对中的query和title,得到形近字匹配对包括:
对所述query和title分别进行分词处理,得到query词序列和title词序列;
对比所述query词序列和title词序列,得到不一致的单字;
将所述不一致的单字组成形近字匹配对。


4.根据权利要求3所述的方法,其特征在于,所述query为用户通过手写方式和/或字型输入法输入的。
<...

【专利技术属性】
技术研发人员:邓江东
申请(专利权)人:北京字节跳动网络技术有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1