一种搜索文本的纠正方法、装置、终端及存储介质制造方法及图纸

技术编号:21628970 阅读:22 留言:0更新日期:2019-07-17 11:06
本发明专利技术实施例公开了一种搜索文本的纠正方法、装置、终端及存储介质,该方法包括:获取目标搜索文本,并对目标搜索文本进行分词处理确定目标搜索文本对应的搜索词序列;根据搜索语料库确定搜索词序列对应的各候选准确词序列;对搜索词序列进行分段,确定每个分段方式对应的各搜索词片段以及各搜索词片段对应的各候选准确词片段;根据搜索语料库以及搜索词总数,确定每个分段方式下各候选准确词序列对应的候选纠正概率;根据每个分段方式下各候选准确词序列对应的候选纠正概率,确定目标搜索文本对应的目标准确文本。本发明专利技术实施例的技术方案,通过利用分段纠错的方式可以解决现有技术中因搜索词关联性较差导致的纠正准确性较低的问题。

A Correction Method, Device, Terminal and Storage Media for Searching Text

【技术实现步骤摘要】
一种搜索文本的纠正方法、装置、终端及存储介质
本专利技术实施例涉及信息处理技术,尤其涉及一种搜索文本的纠正方法、装置、终端及存储介质。
技术介绍
随着信息科技的快速发展,用户可以通过搜索方式进行信息查询,以获取所需信息。通常,用户可以根据自身需求输入搜索文本,借助检索工具从信息集合中找出与搜索文本对应的搜索结果。例如,在网络直播平台中,用户可以在搜索入口中输入主播名称,从而可以快速找到想要观看的直播视频。通常,用户在输入搜索文本时往往会发生错误,比如拼写错误、词语颠倒等,使得用户无法找到所需的搜索结果,因此需要对用户输入的搜索文本进行纠正处理。现有的纠正过程是:对搜索文本进行分词后,直接对每个搜索词进行纠正处理,并且需要考虑纠正后每个词语的上下文。然而,现有技术中搜索文本的分词往往不精准,并且在搜索词的关联性较差时,若仍考虑纠正后词语的上下文,则可能存在歧义信息,往往无法确定真正准确的文本,从而降低了纠正的准确性,影响了用户的搜索体验。
技术实现思路
本专利技术实施例提供了一种搜索文本的纠正方法、装置、终端及存储介质,以解决现有技术中因搜索词关联性较差导致的纠正准确性较低的问题,从而提高纠正准确性,进而提升用户的搜索体验。第一方面,本专利技术实施例提供了一种搜索文本的纠正方法,包括:获取目标搜索文本,并对所述目标搜索文本进行分词处理确定所述目标搜索文本对应的搜索词序列;根据搜索语料库确定所述搜索词序列对应的各候选准确词序列,其中,所述搜索词序列中的搜索词与所述候选准确词序列中的候选准确词一一对应;对所述搜索词序列进行分段,确定每个分段方式对应的各搜索词片段以及各所述搜索词片段对应的各候选准确词片段,其中,所述分段方式包括搜索词片段数量以及每个搜索词片段对应的搜索词数量;根据所述每个分段方式对应的各搜索词片段、与所述搜索词片段对应的各候选准确词片段、所述搜索语料库、以及搜索词总数,确定每个所述分段方式下各所述候选准确词序列对应的候选纠正概率;根据每个所述分段方式下各所述候选准确词序列对应的候选纠正概率,确定所述目标搜索文本对应的目标准确词序列,并根据所述目标准确词序列确定所述目标搜索文本对应的目标准确文本。第二方面,本专利技术实施例还提供了一种搜索文本的纠正装置,包括:搜索词序列确定模块,用于获取目标搜索文本,并对所述目标搜索文本进行分词处理确定所述目标搜索文本对应的搜索词序列;候选准确词序列确定模块,用于根据搜索语料库确定所述搜索词序列对应的各候选准确词序列,其中,所述搜索词序列中的搜索词与所述候选准确词序列中的候选准确词一一对应;搜索词序列分段模块,用于对所述搜索词序列进行分段,确定每个分段方式对应的各搜索词片段以及各所述搜索词片段对应的各候选准确词片段,其中,所述分段方式包括搜索词片段数量以及每个搜索词片段对应的搜索词数量;候选纠正概率确定模块,用于根据所述每个分段方式对应的各搜索词片段、与所述搜索词片段对应的各候选准确词片段、所述搜索语料库、以及搜索词总数,确定每个所述分段方式下各所述候选准确词序列对应的候选纠正概率;目标准确文本确定模块,用于根据每个所述分段方式下各所述候选准确词序列对应的候选纠正概率,确定所述目标搜索文本对应的目标准确词序列,并根据所述目标准确词序列确定所述目标搜索文本对应的目标准确文本。第三方面,本专利技术实施例还提供了一种终端,所述终端包括:一个或多个处理器;存储器,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本专利技术任意实施例所述的搜索文本的纠正方法。第四方面,本专利技术实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本专利技术任意实施例所述的搜索文本的纠正方法。本专利技术实施例通过对搜索词序列进行分段,确定每个分段方式对应的各搜索词片段以及各搜索词片段对应的各候选准确词片段;并根据每个分段方式对应的各搜索词片段、与搜索词片段对应的各候选准确词片段、搜索语料库、以及搜索词总数,确定每个分段方式下各候选准确词序列对应的候选纠正概率;根据每个分段方式下各候选准确词序列对应的候选纠正概率,确定目标搜索文本对应的目标准确词序列,并根据目标准确词序列确定目标搜索文本对应的目标准确文本。通过对搜索词序列进行分段纠错,考虑每个分段方式下搜索词的关联性,从而可以确定最优的分段方式对应的最优的候选准确词序列,避免了因搜索词的关联性较低而导致计算的目标准确词序列不准确的情况,提高了纠正的准确性,进而提升了用户的搜索体验。附图说明图1是本专利技术实施例一提供的一种搜索文本的纠正方法的流程图;图2是本专利技术实施例二提供的一种搜索文本的纠正方法的流程图;图3是本专利技术实施例三提供的一种搜索文本的纠正装置的结构示意图;图4是本专利技术实施例四提供的一种终端的结构示意图。具体实施方式下面结合附图和实施例对本专利技术作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本专利技术,而非对本专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本专利技术相关的部分而非全部结构。实施例一图1为本专利技术实施例一提供的一种搜索文本的纠正方法的流程图,本实施例可适用于对搜索文本进行拼写纠错的情况,尤其可以用于网络直播平台中纠正搜索文本的场景。该方法可以由搜索文本的纠正装置来执行,该装置可以由软件和/或硬件的方式来实现,集成于具有搜索功能的终端中,比如智能手机、平板电脑、台式计算机等。该方法具体包括以下步骤:S110、获取目标搜索文本,并对目标搜索文本进行分词处理确定目标搜索文本对应的搜索词序列。其中,目标搜索文本是指用户当前输入的搜索文本。示例性的,可以将当前搜索入口中的搜索文本确定为目标搜索文本。分词处理可以是指根据分词词典或者其他分词规则,将目标搜索文本划分为多个搜索词。搜索词序列是指对目标搜索文本进行分词处理后得到的各个搜索词组成的序列。搜索词序列中的搜索词排列顺序与目标搜索文本中的搜索词顺序一致。示例性的,若目标搜索文本为“不不惊心”,则根据分词词典进行词语匹配后,确定的搜索词序列可以为:“不不,惊心”。S120、根据搜索语料库确定搜索词序列对应的各候选准确词序列,其中,搜索词序列中的搜索词与候选准确词序列中的候选准确词一一对应。其中,搜索语料库可以根据大量用户的搜索行为日志预先确定。搜索语料库可以包括大量的历史搜索关键词以及每个历史搜索关键词被纠正后的准确关键词,其中准确关键词均可以根据用户的点击操作进行确定。候选准确词序列是指目标搜索文本对应的任一可能的纠正序列。本实施例可以从所有候选准确词序列中确定最优的准确词序列。在本实施例中,每个候选准确词序列均对应一个候选准确词文本,其中,候选准确词文本中的候选准确词顺序与候选准确词序列一致。搜索词序列中的搜索词与候选准确词序列中的候选准确词一一对应,即搜索词序列中每个搜索词对应候选准确词序列中的一个候选准确词。示例性的,目标搜索词文本对应的搜索词序列为q1,q2,...,qN,某个候选准确词序列为c1,c2,...,cN,其中搜索词qi与候选准确词ci一一对应。具体的,本实施例可以根据搜索语料库确定搜索词序列中的每个搜索词对应的至少一个候选准确词,并将候选准确词进行排列组合,确定搜索词序列本文档来自技高网...

【技术保护点】
1.一种搜索文本的纠正方法,其特征在于,包括:获取目标搜索文本,并对所述目标搜索文本进行分词处理确定所述目标搜索文本对应的搜索词序列;根据搜索语料库确定所述搜索词序列对应的各候选准确词序列,其中,所述搜索词序列中的搜索词与所述候选准确词序列中的候选准确词一一对应;对所述搜索词序列进行分段,确定每个分段方式对应的各搜索词片段以及各所述搜索词片段对应的各候选准确词片段,其中,所述分段方式包括搜索词片段数量以及每个搜索词片段对应的搜索词数量;根据所述每个分段方式对应的各搜索词片段、与所述搜索词片段对应的各候选准确词片段、所述搜索语料库、以及搜索词总数,确定每个所述分段方式下各所述候选准确词序列对应的候选纠正概率;根据每个所述分段方式下各所述候选准确词序列对应的候选纠正概率,确定所述目标搜索文本对应的目标准确词序列,并根据所述目标准确词序列确定所述目标搜索文本对应的目标准确文本。

【技术特征摘要】
1.一种搜索文本的纠正方法,其特征在于,包括:获取目标搜索文本,并对所述目标搜索文本进行分词处理确定所述目标搜索文本对应的搜索词序列;根据搜索语料库确定所述搜索词序列对应的各候选准确词序列,其中,所述搜索词序列中的搜索词与所述候选准确词序列中的候选准确词一一对应;对所述搜索词序列进行分段,确定每个分段方式对应的各搜索词片段以及各所述搜索词片段对应的各候选准确词片段,其中,所述分段方式包括搜索词片段数量以及每个搜索词片段对应的搜索词数量;根据所述每个分段方式对应的各搜索词片段、与所述搜索词片段对应的各候选准确词片段、所述搜索语料库、以及搜索词总数,确定每个所述分段方式下各所述候选准确词序列对应的候选纠正概率;根据每个所述分段方式下各所述候选准确词序列对应的候选纠正概率,确定所述目标搜索文本对应的目标准确词序列,并根据所述目标准确词序列确定所述目标搜索文本对应的目标准确文本。2.根据权利要求1所述的方法,其特征在于,根据所述每个分段方式对应的各搜索词片段、与所述搜索词片段对应的各候选准确词片段、所述搜索语料库、威尔逊置信区间公式以及搜索词总数,确定每个所述分段方式下各所述候选准确词序列对应的候选纠正概率,包括:将所述每个分段方式逐个确定为第一分段方式,并将所述第一分段方式下各所述候选准确词序列逐个确定为第一准确词序列;根据所述搜索语料库,确定所述第一分段方式对应的各片段纠正概率,其中,所述片段纠正概率是搜索词片段纠正为对应的第一准确词片段的概率;根据各所述片段纠正概率、所述搜索词片段数量以及搜索词总数确定所述第一分段方式下所述第一准确词序列对应的候选纠正概率。3.根据权利要求2所述的方法,其特征在于,根据所述搜索语料库,确定所述第一分段方式对应的各片段纠正概率,包括:将所述第一分段方式对应的各所述搜索词片段逐个确定为目标搜索词片段;若所述目标搜索词片段仅包括一个搜索词,则根据所述搜索语料库确定所述目标搜索词片段对应的第一纠正概率,并将所述第一纠正概率确定为所述目标搜索词片段对应的片段纠正概率,其中所述第一纠正概率是该搜索词纠正为对应的第一准确词的概率;若所述目标搜索词片段包括至少两个搜索词,则根据所述搜索语料库确定所述目标搜索词片段对应的各第二纠正概率以及各第三纠正概率,并根据各所述第二纠正概率和各所述第三纠正概率,确定所述目标搜索词片段对应的片段纠正概率,其中所述第二纠正概率是所述目标搜索词片段中的当前搜索词纠正为对应的当前第一准确词的概率,所述第三纠正概率是当前第一准确词后出现下一第一准确词的概率。4.根据权利要求3所述的方法,其特征在于,根据所述搜索语料库确定所述目标搜索词片段对应的各第二纠正概率以及各第三纠正概率,包括:根据所述搜索语料库确定所述目标搜索词片段中当前搜索词对应的历史搜索次数、当前搜索词纠正为对应的第一准确词的历史纠正次数、当前搜索词对应的当前第一准确词的第一出现次数、以及所述当前第一准确词的下一第一准确词的第二出现次数;根据所述历史搜索次数和所述历史纠正次数,确定各第二纠正概率;根据所述第一出现次数和所述第二出现次数,确定各第三纠正概率。5.根据权利要求3所述的方法,其特征在于,根据如下公式确定所述目...

【专利技术属性】
技术研发人员:王璐
申请(专利权)人:武汉斗鱼网络科技有限公司
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1