【技术实现步骤摘要】
一种搜索文本的纠正方法、装置、终端及存储介质
本专利技术实施例涉及信息处理技术,尤其涉及一种搜索文本的纠正方法、装置、终端及存储介质。
技术介绍
随着信息科技的快速发展,用户可以通过搜索方式进行信息查询,以获取所需信息。通常,用户可以根据自身需求输入搜索文本,借助检索工具从信息集合中找出与搜索文本对应的搜索结果。例如,在网络直播平台中,用户可以在搜索入口中输入主播名称,从而可以快速找到想要观看的直播视频。通常,用户在输入搜索文本时往往会发生错误,比如拼写错误、词语颠倒等,使得用户无法找到所需的搜索结果,因此需要对用户输入的搜索文本进行纠正处理。现有的纠正过程是:对搜索文本进行分词后,直接对每个搜索词进行纠正处理,并且需要考虑纠正后每个词语的上下文。然而,现有技术中搜索文本的分词往往不精准,并且在搜索词的关联性较差时,若仍考虑纠正后词语的上下文,则可能存在歧义信息,往往无法确定真正准确的文本,从而降低了纠正的准确性,影响了用户的搜索体验。
技术实现思路
本专利技术实施例提供了一种搜索文本的纠正方法、装置、终端及存储介质,以解决现有技术中因搜索词关联性较差导致的纠正准确性较低的问题,从而提高纠正准确性,进而提升用户的搜索体验。第一方面,本专利技术实施例提供了一种搜索文本的纠正方法,包括:获取目标搜索文本,并对所述目标搜索文本进行分词处理确定所述目标搜索文本对应的搜索词序列;根据搜索语料库确定所述搜索词序列对应的各候选准确词序列,其中,所述搜索词序列中的搜索词与所述候选准确词序列中的候选准确词一一对应;对所述搜索词序列进行分段,确定每个分段方式对应的各搜索词片段以及 ...
【技术保护点】
1.一种搜索文本的纠正方法,其特征在于,包括:获取目标搜索文本,并对所述目标搜索文本进行分词处理确定所述目标搜索文本对应的搜索词序列;根据搜索语料库确定所述搜索词序列对应的各候选准确词序列,其中,所述搜索词序列中的搜索词与所述候选准确词序列中的候选准确词一一对应;对所述搜索词序列进行分段,确定每个分段方式对应的各搜索词片段以及各所述搜索词片段对应的各候选准确词片段,其中,所述分段方式包括搜索词片段数量以及每个搜索词片段对应的搜索词数量;根据所述每个分段方式对应的各搜索词片段、与所述搜索词片段对应的各候选准确词片段、所述搜索语料库、以及搜索词总数,确定每个所述分段方式下各所述候选准确词序列对应的候选纠正概率;根据每个所述分段方式下各所述候选准确词序列对应的候选纠正概率,确定所述目标搜索文本对应的目标准确词序列,并根据所述目标准确词序列确定所述目标搜索文本对应的目标准确文本。
【技术特征摘要】
1.一种搜索文本的纠正方法,其特征在于,包括:获取目标搜索文本,并对所述目标搜索文本进行分词处理确定所述目标搜索文本对应的搜索词序列;根据搜索语料库确定所述搜索词序列对应的各候选准确词序列,其中,所述搜索词序列中的搜索词与所述候选准确词序列中的候选准确词一一对应;对所述搜索词序列进行分段,确定每个分段方式对应的各搜索词片段以及各所述搜索词片段对应的各候选准确词片段,其中,所述分段方式包括搜索词片段数量以及每个搜索词片段对应的搜索词数量;根据所述每个分段方式对应的各搜索词片段、与所述搜索词片段对应的各候选准确词片段、所述搜索语料库、以及搜索词总数,确定每个所述分段方式下各所述候选准确词序列对应的候选纠正概率;根据每个所述分段方式下各所述候选准确词序列对应的候选纠正概率,确定所述目标搜索文本对应的目标准确词序列,并根据所述目标准确词序列确定所述目标搜索文本对应的目标准确文本。2.根据权利要求1所述的方法,其特征在于,根据所述每个分段方式对应的各搜索词片段、与所述搜索词片段对应的各候选准确词片段、所述搜索语料库、威尔逊置信区间公式以及搜索词总数,确定每个所述分段方式下各所述候选准确词序列对应的候选纠正概率,包括:将所述每个分段方式逐个确定为第一分段方式,并将所述第一分段方式下各所述候选准确词序列逐个确定为第一准确词序列;根据所述搜索语料库,确定所述第一分段方式对应的各片段纠正概率,其中,所述片段纠正概率是搜索词片段纠正为对应的第一准确词片段的概率;根据各所述片段纠正概率、所述搜索词片段数量以及搜索词总数确定所述第一分段方式下所述第一准确词序列对应的候选纠正概率。3.根据权利要求2所述的方法,其特征在于,根据所述搜索语料库,确定所述第一分段方式对应的各片段纠正概率,包括:将所述第一分段方式对应的各所述搜索词片段逐个确定为目标搜索词片段;若所述目标搜索词片段仅包括一个搜索词,则根据所述搜索语料库确定所述目标搜索词片段对应的第一纠正概率,并将所述第一纠正概率确定为所述目标搜索词片段对应的片段纠正概率,其中所述第一纠正概率是该搜索词纠正为对应的第一准确词的概率;若所述目标搜索词片段包括至少两个搜索词,则根据所述搜索语料库确定所述目标搜索词片段对应的各第二纠正概率以及各第三纠正概率,并根据各所述第二纠正概率和各所述第三纠正概率,确定所述目标搜索词片段对应的片段纠正概率,其中所述第二纠正概率是所述目标搜索词片段中的当前搜索词纠正为对应的当前第一准确词的概率,所述第三纠正概率是当前第一准确词后出现下一第一准确词的概率。4.根据权利要求3所述的方法,其特征在于,根据所述搜索语料库确定所述目标搜索词片段对应的各第二纠正概率以及各第三纠正概率,包括:根据所述搜索语料库确定所述目标搜索词片段中当前搜索词对应的历史搜索次数、当前搜索词纠正为对应的第一准确词的历史纠正次数、当前搜索词对应的当前第一准确词的第一出现次数、以及所述当前第一准确词的下一第一准确词的第二出现次数;根据所述历史搜索次数和所述历史纠正次数,确定各第二纠正概率;根据所述第一出现次数和所述第二出现次数,确定各第三纠正概率。5.根据权利要求3所述的方法,其特征在于,根据如下公式确定所述目...
【专利技术属性】
技术研发人员:王璐,
申请(专利权)人:武汉斗鱼网络科技有限公司,
类型:发明
国别省市:湖北,42
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。