一种基于字典的搜索词query纠错方法及系统技术方案

技术编号:37713934 阅读:12 留言:0更新日期:2023-06-02 00:08
本说明书实施例提供了一种基于字典的搜索词query纠错方法及系统,其中,方法包括:获取领域相关专业术语;对所述领域相关专业术语进行预处理,得到所述专业术语的子词,生成专业术语白字典;通过所述白字典对用户输入的搜索词query中的词语进行分析纠错。提高能够搜索引擎的纠错效率和准确率,节省用户的查询时间。间。间。

【技术实现步骤摘要】
一种基于字典的搜索词query纠错方法及系统


[0001]本文件涉及信息检索
,尤其涉及一种基于字典的搜索词query纠错方法及系统。

技术介绍

[0002]随着互联网的普及,互联网上的信息也越来越丰富,现在人们通过搜索引擎可以便捷的获取自己想要的信息,信息检索是当下获取和查询信息最重要的途径之一。但信息检索在给用户获取信息带来便利的同时,还存在一些不足,比如用户在进行检索时由于疏忽或其他原因,输入了错误的检索语句(query),比如,出现一些同音的字形错误、拼音错误导致的输入错误或者输入时漏字等,当用户输入错误的检索语句时,信息检索系统返回的信息可能会偏离用户的真实意图,从而影响了用户体验。这样就要求搜索引擎能够对用户输入的错误query进行识别,同时将错误的部分纠正成用户需要的query。
[0003]现有的搜索引擎对query进行错误检测时,主要通过字典检测、统计检测和神经网络检测等方法,对于统计检测和神经网络检测,都依赖于用户的历史记录,在项目前期的过程中,很难收集到用户历史记录;基于字典的错误检测,目前常用的有困惑词语黑字典、正确词语白字典等,检测出错误时,一般选择检出的错字的同音、近音、同形的字作为候选,然后经过排列组合,根据统计方法判断最终的正确字,这样做的缺点是由于同音或者形近字较多,在纠错时候选较多,计算时间复杂度较高,使得纠错效率和准确率都较低。

技术实现思路

[0004]本说明书一个或多个实施例提供了一种基于字典的搜索词query纠错方法,包括:
[0005]获取领域相关专业术语;
[0006]对所述领域相关专业术语进行预处理,得到所述专业术语的子词,生成专业术语白字典;
[0007]通过所述白字典对用户输入的搜索词query中的词语进行分析纠错。
[0008]本说明书一个或多个实施例提供了一种基于字典的搜索词query纠错系统,包括:
[0009]数据获取模块:用于获取领域相关专业术语;
[0010]字典生成模块:用于对所述领域相关专业术语进行预处理,得到所述专业术语的子词,生成专业术语白字典;
[0011]分析纠错模块:用于通过所述白字典对用户输入的搜索词query中的词语进行分析纠错。
[0012]本说明书一个或多个实施例提供了一种电子设备,包括:
[0013]处理器;以及,
[0014]被安排成存储计算机可执行指令的存储器,所述计算机可执行指令在被执行时使所述处理器:
[0015]获取领域相关专业术语;
[0016]对所述领域相关专业术语进行预处理,得到所述专业术语的子词,生成专业术语白字典;
[0017]通过所述白字典对用户输入的搜索词query中的词语进行分析纠错。
[0018]本说明书一个或多个实施例提供了一种存储介质,用于存储计算机可执行指令,所述计算机可执行指令在被执行时实现以下流程:
[0019]获取领域相关专业术语;
[0020]对所述领域相关专业术语进行预处理,得到所述专业术语的子词,生成专业术语白字典;
[0021]通过所述白字典对用户输入的搜索词query中的词语进行分析纠错。
[0022]采用本专利技术实施例,基于专业术语字典的query纠错方法,降低了行业搜索引擎纠错的技术门槛,在缺乏用户历史记录的情况下可以让搜索系统达到一定的纠错功能,提高了搜索引擎的纠错效率和准确率,节省了用户的查询时间。
[0023]上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的具体实施方式。
附图说明
[0024]为了更清楚地说明本说明书一个或多个实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0025]图1为本说明书一个或多个实施例提供的一种基于字典的搜索词query纠错方法的流程图;
[0026]图2为本说明书一个或多个实施例提供的一种基于字典的搜索词query纠错方法对于相邻的不在白词典中的词语进行拼接的拼接结果示意图;
[0027]图3为本说明书一个或多个实施例提供的一种基于字典的搜索词query纠错方法对拼接结果进行拼音转化示意图;
[0028]图4为本说明书一个或多个实施例提供的一种基于字典的搜索词query纠错方法根据拼音在子词同音列表中查找候选词示意图;
[0029]图5为本说明书一个或多个实施例提供的一种基于字典的搜索词query纠错方法根据拼音在子词同音列表中获取候选词的结果示意图;
[0030]图6为本说明书一个或多个实施例提供的一种基于字典的搜索词query纠错方法候选句子拼接生成示意图;
[0031]图7为本说明书一个或多个实施例提供的一种基于字典的搜索词query纠错系统的示意图;
[0032]图8为本说明书一个或多个实施例提供的一种电子设备的结构示意图。
具体实施方式
[0033]为了使本
的人员更好地理解本说明书一个或多个实施例中的技术方案,
下面将结合本说明书一个或多个实施例中的附图,对本说明书一个或多个实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书的一部分实施例,而不是全部的实施例。基于本说明书一个或多个实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本文件的保护范围。
[0034]方法实施例
[0035]根据本专利技术实施例,提供了一种基于字典的搜索词query纠错方法,图1为本说明书一个或多个实施例提供的一种基于字典的搜索词query纠错方法的流程图,如图1所示,根据本专利技术实施例的基于字典的搜索词query纠错方法具体包括:
[0036]S1.获取领域相关专业术语。
[0037]可以从领域相关的业务数据库中导出,以及通过用户的整理、网络爬虫从互联网采集获取等途径获取相关领域的中文文本数据集,得到领域相关专业术语,生成领域专业术语字典。
[0038]S2.对所述领域相关专业术语进行预处理,得到所述专业术语的子词,生成专业术语白字典。具体的:
[0039]将所述领域相关专业术语进行拼音转换;如表1所示:
[0040]表1
[0041]随钻扩孔钻头sui zuan kuo kong zuan tou井身质量控制Jing shen zhi liang kong zhi侧钻水平井ce zuan shui ping jing三维偏移san wei pian yi
[0042]分别对所述领域相关专业术语及其转换后的拼音进行分词,得到词语子词和拼音子词;以表1本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于字典的搜索词query纠错方法,其特征在于,包括:获取领域相关专业术语;对所述领域相关专业术语进行预处理,得到所述专业术语的子词,生成专业术语白字典;通过所述白字典对用户输入的搜索词query中的词语进行分析纠错。2.根据权利要求1所述的方法,其特征在于,所述领域相关专业术语的获取方法包括:从领域相关的业务数据库中导出,以及通过网络爬虫从互联网获取相关领域的中文文本数据集。3.根据权利要求1所述的方法,其特征在于,所述对所述领域相关专业术语进行预处理,得到所述专业术语的子词具体包括:将所述领域相关专业术语进行拼音转换;分别对所述领域相关专业术语及其转换后的拼音进行分词,得到词语子词和拼音子词;根据分词后的拼音对所述词语子词进行分类,分类时不考虑所述拼音子词的音调,将拼音相同的词语子词分为一类。4.根据权利要求1所述的方法,其特征在于,所述通过所述白字典对用户输入的搜索词query的词语进行分析纠错的具体方法为:获取用户输入的搜索词query,对所述搜索词query进行分词,得到若干词语;针对所述词语对所述白字典进行查询,判断所述白字典中是否包括所述词语:若包括,则该词语保留,若不包括,则将该词语与其在搜索词query中左右两边的词语分别进行组合,替换得到新的词语;将所述词语进行拼音转换,根据转换后的拼音查找同音的拼音子词,获取对应的词语子词,作为每个词语的候选词,若没有查找到同音的拼音子词,则候选词为词语本身;根据将所述搜索词query的词语顺序,拼接所述候选词生成候选句子;通过结巴分词对所述候选句子进行排序,排序靠前的候选句子为正确搜索词query。5.一种基于字典的搜索词query纠错系统,其特征在于,包括:数据获取模块:用于获取领域相关专业术语;字典生成模块:用于对所述领域相关专业术语进行预处理,得到所述专业术语的子词,生成专业术语白字典;分析纠错模块:用于通过所述白字典对用户输入的搜索词query中的词语进行分析纠错。6....

【专利技术属性】
技术研发人员:刘弦弦
申请(专利权)人:北京智通云联科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1