一种基于搜索词计算搜索内容匹配度的方法及系统技术方案

技术编号:35640741 阅读:22 留言:0更新日期:2022-11-19 16:32
本发明专利技术公开了一种基于搜索词计算搜索内容匹配度的方法及系统,通过接收用户输入的搜索词,并识别出搜索词中的词元,然后基于原子性词元的标识计算识别出的词元的匹配度,进而分析并识别出搜索到的文本内容中命中的词元,最终对命中的词元进行匹配度叠加计算,从而计算搜索内容的匹配度,提高用户的搜索体验,快速搜索出用户需求的文档数据。速搜索出用户需求的文档数据。速搜索出用户需求的文档数据。

【技术实现步骤摘要】
一种基于搜索词计算搜索内容匹配度的方法及系统


[0001]本专利技术涉及计算机搜索以及分词器领域
,尤其涉及一种基于搜索词计算搜索内容匹配度的方法及系统。

技术介绍

[0002]互联网技术的发展以及计算机的普及使用,每天在我们的生活中出现了大量的信息。在信息泛滥的时代,由于信息缺发布、传播缺乏管理或管理不善,导致了大量虚假信息、无用信息产生,从而增加了人们查阅信息的困难度,而目前的搜索引擎一般是根据用户搜索词进行基于Lucene打分公式的方式进行内容搜索,但搜索准确率不高,搜索效果不理想,有部分优质的内容没有优先展示给用户。

技术实现思路

[0003]本专利技术要解决的技术问题在于,针对现有技术存在的至少一个缺陷:搜索准确率不高,提供一种基于搜索词计算搜索内容匹配度的方法及系统。
[0004]本专利技术解决其技术问题所采用的技术方案是:构造一种基于搜索词计算搜索内容匹配度的方法,包括以下步骤:
[0005]S10:接收用户输入的搜索词,并识别出所述搜索词中的词元;
[0006]S20:基于原子性词元的标识计算识别出的词元的匹配度;
[0007]S30:分析并识别出搜索到的文本内容中命中的词元;
[0008]S40:对命中的词元进行匹配度叠加计算,从而计算搜索内容的匹配度。
[0009]优选地,在本专利技术所述的基于搜索词计算搜索内容匹配度的方法中,本方法还包括S01:根据系统的所有词元构建词典二叉树;
[0010]相应地,步骤S10中识别出所述搜索词中的词元,包括:基于所述词典二叉树识别出所述搜索词中的词元。
[0011]优选地,在本专利技术所述的基于搜索词计算搜索内容匹配度的方法中,步骤S10还包括:识别出所述搜索词中的词元及其在所述搜索词中的位置信息;
[0012]步骤S20包括:
[0013]S201:基于词元之间的包含关系,根据识别出的词元的位置信息提取出被包含词元;
[0014]S202:计算所述被包含词元中原子性词元的总数,以作为识别出的词元的匹配度。
[0015]优选地,在本专利技术所述的基于搜索词计算搜索内容匹配度的方法中,所述原子性词元为无法由其他词元组合而成的词元。
[0016]优选地,在本专利技术所述的基于搜索词计算搜索内容匹配度的方法中,步骤S30之后还包括:
[0017]S31:对命中的词元进行包含过滤;
[0018]相应地,步骤S40包括:对包含过滤后的词元进行匹配度叠加计算,从而计算搜索
内容的匹配度。
[0019]本专利技术还构造了一种基于搜索词计算搜索内容匹配度的系统,包括:
[0020]第一识别模块,用于接收用户输入的搜索词,并识别出所述搜索词中的词元;
[0021]第一计算模块,用于基于原子性词元的标识计算识别出的词元的匹配度;
[0022]第二识别模块,用于分析并识别出搜索到的文本内容中命中的词元;
[0023]第二计算模块,用于对命中的词元进行匹配度叠加计算,从而计算搜索内容的匹配度。
[0024]优选地,在本专利技术所述的基于搜索词计算搜索内容匹配度的系统中,本系统还包括:
[0025]构建模块,用于根据系统的所有词元构建词典二叉树;
[0026]相应地,所述第一识别模块中识别出所述搜索词中的词元,包括:基于所述词典二叉树识别出所述搜索词中的词元。
[0027]优选地,在本专利技术所述的基于搜索词计算搜索内容匹配度的系统中,所述第一识别模块,还用于识别出所述搜索词中的词元及其在所述搜索词中的位置信息;
[0028]所述第一计算模块包括:
[0029]提取单元,用于基于词元之间的包含关系,根据识别出的词元的位置信息提取出被包含词元;
[0030]计算单元,用于计算所述被包含词元中原子性词元的总数,以作为识别出的词元的匹配度。
[0031]优选地,在本专利技术所述的基于搜索词计算搜索内容匹配度的系统中,所述原子性词元为无法由其他词元组合而成的词元。
[0032]优选地,在本专利技术所述的基于搜索词计算搜索内容匹配度的系统中,本系统还包括:
[0033]过滤模块,用于对命中的词元进行包含过滤;
[0034]相应地,所述第二计算模块,进一步用于对包含过滤后的词元进行匹配度叠加计算,从而计算搜索内容的匹配度。
[0035]通过实施本专利技术,具有以下有益效果:
[0036]本专利技术设计了一种基于搜索词计算搜索内容匹配度的方法,通过接收用户输入的搜索词,并识别出搜索词中的词元,然后基于原子性词元的标识计算识别出的词元的匹配度,进而分析并识别出搜索到的文本内容中命中的词元,最终对命中的词元进行匹配度叠加计算,从而计算搜索内容的匹配度,提高用户的搜索体验,快速搜索出用户需求的文档数据。
附图说明
[0037]下面将结合附图及实施例对本专利技术作进一步说明,附图中:
[0038]图1是本专利技术基于搜索词计算搜索内容匹配度的方法流程图;
[0039]图2是本专利技术基于搜索词计算搜索内容匹配度的系统模块框图。
匹配度为2;识别出的词元“二极”匹配度为1;识别出的词元“极管”匹配度为1。
[0056]步骤S30:分析并识别出搜索到的文本内容中命中的词元。例如:某文章的标题为:扬杰科技碳化硅JBS肖特基二极管新品发布。则该文章命中了“肖特基二极管”、“特基二极管”、“肖特基”、“二极管”、“二极”、“极管”词元。
[0057]步骤S40:对命中的词元进行匹配度叠加计算,从而计算搜索内容的匹配度。其中,进行叠加计算的匹配度为步骤S20中原本计算好的匹配度。
[0058]在一些实施例中,步骤S30之后还包括:
[0059]步骤S31:对命中的词元进行包含过滤。例如某文章的标题为:标题为扬杰科技碳化硅JBS肖特基二极管新品发布。则该文章命中了“肖特基二极管”、“特基二极管”、“肖特基”、“二极管”、“二极”、“极管”词元。包含过滤后剩余“肖特基二极管”,因为“特基二极管”、“肖特基”、“二极管”、“二极”、“极管”被其包含,所以对其过滤。
[0060]相应地,步骤S40包括:对包含过滤后的词元进行匹配度叠加计算,从而计算搜索内容的匹配度。例如某文章的标题为:标题为扬杰科技碳化硅JBS肖特基二极管新品发布。命中词元为:“肖特基二极管”,在词元的匹配度计算模块中计算“肖特基二极管”的匹配度为4,所以该文章的匹配度为4。
[0061]完整地,本方法还包括S50:计算完搜索内容的匹配度后,根据匹配度进行搜索内容的倒序排版显示,优先呈现匹配度高的搜索内容,从而提高用户的搜索体验。
[0062]如图2所示,本实施例公开了一种基于搜索词计算搜索内容匹配度的系统,包括第一识别模块、第一计算模块、第二识别模块和第二计算模块。具体的:
[0063]第一识别模块,用于接收用户输入的搜索词,并识别出搜索词中的词元。例如,用户输入“本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于搜索词计算搜索内容匹配度的方法,其特征在于,包括以下步骤:S10:接收用户输入的搜索词,并识别出所述搜索词中的词元;S20:基于原子性词元的标识计算识别出的词元的匹配度;S30:分析并识别出搜索到的文本内容中命中的词元;S40:对命中的词元进行匹配度叠加计算,从而计算搜索内容的匹配度。2.根据权利要求1所述的基于搜索词计算搜索内容匹配度的方法,其特征在于,本方法还包括S01:根据系统的所有词元构建词典二叉树;相应地,步骤S10中识别出所述搜索词中的词元,包括:基于所述词典二叉树识别出所述搜索词中的词元。3.根据权利要求1所述的基于搜索词计算搜索内容匹配度的方法,其特征在于,步骤S10还包括:识别出所述搜索词中的词元及其在所述搜索词中的位置信息;步骤S20包括:S201:基于词元之间的包含关系,根据识别出的词元的位置信息提取出被包含词元;S202:计算所述被包含词元中原子性词元的总数,以作为识别出的词元的匹配度。4.根据权利要求3所述的基于搜索词计算搜索内容匹配度的方法,其特征在于,所述原子性词元为无法由其他词元组合而成的词元。5.根据权利要求1所述的基于搜索词计算搜索内容匹配度的方法,其特征在于,步骤S30之后还包括:S31:对命中的词元进行包含过滤;相应地,步骤S40包括:对包含过滤后的词元进行匹配度叠加计算,从而计算搜索内容的匹配度。6.一种基于搜索词计算搜索内容匹配度的系统,其特征在...

【专利技术属性】
技术研发人员:卢再武
申请(专利权)人:深圳市世强元件网络有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1