一种基于搜索词计算搜索内容匹配度的方法及系统技术方案

技术编号：35640741 阅读：22 留言：0更新日期：2022-11-19 16:32

本发明专利技术公开了一种基于搜索词计算搜索内容匹配度的方法及系统，通过接收用户输入的搜索词，并识别出搜索词中的词元，然后基于原子性词元的标识计算识别出的词元的匹配度，进而分析并识别出搜索到的文本内容中命中的词元，最终对命中的词元进行匹配度叠加计算，从而计算搜索内容的匹配度，提高用户的搜索体验，快速搜索出用户需求的文档数据。速搜索出用户需求的文档数据。速搜索出用户需求的文档数据。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于搜索词计算搜索内容匹配度的方法及系统

[0001]本专利技术涉及计算机搜索以及分词器领域
，尤其涉及一种基于搜索词计算搜索内容匹配度的方法及系统。

技术介绍

[0002]互联网技术的发展以及计算机的普及使用，每天在我们的生活中出现了大量的信息。在信息泛滥的时代，由于信息缺发布、传播缺乏管理或管理不善，导致了大量虚假信息、无用信息产生，从而增加了人们查阅信息的困难度，而目前的搜索引擎一般是根据用户搜索词进行基于Lucene打分公式的方式进行内容搜索，但搜索准确率不高，搜索效果不理想，有部分优质的内容没有优先展示给用户。

技术实现思路

[0003]本专利技术要解决的技术问题在于，针对现有技术存在的至少一个缺陷：搜索准确率不高，提供一种基于搜索词计算搜索内容匹配度的方法及系统。
[0004]本专利技术解决其技术问题所采用的技术方案是：构造一种基于搜索词计算搜索内容匹配度的方法，包括以下步骤：
[0005]S10：接收用户输入的搜索词，并识别出所述搜索词中的词元；
[0006]S20：基于原子性词元的标识计算识别出的词元的匹配度；
[0007]S30：分析并识别出搜索到的文本内容中命中的词元；
[0008]S40：对命中的词元进行匹配度叠加计算，从而计算搜索内容的匹配度。
[0009]优选地，在本专利技术所述的基于搜索词计算搜索内容匹配度的方法中，本方法还包括S01：根据系统的所有词元构建词典二叉树；
[0010]相应地，步骤S10中识别出...

【技术保护点】

【技术特征摘要】
1.一种基于搜索词计算搜索内容匹配度的方法，其特征在于，包括以下步骤：S10：接收用户输入的搜索词，并识别出所述搜索词中的词元；S20：基于原子性词元的标识计算识别出的词元的匹配度；S30：分析并识别出搜索到的文本内容中命中的词元；S40：对命中的词元进行匹配度叠加计算，从而计算搜索内容的匹配度。2.根据权利要求1所述的基于搜索词计算搜索内容匹配度的方法，其特征在于，本方法还包括S01：根据系统的所有词元构建词典二叉树；相应地，步骤S10中识别出所述搜索词中的词元，包括：基于所述词典二叉树识别出所述搜索词中的词元。3.根据权利要求1所述的基于搜索词计算搜索内容匹配度的方法，其特征在于，步骤S10还包括：识别出所述搜索词中的词元及其在所述搜索词中的位置信息；步骤S20包括：S201：基于词元之间的包含关系，根据识别出的词元的位置信息提取出被包含词元；S202：计算所述被包含词元中原子性词元的总数，以作为识别出的词元的匹配度。4.根据权利要求3所述的基于搜索词计算搜索内容匹配度的方法，其特征在于，所述原子性词元为无法由其他词元组合而成的词元。5.根据权利要求1所述的基于搜索词计算搜索内容匹配度的方法，其特征在于，步骤S30之后还包括：S31：对命中的词元进行包含过滤；相应地，步骤S40包括：对包含过滤后的词元进行匹配度叠加计算，从而计算搜索内容的匹配度。6.一种基于搜索词计算搜索内容匹配度的系统，其特征在...

【专利技术属性】
技术研发人员：卢再武，
申请(专利权)人：深圳市世强元件网络有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人