一种互联网基于云数据关键词搜索方法技术

技术编号:35492315 阅读:17 留言:0更新日期:2022-11-05 16:48
本发明专利技术公开了一种互联网基于云数据关键词搜索方法,涉及关键词搜索技术领域,通过预先计算所有搜索关键词之间的词义相似度,将相似词义的搜索关键词关联起来;再通过每条云数据的点击量将每个搜索关键词对应的云数据进行排序;将用户输入的搜索词使用分词工具进行分词,获取多个搜索关键词;再查找每个搜索关键词对应的云数据集合;以及与每个搜索关键词词义相近的搜索关键词对应的云数据集合;并优先展示搜索关键词对应的云数据集合,后展示词义相近的搜索关键词对应的云数据集合;保证了用户搜索关键词结果的准确性以及实用性。用户搜索关键词结果的准确性以及实用性。用户搜索关键词结果的准确性以及实用性。

【技术实现步骤摘要】
一种互联网基于云数据关键词搜索方法


[0001]本专利技术属于关键词搜索领域,涉及关键词搜索技术,具体是一种互联网基于云数据关键词搜索方法。

技术介绍

[0002]关键词是用户在使用搜索引擎时,输入的能够最大程度概括用户所要查找的信息内容;由于互联网的开放性,互联网的内容极为庞杂,导致用户在互联网中查找有用的信息难度不断加大;而搜索关键词可以降低在互联网中搜索内容的难度;
[0003]但是由于用户搜索关键词时的主观性,搜索的关键词可能并不是确切的用户需要表达的;因此,需要一个不仅仅根据用户提供的关键词,还可对关键词进行延伸的搜索功能;
[0004]为此,提出一种互联网基于云数据关键词搜索方法。

技术实现思路

[0005]本专利技术旨在至少解决现有技术中存在的技术问题之一。为此,本专利技术提出一种互联网基于云数据关键词搜索方法,该一种互联网基于云数据关键词搜索方法通过预先计算所有搜索关键词之间的词义相似度,将相似词义的搜索关键词关联起来;再通过每条云数据的点击量将每个搜索关键词对应的云数据进行排序;将用户输入的搜索词使用分词工具进行分词,获取多个搜索关键词;再查找每个搜索关键词对应的云数据集合;以及与每个搜索关键词词义相近的搜索关键词对应的云数据集合;并优先展示搜索关键词对应的云数据集合,后展示词义相近的搜索关键词对应的云数据集合;保证了用户搜索关键词结果的准确性以及实用性。
[0006]为实现上述目的,根据本专利技术的第一方面的实施例提出一种互联网基于云数据关键词搜索方法,包括以下步骤:
[0007]步骤一:用户将云数据上传至云平台;所述云数据包括标题、摘要以及详细内容;且用户可自主选择提交或不提交搜索关键词;
[0008]对于提交了搜索关键词的云数据,提交的搜索关键词即为搜索该云数据所需要使用的关键词;对于未提交搜索关键词的云数据,使用关键词提取算法对云数据的标题、摘要以及详细内容进行关键词提取;提取出的关键词即为搜索该云数据所需要使用的关键词;
[0009]步骤二:将用户的搜索关键词按搜索次数进行从大到小排序并编号;将搜索关键词按顺序编号为1,2,

,N;其中,N为搜索关键词的数量;
[0010]按1,2,

,N的顺序找出与每个搜索关键词语义相近的搜索关键词组;
[0011]步骤三:将云数据按搜索关键词的字典序进行排序;将搜索关键词标记为k;对于每个搜索关键词k,将所有搜索关键词中包含k的云数据使用集合保存;将搜索关键词k对应的包含搜索关键词k的云数据集合标记为Pk;将云数据集合Pk中的云数据按点击量进行从大到小进行排序;
[0012]步骤四:用户在搜索客户端输入搜索词并点击搜索按钮进行搜索,搜索客户端将搜索词通过无线网络发送至云平台;云平台查找符合搜索词的云数据,并将云数据发送至搜索客户端;
[0013]对于每个搜索关键词n,找出与该搜索关键词语义相近的搜索关键词组具体包括以下步骤:
[0014]步骤S1:使用NLP技术计算搜索关键词n与所有其他的搜索关键词之间的语义相似度;
[0015]步骤S2:在所有搜索关键词中,统计出所有与搜索关键词n相似度大于相似度阈值t的搜索关键词;并使用集合形式保存搜索关键词组;将搜索关键词n对应的词义相近的搜索关键词集合标记为Sn;所述相似度阈值t按实际经验设置;将词义相似度大于像素点阈值t的搜索关键词定义为词义相近;
[0016]步骤S3:对于搜索关键词集合Sn中的搜索关键词,按与搜索关键词的相似度大小,从大至小进行排序;
[0017]具体的,云平台查找符合搜索词的云数据包括以下步骤:
[0018]步骤P1:可以理解的是,用户在使用关键词搜索功能时,填写的搜索词往往是句子的形式;因此,需要从搜索的句子中提取出句子的关键词;使用分词工具对搜索词进行分词;获得搜索关键词的集合;将分词后的搜索关键词集合标记为G;
[0019]步骤P2:可以理解的是,在搜索词中,往往具有某些不具备特定意义的干扰词;这些词大都属于同一类词性;例如:量词“一个”,显然对于关键词的搜索没有帮助;因此需要预先将部分没有帮助的词去除;
[0020]预先生成词性黑名单;所述词性黑名单为一个词性集合,在词性黑名单中的词性均不作为搜索关键词;所述词性黑名单根据实际经验设置;使用词性标注算法对搜素关键词集合G中的搜索关键词进行词性分析;并去除词性处于词性黑名单中的搜索关键词;将剩余的搜索关键词集合标记为H;
[0021]步骤P3:云平台将搜索关键词集合H中的搜索关键词按搜索数量以从大到小的顺序进行排序;将排序后的搜索关键词集合标记为H1;
[0022]对于搜索关键词集合H1中的每个搜索关键词h,云平台搜索与搜索关键词h相关的云数据;具体的,搜索相关云数据包括以下步骤:
[0023]步骤Q1:云平台根据搜索关键词h的字典序,从已完成排序的搜索关键词中查找搜索关键词h;若未查找到搜索关键词h,则转至步骤Q2;否则转至步骤Q3;
[0024]步骤Q2:计算搜索关键词h与所有搜索关键词的词义相似度;并将词义相似度最大的搜索关键词作为新的搜索关键词h;并转至步骤Q3;
[0025]步骤Q3:将搜索关键词h对应的云数据集合Ph返回搜索客户端;并按云数据的点击量从大到小进行排序,按排序后的云数据顺序向用户展示云数据标题以及摘要;
[0026]步骤Q4:获取搜索关键词h的词义相近的搜索关键词集合Sh;对于搜索关键词集合Sh中的每个搜索关键词s,获取搜索关键词s对应的云数据集合Ps;将搜索关键词s与搜索关键词h的词义相似度标记为lsh;将云数据集合Ps中的每条云数据标记为p,将云数据p的点击量标记为Kp;计算每条云数据p的展示优先级Fp;计算公式为Fp=α*lsh+β*kp;其中,α、β分别为根据实际经验预设的比例系数;
[0027]步骤Q5:将搜索关键词集合Sh中所有搜索关键词s对应的云数据集合Ps中的云数据p按优先级Fp从大到小进行排序;并将所有云数据按排序后的顺序向用户展示云数据的标题以及摘要。
[0028]与现有技术相比,本专利技术的有益效果是:
[0029]本专利技术通过预先计算所有搜索关键词之间的词义相似度,将相似词义的搜索关键词关联起来;再通过每条云数据的点击量将每个搜索关键词对应的云数据进行排序;将用户输入的搜索词使用分词工具进行分词,获取多个搜索关键词;再查找每个搜索关键词对应的云数据集合;以及与每个搜索关键词词义相近的搜索关键词对应的云数据集合;并优先展示搜索关键词对应的云数据集合,后展示词义相近的搜索关键词对应的云数据集合;保证了用户搜索关键词结果的准确性以及实用性。
附图说明
[0030]图1为本专利技术的流程图。
具体实施方式
[0031]下面将结合实施例对本专利技术的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种互联网基于云数据关键词搜索方法,其特征在于,包括以下步骤:步骤一:用户将云数据上传至云平台;所述云数据包括标题、摘要以及详细内容;并获取每条云数据的搜索关键词;步骤二:将用户的搜索关键词按搜索次数进行从大到小排序并编号;将搜索关键词按顺序编号为1,2,

,N;其中,N为搜索关键词的数量;按1,2,

,N的顺序找出与每个搜索关键词语义相近的搜索关键词组;步骤三:将云数据按搜索关键词的字典序进行排序;将搜索关键词标记为k;对于每个搜索关键词k,将所有搜索关键词中包含k的云数据使用集合保存;将搜索关键词k对应的包含搜索关键词k的云数据集合标记为Pk;将云数据集合Pk中的云数据按点击量进行从大到小进行排序;步骤四:用户在搜索客户端输入搜索词并点击搜索按钮进行搜索,搜索客户端将搜索词通过无线网络发送至云平台;云平台查找符合搜索词的云数据,并将云数据标题、摘要以及详细内容发送至搜索客户端。2.根据权利要求1所述的一种互联网基于云数据关键词搜索方法,其特征在于,所述搜索关键词为用户提交或使用关键词提取算法自动提取。3.根据权利要求1所述的一种互联网基于云数据关键词搜索方法,其特征在于,对于每个搜索关键词n,找出与该搜索关键词语义相近的搜索关键词组包括以下步骤:步骤S1:使用NLP技术计算搜索关键词n与所有其他的搜索关键词之间的语义相似度;步骤S2:在所有搜索关键词中,统计出所有与搜索关键词n相似度大于相似度阈值t的搜索关键词;并使用集合形式保存搜索关键词组;将搜索关键词n对应的词义相近的搜索关键词集合标记为Sn;所述相似度阈值t按实际经验设置;将词义相似度大于像素点阈值t的搜索关键词定义为词义相近;步骤S3:对于搜索关键词集合Sn中的搜索关键词,按与搜索关键词的相似度大小,从大至小进行排序。4.根据权利要求1所述的一种互联网基于云数据关键词搜索方法,其特征在于,所述云平台查找符合搜索词的云数据包括以下步骤:步骤P1:使用分词工具对搜索词进行分词;获得搜索关键词的集合;将分词后的搜索关键词集合标记为G;步骤P2:预先生成词性黑名单;使用词性标注算法对搜素关键词集合G中的搜索关键词进行词性分析;并去除词性处于词性黑名单中的搜索关键词;将剩余的搜索关键词集...

【专利技术属性】
技术研发人员:安梦君汤荣华周越丽
申请(专利权)人:深圳市承泽信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1