兴趣点POI与检索关键字的相关性分析方法和装置制造方法及图纸

技术编号:19822034 阅读:24 留言:0更新日期:2018-12-19 14:47
本发明专利技术公开了兴趣点POI与检索关键字的相关性分析方法和装置。所述方法包括:对所述检索关键字进行分词;对所述POI的一个域,根据分得的各个词计算所述检索关键字与该域的紧密度;根据分得的各个词对该域的命中情况确定第一权重;根据分得的各个词的逆向文件频率idf确定第二权重;根据所述第一权重、所述第二权重和所述紧密度计算所述检索关键字和所述POI的该域的相关性。该技术方案结合了自然语言处理技术,能够利用求得的三项参数准确计算出检索关键字与POI的相关性,可信度较高。

【技术实现步骤摘要】
兴趣点POI与检索关键字的相关性分析方法和装置
本专利技术涉及数据分析
,具体涉及兴趣点POI与检索关键字的相关性分析方法和装置。
技术介绍
POI通常是pointofinterest(兴趣点)的缩写,也可以指pointofinformation(信息点)。兴趣点和信息点在地图中可以作为出银行、景点、公司、医院、政府机构、餐馆、商场等的标识。本专利技术中的“兴趣点”和“POI”均指上述含义。在电子地图中可以进行POI检索,例如,用户输入检索关键字,获得与检索关键字相关的POI。因此,如何更准确地分析出检索关键字与POI的相关性是需要解决的问题。
技术实现思路
鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的兴趣点POI与检索关键字的相关性分析方法和装置。依据本专利技术的一个方面,提供了一种兴趣点POI与检索关键字的相关性分析方法,包括:对所述检索关键字进行分词;对所述POI的一个域,根据分得的各个词计算所述检索关键字与该域的紧密度;根据分得的各个词对该域的命中情况确定第一权重;根据分得的各个词的逆向文件频率idf确定第二权重;根据所述第一权重、所述第二权重和所述紧密度计算所述检索关键字和所述POI的该域的相关性。可选地,所述对所述检索关键字进行分词包括:对获取的检索关键字进行自然语言处理,得到若干个分词对象term;根据该若干个term确定与所述检索关键字的若干个检索标记token,将各token作为所述分得的各个词。可选地,所述根据分得的各个词计算所述检索关键字与该域的紧密度包括:确定与该域命中的token;根据各命中token计算所述检索关键字与该域的紧密度。可选地,所述根据各命中token计算所述检索关键字与该域的紧密度包括:遍历各命中token,对一个命中token,执行如下步骤:在命中token序列中,计算该命中token与相邻命中token的第一距离,以及在token序列中,计算该命中token与相邻命中token的第二距离,计算所述第一距离和所述第二距离的差的绝对值作为相对距离,根据所述相对距离确定惩罚因子;计算该命中token在该域的idf,对idf进行开方,得到power_idf;将所述power_idf与确定的惩罚因子相乘,得到该命中token与该域的紧密度;所述命中token序列和所述token序列均是按各token在所述检索关键字中的顺序确定的;根据各命中token与该域的紧密度,将其中数值最大的紧密度作为所述检索关键字与该域的紧密度。可选地,所述根据分得的各个词对该域的命中情况确定第一权重包括:计算各命中token对该域的命中率,根据所述命中率确定第一权重。可选地,所述计算各命中token对该域的命中率包括:计算各命中token的字数长度占该域字数长度的比率,其中,一个汉字代表一个长度单位,或者,一个英文字母代表一个长度单位。可选地,所述根据分得的各个词的逆向文件频率idf确定第二权重包括:计算各命中token的idf之和;计算所述检索关键字的各token的idf之和;以所述各命中token的idf之和除以所述检索关键字各token的idf之和,得到所述第二权重。依据本专利技术的另一方面,提供了一种兴趣点POI与检索关键字的相关性分析装置,包括:分词单元,适于对所述检索关键字进行分词;紧密度计算单元,适于对所述POI的一个域,根据分得的各个词计算所述检索关键字与该域的紧密度;权重单元,适于根据分得的各个词对该域的命中情况确定第一权重;以及适于根据分得的各个词的逆向文件频率idf确定第二权重;相关性计算单元,适于根据所述第一权重、所述第二权重和所述紧密度计算所述检索关键字和所述POI的该域的相关性。可选地,所述分词单元,适于对获取的检索关键字进行自然语言处理,得到若干个分词对象term;根据该若干个term确定与所述检索关键字的若干个检索标记token,将各token作为所述分得的各个词。可选地,所述紧密度计算单元,适于确定与该域命中的token;根据各命中token计算所述检索关键字与该域的紧密度。可选地,所述紧密度计算单元,适于遍历各命中token,对一个命中token,执行如下步骤:在命中token序列中,计算该命中token与相邻命中token的第一距离,以及在token序列中,计算该命中token与相邻命中token的第二距离,计算所述第一距离和所述第二距离的差的绝对值作为相对距离,根据所述相对距离确定惩罚因子;计算该命中token在该域的idf,对idf进行开方,得到power_idf;将所述power_idf与确定的惩罚因子相乘,得到该命中token与该域的紧密度;所述命中token序列和所述token序列均是按各token在所述检索关键字中的顺序确定的;根据各命中token与该域的紧密度,将其中数值最大的紧密度作为所述检索关键字与该域的紧密度。可选地,所述权重单元,适于计算各命中token对该域的命中率,根据所述命中率确定第一权重。可选地,所述权重单元,适于计算各命中token的字数长度占该域字数长度的比率,其中,一个汉字代表一个长度单位,或者,一个英文字母代表一个长度单位。可选地,所述权重单元,适于计算各命中token的idf之和;计算所述检索关键字的各token的idf之和;以所述各命中token的idf之和除以所述检索关键字各token的idf之和,得到所述第二权重。依据本专利技术的又一方面,提供了一种智能终端,包括:处理器;以及被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行如上述任一所述的方法。依据本专利技术的再一方面,提供了一种计算机可读存储介质,其中,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被处理器执行时,实现如上述任一所述的方法。由上述可知,本专利技术的技术方案,在对检索关键字进行分词处理后,执行三项计算:一方面,对POI的一个域,根据分得的各个词计算检索关键字与该域的紧密度;另一方面,根据分得的各个词对该域的命中情况确定第一权重;再一方面,根据分得的各个词的逆向文件频率idf确定第二权重。根据这三个步骤得到的结果可以求得检索关键字与POI的相关系。该技术方案结合了自然语言处理技术,能够利用求得的三项参数准确计算出检索关键字与POI的相关性,可信度较高。上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的具体实施方式。附图说明通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:图1示出了根据本专利技术一个实施例的一种兴趣点POI与检索关键字的相关性分析方法的流程示意图;图2示出了根据本专利技术一个实施例的一种兴趣点POI与检索关键字的相关性分析装置的结构示意图;图3示出了根据本专利技术一个实施例的智能终端的结构示意图;图4示出了根据本专利技术一个实施例的计算机可读存储介质的结构示意图。具体实施方式下面将参照附图本文档来自技高网...

【技术保护点】
1.一种兴趣点POI与检索关键字的相关性分析方法,包括:对所述检索关键字进行分词;对所述POI的一个域,根据分得的各个词计算所述检索关键字与该域的紧密度;根据分得的各个词对该域的命中情况确定第一权重;根据分得的各个词的逆向文件频率idf确定第二权重;根据所述第一权重、所述第二权重和所述紧密度计算所述检索关键字和所述POI的该域的相关性。

【技术特征摘要】
1.一种兴趣点POI与检索关键字的相关性分析方法,包括:对所述检索关键字进行分词;对所述POI的一个域,根据分得的各个词计算所述检索关键字与该域的紧密度;根据分得的各个词对该域的命中情况确定第一权重;根据分得的各个词的逆向文件频率idf确定第二权重;根据所述第一权重、所述第二权重和所述紧密度计算所述检索关键字和所述POI的该域的相关性。2.如权利要求1所述的方法,其中,所述对所述检索关键字进行分词包括:对获取的检索关键字进行自然语言处理,得到若干个分词对象term;根据该若干个term确定与所述检索关键字的若干个检索标记token,将各token作为所述分得的各个词。3.如权利要求1或2所述的方法,其中,所述根据分得的各个词计算所述检索关键字与该域的紧密度包括:确定与该域命中的token;根据各命中token计算所述检索关键字与该域的紧密度。4.如权利要求1-3中任一项所述的方法,其中,所述根据各命中token计算所述检索关键字与该域的紧密度包括:遍历各命中token,对一个命中token,执行如下步骤:在命中token序列中,计算该命中token与相邻命中token的第一距离,以及在token序列中,计算该命中token与相邻命中token的第二距离,计算所述第一距离和所述第二距离的差的绝对值作为相对距离,根据所述相对距离确定惩罚因子;计算该命中token在该域的idf,对idf进行开方,得到power_idf;将所述power_idf与确定的惩罚因子相乘,得到该命中token与该域的紧密度;所述命中token序列和所述token序列均是按各token在所述检索关键字中的顺序确定的;根据各命中token与该域的紧密度,...

【专利技术属性】
技术研发人员:韩康唐旺张绍瑞
申请(专利权)人:北京奇虎科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1