一种基于全局搜索的模糊词确定方法及装置制造方法及图纸

技术编号：11076165 阅读：175 留言：0更新日期：2015-02-25 14:35

本发明专利技术实施例提供了一种基于全局搜索的模糊词确定方法，首先基于搜索日志数据，获取共同点击的统一资源定位器URL所对应的输入语句query集合；获取query集合中每一个query的各个基础词条term的词条权重；将各个term的词条权重与预设的权重阈值进行比较，将词条权重小于权重阈值的term设置为次要词条；在全局搜索范围内，统计各个term作为次要词条出现的频率，将出现频率大于预设的频率阈值的term设置为模糊词。该方法及装置可以准确获取基于共同点击的输入语句query的模糊词，对于输入语句query的核心词提取，以及文档排序均起到了重要作用，提高了搜索效率和结果。

全部详细技术资料下载

【技术实现步骤摘要】
—种基于全局搜索的模糊词确定方法及装置
本专利技术涉及信息推送
，尤其涉及一种基于全局搜索的模糊词确定方法及 >J-U ρ?α装直。
技术介绍
随着网络和信息技术的迅猛发展，网络的信息量也呈现爆炸式的增长，那么快速并且正确从这些海量的数据里面获取正确的信息成为了现在搜索引擎技术的核心问题，然而用户的输入却呈现很大的差异性，不同的人接受着不同的教育，以及不同的文化，导致在表述同一个问题上面的差异很大，同时针对用户输入的query中某些词条对于搜索结果所起到的作用也很小，例如用户输入一个query是“北京故宫门票是多少”,在这个query的语境下“是多少”这个词条就属于垃圾词条，对搜索结果起到的作用不大。现有技术方案中所用到的TF-1DF (Term Frequency -1nverse DocumentFrequency)技术,是用于评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度，是一种用于资讯检索与资讯探勘的常用加权技术，而该技术并不能准确的描述全局条件下某一词条的重要程度，从而无法有效做到全局条件下query核心词的提取，从而影响了搜索效率和结果。
技术实现思路
鉴于上述问题，提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的一种基于全局搜索的模糊词确定方法及装置。 —种基于全局搜索的模糊词确定方法，包括: 基于搜索日志数据，获取共同点击的统一资源定位器URL所对应的输入语句query集合；获取所述query集合中每一个query的各个基础词条term的词条权...
一种基于全局搜索的模糊词确定方法及装置

【技术保护点】
一种基于全局搜索的模糊词确定方法，其特征在于，包括：基于搜索日志数据，获取共同点击的统一资源定位器URL所对应的输入语句query集合；获取所述query集合中每一个query的各个基础词条term的词条权重；将各个term的词条权重与预设的权重阈值进行比较，将词条权重小于所述权重阈值的term设置为次要词条；在全局搜索范围内，统计各个term作为次要词条出现的频率，将出现频率大于预设的频率阈值的term设置为模糊词。

【技术特征摘要】
1.一种基于全局搜索的模糊词确定方法，其特征在于，包括: 基于搜索日志数据，获取共同点击的统一资源定位器URL所对应的输入语句query集合；获取所述query集合中每一个query的各个基础词条term的词条权重；将各个term的词条权重与预设的权重阈值进行比较，将词条权重小于所述权重阈值的term设置为次要词条；在全局搜索范围内，统计各个term作为次要词条出现的频率，将出现频率大于预设的频率阈值的term设置为模糊词。2.如权利要求1所述的方法，其特征在于，所述获取所述query集合中每一个query的各个基础词条term的词条权重,具体包括: 对所述query集合中每一个query进行分词,得到多个基础词条term ；统计各个term在所述query集合中出现的频率,基于出现频率的高低获取各个term的词条权重。3.如权利要求1或2所述的方法,其特征在于,所述对所述query集合中每一个query进行分词，得到多个基础词条term，具体包括: 对所述query集合中每一个query基于n-gram进行分词处理,得到多个片段gram的基础词条term。4.如权利要求1-3所述的方法，其特征在于，所述基于出现频率的高低获取各个term的词条权重，具体包括: 选取出现频率最高的term的次数作为分母，根据每一个term的出现次数计算获取各个term的词条权重。5.如权利要求1-4任一项所述的方法，其特征在于，所述方法还包括: 接收用户输入的某一 query,对该query进行分词得到多个term ；忽略作为模糊词的term，利用其余的term作为搜索关...

【专利技术属性】
技术研发人员：邹启波，周连强，
申请(专利权)人：北京奇虎科技有限公司，奇智软件北京有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人