【技术实现步骤摘要】
本专利技术涉及互联网信息检索
,尤其涉及一种检索结果聚类方法及装置。
技术介绍
随着互联网的飞速发展,网络上的信息总量呈现出爆炸式的增长,为了使人们能够从大量的信息中更高效快捷地找到自己所需的信息,各种搜索引擎技术应运而生。现有技术中,通用搜索引擎的使用方式为:用户将检索的关键词输入搜索引擎给出的关键词栏,搜索引擎根据该关键词进行检索,并将检索得到的结果按照一个排好序的列表的形式展现给用户,然后再由用户根据自身需求,从列表中找到需要的信息。当采用上述方式进行信息查询时,如果用户输入的关键词的歧义性较弱,使得搜索引擎根据该关键词返回的结果含义明确而且唯一时,搜索引擎根据关键词返回的能够满足用户查询需求的结果往往排列在列表中靠前的位置,这样用户就可以很快地找到自己需要的信息;但是,当用户输入的关键词本身具有不同的含义,使得搜索引擎根据该关键词返回的搜索结果包含了关键词的不同含义时,上述方式就会使得用户可能需要在浏览了很多个页面和结果之后才能找到自己需要的信息,对用户来说将是一项麻烦而且耗时的工作。为了解决用户在搜索引擎返回的检索结果中查找自己需要的信息比较麻烦 ...
【技术保护点】
一种检索结果聚类方法,其特征在于,包括: 从检索结果中选取规定数目的短语; 针对选取到的每个短语,对检索结果中包含该短语的检索结果进行聚类,并将该短语作为该聚类的标签。
【技术特征摘要】
1、一种检索结果聚类方法,其特征在于,包括:从检索结果中选取规定数目的短语;针对选取到的每个短语,对检索结果中包含该短语的检索结果进行聚类,并将该短语作为该聚类的标签。2、如权利要求1所述的方法,其特征在于,从检索结果中选取规定数目的短语,具体包括:从检索结果中选取第一数目的短语;根据第一数目的短语中各个短语分别包含的字数数目及预设的字数数目阈值,分别确定第一数目的短语中各个短语的长度得分;针对第一数目的短语中的每个短语,根据包含该短语的检索结果个数、包含该短语的预设检索结果个数阈值、该短语在各个检索结果中出现的总次数,以及检索结果的总个数,确定该短语的出现频率得分;根据确定的第一数目的短语中各个短语的长度得分及出现频率得分,分别确定各个短语的总得分;根据确定的各个短语的总得分,按照总得分由高到低的选取顺序,从所述第一数目的短语中依次选取规定数目的短语。3、如权利要求2所述的方法,其特征在于,根据确定的各个短语的总得分,按照总得分由高到低的选取顺序,从第一数目的短语中依次选取规定数目的短语,具体包括:根据确定的各个短语的总得分,按照总得分由高到低的选取顺序,从所述第一数目的短语中依次选取第二数目的短语;分别确定所述第二数目的短语中各个短语与用于检索的关键词在同一检索结果中出现的位置之间的第一平均距离:对确定的各个第一平均距离进行归一化处理,以及根据归一化结果,分别确定所述第二数目的短语中各个短语与用于检索的关键词在各个检索结果中出现的位置之间的第二平均距离;根据确定的各个第二平均距离,按照第二平均距离由小到大的选取顺序,依次从所述第二数目的短语中选取规定数目的短语。4、如权利要求3所述的方法,其特征在于,根据确定的各个第二平均距离,按照第二平均距离由小到大的选取顺序,依次从所述第二数目的短语中选取规定数目的短语,具体包括:根据第二数目的短语中各个短语分别在检索结果中出现的位置,及用于检索的关键词在检索结果中出现的位置,从第二数目的短语中选取第三数目的短语;对选取的第三数目的短语中各个短语分别在各个检索结果中出现的次数所构成的矩阵进行奇异值分解;根据奇异值分解结果,确定第三数目的短语中各个短语之间的相关度;根据确定的各个短语之间的相关度,按照相关度由低到高的选取顺序,在第三数目的短语中依次选取规定数目的短语。5、如权利要求1所述的方法,其特征在于,从检索结果中选取规定数目的短语,具体包括:从检索结果中选取第一数目的短语;分别确定第一数目的短语中各个短语与用于检索的关键词在同一检索结果中出现的位置之间的第一平均距离;对确定的各个第一平均距离进行归一化处理;根据归一化结果,分别确定第一数目的短语中各个短语与用于检索的关键词在同一个检索结果中出现的位置之间的第二平均距离;根据确定的各个第二平均距离,按照第二平均距离由小到大的选取顺序,依次从所述第一数目的短语中选取规定数目的短语。6、如1~5任一权利要求所述的方法,其特征在于,针对每个选取到的短语,对检索结果中包含该短语的检索结果进行聚类,并将该短语作为该聚类的标签之后,还包括:根据每个聚类中分别包含的检索结果个数,以及每个聚类中包含的各个检索结果对应的向量空间模型,确定每个聚类的中心向量;根据确定的每个聚类的中心向量,分别确定每个聚类的中心向量与每个聚类中包含的各个检索结果对应的向量空间模型的内部相似度的平均值;分别根据确定的对应每个聚类的内部相似度的平均值,保留内部相似度的平均值不小于预设的内部相似度阈值的聚类;以及按照内部相似度的平均值由大到小的顺序,对被保留下来的聚类进行排列。7、一种检索结果聚类装置,其特征在于,包括:选取单元,利用与从检索结果中选取规定数目的短语;聚类单元,用于针对选取单元选取到的每个短语,对检索结果中包含该短语的检索结果进行聚类,并将该短语作为该聚类的标签。8、如权利要求7所述的装置,其特征在于,所述选取单元具体包括:第一选取子单元,用于从检索结果中选取第一数目的短语;长...
【专利技术属性】
技术研发人员:骆雄武,万小军,杨建武,吴於茜,
申请(专利权)人:北京大学,北大方正集团有限公司,北京方正电子政务信息科技有限公司,
类型:发明
国别省市:11[中国|北京]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。