一种用于确定近义序列簇的方法与设备技术

技术编号:9034042 阅读:141 留言:0更新日期:2013-08-15 00:52
本发明专利技术的目的是提供一种用于确定近义序列簇的方法与设备。具体地,获取多个近义序列对;确定所述多个近义序列对所对应的初始近义序列簇;根据所述初始近义序列簇中序列的特征向量,对所述初始近义序列簇中的序列进行聚类处理,以获得一个或多个近义序列簇。其中,与现有技术相比,本发明专利技术通过确定多个近义序列对所对应的初始近义序列簇,以根据所述初始近义序列簇中序列的特征向量,对所述初始近义序列簇中的序列进行聚类处理,获得一个或多个近义序列簇,从而使得更加准确地确定近义序列簇,不仅提高了用户获取信息的效率,也提升了用户的搜索体验。

【技术实现步骤摘要】
一种用于确定近义序列簇的方法与设备
本专利技术涉及互联网
,尤其涉及一种用于确定近义序列簇的技术。
技术介绍
当前,随着互联网技术的发展及互联网应用对用户学习、工作与生活的渗透,人们越来越多地通过网络获取信息,如通过搜索引擎输入查询序列,搜索引擎返回给用户与查询序列相匹配的搜索结果。然而,不同用户搜索相同内容时,输入的查询序列并不完全相同,如采用表述方式不同但意思相同的查询序列,而现有的搜索引擎根据该等查询序列进行匹配查询时,未涵盖该等查询序列之间的近义关系,返回的搜索结果也不完全相同,影响了用户获取信息的效率及信息准确度。
技术实现思路
本专利技术的目的是提供一种用于确定近义序列簇的方法与设备。根据本专利技术的一个方面,提供了一种用于确定近义序列簇的方法,其中,该方法包括以下步骤:a获取多个近义序列对;b确定所述多个近义序列对所对应的初始近义序列簇;c根据所述初始近义序列簇中序列的特征向量,对所述初始近义序列簇中的序列进行聚类处理,以获得一个或多个近义序列簇。根据本专利技术的另一个方面,还提供了一种用于确定近义序列簇的确定设备,其中,该确定设备包括:获取装置,用于获取多个近义序列本文档来自技高网...
一种用于确定近义序列簇的方法与设备

【技术保护点】
一种用于确定近义序列簇的方法,其中,该方法包括以下步骤:a获取多个近义序列对;b确定所述多个近义序列对所对应的初始近义序列簇;c根据所述初始近义序列簇中序列的特征向量,对所述初始近义序列簇中的序列进行聚类处理,以获得一个或多个近义序列簇。

【技术特征摘要】
1.一种用于确定近义序列簇的方法,其中,该方法包括以下步骤:a获取多个近义序列对;b确定所述多个近义序列对所对应的初始近义序列簇;c根据所述初始近义序列簇中序列的特征向量,对所述初始近义序列簇中的序列进行聚类处理,以获得一个或多个近义序列簇。2.根据权利要求1所述的方法,其中,所述步骤a包括:-根据多个搜索日志,获取多个序列结果对;-根据所述多个序列结果对中多个搜索结果之间的关联信息,从所述多个序列结果对所包括的序列中筛选出多个近义序列对。3.根据权利要求1或2所述的方法,其中,所述步骤b包括:-根据所述多个近义序列对中序列所对应的标签,基于标签传播算法,确定所述多个近义序列对所对应的密集序列簇;-根据所述密集序列簇,对所述多个近义序列对中的序列进行序列合并处理,以获得所述初始近义序列簇。4.根据权利要求1所述的方法,其中,所述步骤c包括:-根据所述初始近义序列簇中序列的特征向量,确定所述初始近义序列簇中序列之间的相似度信息;-根据所述相似度信息,对所述初始近义序列簇中的序列进行聚类处理,以获得一个或多个近义序列簇;其中,所述特征向量包括以下至少任一项特征分量:-所述序列所对应的序列语义特征信息;-所述序列所对应的搜索结果历史点击信息;-所述序列所对应的搜索结果摘要信息。5.根据权利要求1所述的方法,其中,所述步骤c包括:-根据所述初始近义序列簇中序列的特征向量,对所述初始近义序列簇中的序列进行聚类处理,以获得一个或多个候选近义序列簇;x对所述候选近义序列簇进行去噪处理,以获得所述近义序列簇。6.根据权利要求5所述的方法,其中,所述步骤x包括:-根据所述候选近义序列簇中序列的特征向量与该候选近义序列簇所对应的簇特征向量的相似度信息,对所述候选近义序列簇进行去噪处理,以获得所述近义序列簇。7.根据权利要求1所述的方法,其中,该方法还包括:r根据所述近义序列簇,建立或更新近义序列库。8.根据权利要求7所述的方法,其中,该方法还包括:-检测所述近义序列簇中的序列是否存在于所述近义序列库中的其他近义序列簇;-若存在,对该序列进行去冗余处理,以更新所述近义序列库。9.根据权利要求7或8所述的方法,其中,该方法还包括:-获取用户输入的查询序列;-根据所述查询序列,在所述近义序列库中进行匹配查询,以确定与所述查询序列相对应的目标近义序列簇;-将所述目标近义序列簇中至少一个序列提供给所述用户,以作为所述查询序列的建议项。10.根据权利要求7或8所述的方法,其中,所述步骤r包括:-根据所述近义序列簇及其对应的一组优选搜索结果,建立或更新所述近义序列库,其中,所述近义序列簇对应于一组优选搜索结果;其中,该方法还包括:-获取用户输入的查询序列;-根据所述查询序列,在所述近义序列库中进行匹配查询,以获得与所述查询序列相对应的目标近义序列簇;-将所述目标近义序列簇所对应的一组优选搜索结果中至少一个提供给所述用户。11.一种用于确定近义序列簇的确定设备,其中,该确定设备包括:获取装置,用于获取多个近义序列对;初始确定装置,用于确定所述多个近义序列对所对应的初始近义序列簇;序列簇获取装置,用于根据所述初始近义序列簇中序列的特征向量,对所述初始近义序列簇中的序列进行聚类处理,以获得一个或多个近义序列簇。12.根...

【专利技术属性】
技术研发人员:戴帅湘徐犇谢毓彬
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1