一种用户检索语句的处理方法及系统技术方案

技术编号:8704501 阅读:143 留言:0更新日期:2013-05-16 18:24
本发明专利技术涉及信息检索领域,提供了一种用户检索语句的处理方法,包括,建立与用户检索词汇相关的样本库,以及建立与所述用户检索词汇相关的资源库;对所述用户检索词汇进行特征提取;利用分类器对所述用户检索词汇进行分类,并对所述用户检索词汇进行基本赋权;对基本赋权后的用户检索词汇进行实体调权;输出用户检索词汇的权重。本发明专利技术还提供了一种用户检索语句的处理系统。采用本发明专利技术的技术方案,保障实体提取的准确率,获取动态权重,避免了仅仅依靠查询线下统计的词汇的权重而导致权重固定和不合理问题。最终又借助从属关系识别进一步优化用户检索词汇的权重,突出用户检索的核心词汇的权重,为搜索引擎提供更实际、更合理的信息支持。

【技术实现步骤摘要】

本专利技术涉及信息检索领域,特别地涉及一种用户检索语句的处理方法及系统
技术介绍
检索语句分析是搜索引擎的基础。搜索引擎根据用户的检索语句进行搜索,但经常会出现返回的搜索结果相关性比较差,只命中了用户检索语句中的部分词汇。主要原因是对用户检索语句中的词汇没有合理的赋权,使得检索中没有提出核心的、相对重要的词汇。在广告检索中,同样会根据用户的检索语句,在某个位置给出相关的广告推荐信息。但是经常会发现这么一种情况,检索系统打出的广告与用户输入的信息相关性很差,甚至风马牛不相及,广告词仅仅命中了用户检索语句中的部分词汇,还不是很重要的词汇,这同样是因为对用户检索的语句中的词汇赋权不恰当导致的。通过检索语句分析可以充分挖掘用户检索的信息,进而对检索的词汇进行赋权。每个检索的词汇都有相应的权重,权重越高,表示该词汇相对更重要,在检索中发挥的作用也就越大。截止目前为止,有关用户检索词汇赋权方面的专利较少,基本是基于词典查询的一种静态权重赋权方法。例如,中国专利CN102103604A (检索词核心权重确定方法和装置)公开了一种基于线下核心计算生成的词典查找检索词权重的方法。该检索词核心词权重确定方法包括:在线下核心计算生成的第一词典文件中查找检索词;如果在第一词典文件中查找到所述检索词,则输出第一词典文件对应的检索词权重;如果在第一词典文件中未查找到检索词,则对检索词进行处理,并在第一词典文件中查找处理后的检索词,如果查找到处理后的检索词,则输出第一词典文件对应的处理后的检索词的权重;如果在第一词典文件中未查找到处理后的检索词,则对处理后的检索词进行切词计算,获得处理后的检索词的权重。该方法的优点是简单易实现,但不足是这样得到的权重大多是一种静态权重,主要是查询事先线下统计的词典信息。同一个词汇得到的权重也大多是相同的,但在实际检索环境下,用户的需求不同,表述不同,导致相同的词汇在不同的检索语句中可能代表的意义不同,重要程度不同,故而权重理应不同。基于线下词典查询检索词权重的方法,主要是线下对用户检索行为统计,生成每个检索词的一种权重,如词汇的逆向文档频率idf值。在用户输入检索语句后,通过分词得到的一系列词汇,再查找词典,找到对应的权重,查不到则赋予一个默认值。此方法将导致不同的检索语句中的同一个词的权重必定相同,没有考虑每个用户输入检索语句的特殊性和独立性。事实上,同一个词汇,可能会因为在不同的检索语句中,其重要性,起的作用是不尽相同的,权重当然也不会相同
技术实现思路
本专利技术解决的技术问题在于提供了一种用户检索语句的处理方法及系统,以解决目前无法对用户检索词汇动态赋权的问题。为解决上述问题,本专利技术实施例提供了一种用户检索语句的处理方法,包括,建立与用户检索词汇相关的样本库,以及建立与所述用户检索词汇相关的资源库;对所述用户检索词汇进行特征提取;利用分类器对所述用户检索词汇进行分类,并对所述用户检索词汇进行基本赋权;将基本赋权后的词汇进行实体调权;输出用户检索词汇的权重。上述的方法,其中,在建立与用户检索词汇相关的样本库之前,还包括,对用户检索语句进行分词处理,得到一系列的用户检索词汇。上述的方法,其中,所述建立与用户检索词汇相关的样本库包括,从检索日志中选取一定数量的用户检索语句,进行分词处理,得到一系列的用户检索词汇,人工标注所述一系列的用户检索词汇是核心词或非核心词,得到的样本标注集即为样本库。上述的方法,其中,所述资源库包括,词汇的逆向文档频率idf词表、百科词表、检索单词汇表、实体资源词典。上述的方法,其中,所述对所述用户检索词汇进行特征提取包括,利用资源库的词汇的逆向文档频率idf词表、百科词表、检索单词汇表,提取用户检索词汇的特征,包括词汇的词性,前一个词汇的词性,词汇在用户检索语句中的位置,词汇的逆向文档频率idf值,词汇是否是百科词条,词汇是否是单检索词。上述的方法,其中,所述利用分类器对所述用户检索词汇进行分类,并对所述用户检索词汇进行基本赋权包括,对样本库中的用户检索词汇进行特征提取,结合样本库中的用户检索词汇的人工标注,对分类器进行训练;将用户检索词汇的特征向量送入分类器,利用分类器对所述用户检索词汇进行分类,并得到所述用户检索词汇为核心词的概率P,将P作为所述用户检索词汇的基本权重;其中所述用户检索词汇的特征向量是由所述用户检索词汇的特征组成的一个特征向量。上述的方法,其中,所述对基本赋权后的用户检索词汇进行实体调权包括,根据实体资源词典,利用实体提取方法得到所述检索语句中的一系列实体词entityList ;若某个词汇(term)是实体且基本赋权小于0.2,则调整为0.2:权利要求1.一种用户检索语句的处理方法,其特征在于,包括, 建立与用户检索词汇相关的样本库,以及建立与所述用户检索词汇相关的资源库; 对所述用户检索词汇进行特征提取; 利用分类器对所述用户检索词汇进行分类,并对所述用户检索词汇进行基本赋权; 对基本赋权后的用户检索词汇进行实体调权; 输出用户检索词汇的权重。2.根据权利要求1所述的方法,其特征在于,在建立与用户检索词汇相关的样本库之前,还包括, 对用户检索语句进行分词处理,得到一系列的用户检索词汇。3.根据权利要求2所述的方法,其特征在于,所述建立与用户检索词汇相关的样本库包括, 从检索日志中选取一定数量的用户检索语句,进行分词处理,得到一系列的用户检索词汇,人工标注所述一系列的用户检索词汇是核心词或非核心词,得到的样本标注集即为样本库。4.根据权利要求3所述的方法,其特征在于,所述资源库包括,词汇的逆向文档频率idf词表、百科词表、检索单词汇表、实体资源词典。5.根据权利要求4所述的方法,其特征在于,所述对所述用户检索词汇进行特征提取包括, 利用资源库的词汇的逆向文档频率idf词表、百科词表、检索单词汇表,提取用户检索词汇的特征,包括词汇的词性,前一`个词汇的词性,词汇在用户检索语句中的位置,词汇的逆向文档频率idf值,词汇是否是百科词条,词汇是否是单检索词。6.根据权利要求5所述的方法,其特征在于,所述利用分类器对所述用户检索词汇进行分类,并对所述用户检索词汇进行基本赋权包括, 对样本库中的用户检索词汇进行特征提取,结合样本库中的用户检索词汇的人工标注,对分类器进行训练; 将用户检索词汇的特征向量送入分类器,利用分类器对所述用户检索词汇进行分类,并得到所述用户检索词汇为核心词的概率P,将P作为所述用户检索词汇的基本权重;其中所述用户检索词汇的特征向量是由所述用户检索词汇的特征组成的一个特征向量。7.根据权利要求6所述的方法,其特征在于,所述对基本赋权后的用户检索词汇进行实体调权包括, 根据实体资源词典,利用实体提取方法得到所述检索语句中的一系列实体词entityList ;若某个词汇(term)是实体且基本赋权小于0.2,则调整为0.2: θ.2weight< 0.2 & ferm e emitvList weishtU] = <J = h2...n other 其中term表示第i个term,weight 为对应的权重,entityList为提取的实体集。8.根据权利要求7所述的方法,其特征在于,本文档来自技高网
...
一种用户检索语句的处理方法及系统

【技术保护点】
一种用户检索语句的处理方法,其特征在于,包括,建立与用户检索词汇相关的样本库,以及建立与所述用户检索词汇相关的资源库;对所述用户检索词汇进行特征提取;利用分类器对所述用户检索词汇进行分类,并对所述用户检索词汇进行基本赋权;对基本赋权后的用户检索词汇进行实体调权;输出用户检索词汇的权重。

【技术特征摘要】

【专利技术属性】
技术研发人员:车天文雷大伟石志伟周步恋杨振东王更生王喜民何宏靖徐忆苏
申请(专利权)人:深圳市宜搜科技发展有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1