一种查询词的处理方法和装置制造方法及图纸

技术编号:8241525 阅读:248 留言:0更新日期:2013-01-24 22:27
本申请提供了一种查询词的处理方法和装置,其中的方法具体包括:接收用户输入的查询词,所述查询词包括若干个词项;识别所述查询词中的多词单元,所述多词单元为多个词项构成的语法结构;以所述查询词中的多词单元和除多词单元外的词项为处理单位,对所述查询词进行丢词处理,得到丢词处理后的新查询词。本申请能够提高查询词处理的精度、准确度和速度,并且能够在保留原查询词信息焦点的基础之上,使得处理后的查询词能够最大程度地保留用户的信息需求。

【技术实现步骤摘要】

本申请涉及互联网信息搜索
,特别是涉及一种查询词的处理方法和装置
技术介绍
随着互联网上信息的飞速增长,网络上充斥了越来越多的冗余信息,而对于在网络上搜寻自己所需要信息的互联网用户而言,面对这些漫无边际的信息无疑像大海捞针。针对某个信息需求,通常搜索引擎提供一个网页界面,让用户在客户端通过浏览器软件提交查询词,然后很快返回一个可能和用户输入的查询词相关的信息列表。然而,在很多情况下,用户输入的查询词并不能很好的反映用户的信息需求,从而 不能准确匹配到想要的信息。对用户输入的查询词进行处理和变换,可以使得处理后的查询词能够更准确的反映用户需求,帮助用户快速找到目标信息,提高用户的搜索使用体验。针对某个信息需求,用户可能某些时候使用非常详细的语言形式对相应查询词进行表述。然而现有的搜索引擎大都基于词袋(bag-of-word)模型构建,其假设词项相互之间没有关联。在这种情况下,过于详尽和冗长的查询词表述反而会对查询准确率和召回率产生副作用。例如,对于电子商务搜索而言,由于默认多词情况下词项之间是“AND”关系,因此,长的查询词往往导致很多零结果或少结果的情况,使得召回率比较低。并且,现有技术中搜索引擎进行信息查询时需要先对用户输入的查询词进行分词,对分词后得到的词项逐一与待查询信息进行匹配。对于过于详尽和冗长的查询词分词后将会得到较多的词项,对于数量较多的词项与待查询信息进行匹配时将会导致查询速度较慢,增加搜索引擎的工作压力。查询缩写(Query Abbreviation)是对过于冗长或详细描述的查询词的一种处理方法,其通过有选择地筛选查询词中的词,保留那些能够反映用户需求的词,去掉噪音词,最终生成贴近用户查询意图的新查询词。在原查询是零结果或少结果时,采用查询缩写技术推荐若干与原查询词意图相近的新查询词,将其搜索结果展示给用户,能够提高用户的搜索体验,同时也在一定程度提高了电子商务网站上产品的曝光率和点击率,具有较大的商业价值。并且由于缩写后的词项较少,将数量较少的词项与待查询词进行匹配时将会加快查询的速度,减少搜索引擎的工作压力。现有一种对用户冗长查询进行缩写的方法具体可以包括A、给定一个用户输入的长查询,包括若干个词项;B、从中生成词项的可能候选子集集合;C、使用互信息方法对子集集合进行评估;D、挑选出满足最大生成树条件的子集作为缩写查询的结果;E、使用缩写查询的结果替换原始长查询进行检索。上述方法具有如下缺点以词项为单位进行过滤,很可能会把原本应该一起的多词单元拆开,对于搜索引擎而言,一方面,容易使得缩写查询的结果与原始长查询大相径庭,严重影响查询词处理的精度和准确度;另一方面,以词项为单位增加了处理步骤,导致花费了过多的处理时间,从而影响查询词处理的速度。对于用户而言,缩写查询的结果与原始长查询大相径庭,很有可能使得处理后的查询词抛弃了用户的信息需求,从而返回给用户的搜索结果也不能准确反映用户的信息需求,从而影响用户的搜索使用体验。并且,以词项为单位进行待查询信息匹配时,需要对多个词项与待查询信息进行多次匹配,将会减缓查询的匹配速度,增加服务器的工作压力。总之,需要本领域技术人员迫切解决的一个技术问题就是如何能够提高查询词处理的精度、准确度和速度,并且能够使得处理后的查询词能够最大程度地保留用户的信息需求。
技术实现思路
本申请所要解决的技术问题是提供一种查询词的处理方法和装置,能够提高查询词处理的精度、准确度和速度,并且能够在保留原查询词信息焦点的基础之上,使得处理后的查询词能够最大程度地保留用户的信息需求。·为了解决上述问题,本申请公开了一种查询词的处理方法,包括接收用户输入的查询词,所述查询词包括若干个词项;识别所述查询词中的多词单元,所述多词单元为多个词项构成的语法结构;以所述查询词中的多词单元和除多词单元外的词项为处理单位,对所述查询词进行丢词处理,得到丢词处理后的新查询词。优选的,通过以下步骤识别所述查询词中的多词单元将所述查询词划分为多个浅层语段,所述浅层语段为多个词项构成的短语层次结构依次处理各浅层语段,从前往后取得相应的多词单元。优选的,所述处理各浅层语段的步骤,包括步骤I :读取一个浅层语段,并以该浅层语段的起始位置作为当前多词单元的起始位置;步骤2 :从当前多词单元的起始位置开始,在这个浅层语段中读取当前词项和下一个词项;步骤3 :根据所述当前词项和下一个词项的特征,判断当前多词单元的起始位置到当前词项所在位置构成的语法结构是否为一个多词单元,若是,则执行步骤4,否则,执行步骤5 ;步骤4 :保存该多词单元,以下一个词项所在位置作为当前多词单元的起始位置,并返回步骤2;步骤5 :判断下一个词项所在位置是否为该浅层语段的结束位置,若是,则结束所述处理过程,否则,执行步骤6 ;步骤6 :从下一个词项所在位置开始,在这个浅层语段中读取当前词项和下一个词项,并返回步骤3。优选的,所述当前词项和下一个词项的特征包括语义特征;所述判断当前多词单元的起始位置到当前词项所在位置构成的语法结构是否为一个多词单元的步骤,包括判断当前词项的语义特征和下一词项的语义特征是否均为特定的语义特征,若否,则确定当前多词单元的起始位置到当前词项所在位置构成的语法结构是一个多词单J Li ο优选的,所述当前词项和下一个词项的特征包括统计特征;所述判断当前多词单元的起始位置到当前词项所在位置构成的语法结构是否为一个多词单元的步骤,包括判断所述当前词项和下一个词项的特征的连续出现频率是否大于第一阈值,若是,则确定当前多词单元的起始位置到当前词项所在位置构成的语法结构是一个多词单 J Li ο优选的,所述方法还包括分别对所述查询词中的各多词单元和除多词单元外的各词项进行重要性评估,得到相应的重要性评估结果;所述对所述查询词进行丢词处理的步骤,包括将所述查询词中所有处理单位的重要性评估结果,从小到大进行排序;基于优先丢掉排在前面的处理单位的原理,对所述查询词进行丢词处理,得到丢词处理后的新查询词。优选的,所述对查询词进行丢词处理的步骤,包括获取所述查询词的长度;根据所述查询词的长度,选择丢词算法对所述查询词进行丢词处理,其中,不同查询词的长度对应不同的丢词算法。优选的,通过如下步骤对多词单元进行重要性评估依据该多词单元中各词项的重要性、各词项间关系和该多词单元在所述查询词中的位置,对该多词单元进行重要性评估。优选的,通过如下步骤对词项进行重要性评估依据统计特征、词级特征、语法特征和语义特征中的一种或多种,评估词项的重要性。优选的,在识别所述查询词中的多词单元前,所述方法还包括对所述查询词进行预处理操作,所述预处理操作包括大小写转换,标点符号过滤,词性标注,浅层语段划分,中心词抽取,词项特殊语义标记中的一种或多种。另一方面,本申请还公开了一种查询词的处理装置,包括接口模块,用于接收用户输入的查询词,所述查询词包括若干个词项;识别模块,用于识别所述查询词中的多词单元,所述多词单元为多个词项构成的语法结构 '及丢词处理模块,用于以所述查询词中的多词单元和除多词单元外的词项为处理单位,对所述查询词进行丢词处理,得到丢词处理后的新查询词。优选的,所述识别模块包括划分子模块,用于将所述查询词划分为多个浅层本文档来自技高网
...

【技术保护点】
一种查询词的处理方法,其特征在于,包括:接收用户输入的查询词,所述查询词包括若干个词项;识别所述查询词中的多词单元,所述多词单元为多个词项构成的语法结构;以所述查询词中的多词单元和除多词单元外的词项为处理单位,对所述查询词进行丢词处理,得到丢词处理后的新查询词。

【技术特征摘要】

【专利技术属性】
技术研发人员:赵京雷孙丽杨旭林锋冯炯
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1