一种查询词的处理方法和装置制造方法及图纸

技术编号：8241525 阅读：271 留言：0更新日期：2013-01-24 22:27

本申请提供了一种查询词的处理方法和装置，其中的方法具体包括：接收用户输入的查询词，所述查询词包括若干个词项；识别所述查询词中的多词单元，所述多词单元为多个词项构成的语法结构；以所述查询词中的多词单元和除多词单元外的词项为处理单位，对所述查询词进行丢词处理，得到丢词处理后的新查询词。本申请能够提高查询词处理的精度、准确度和速度，并且能够在保留原查询词信息焦点的基础之上，使得处理后的查询词能够最大程度地保留用户的信息需求。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及互联网信息搜索
，特别是涉及一种查询词的处理方法和装置。
技术介绍
随着互联网上信息的飞速增长，网络上充斥了越来越多的冗余信息，而对于在网络上搜寻自己所需要信息的互联网用户而言，面对这些漫无边际的信息无疑像大海捞针。针对某个信息需求，通常搜索引擎提供一个网页界面，让用户在客户端通过浏览器软件提交查询词，然后很快返回一个可能和用户输入的查询词相关的信息列表。然而，在很多情况下，用户输入的查询词并不能很好的反映用户的信息需求，从而不能准确匹配到想要的信息。对用户输入的查询词进行处理和变换，可以使得处理后的查询词能够更准确的反映用户需求，帮助用户快速找到目标信息，提高用户的搜索使用体验。针对某个信息需求，用户可能某些时候使用非常详细的语言形式对相应查询词进行表述。然而现有的搜索引擎大都基于词袋(bag-of-word)模型构建，其假设词项相互之间没有关联。在这种情况下，过于详尽和冗长的查询词表述反而会对查询准确率和召回率产生副作用。例如，对于电子商务搜索而言，由于默认多词情况下词项之间是“AND”关系，因此，长的查询词往往导致很多零结果或少结果的情...

【技术保护点】
一种查询词的处理方法，其特征在于，包括：接收用户输入的查询词，所述查询词包括若干个词项；识别所述查询词中的多词单元，所述多词单元为多个词项构成的语法结构；以所述查询词中的多词单元和除多词单元外的词项为处理单位，对所述查询词进行丢词处理，得到丢词处理后的新查询词。

【技术特征摘要】

【专利技术属性】
技术研发人员：赵京雷，孙丽，杨旭，林锋，冯炯，
申请(专利权)人：阿里巴巴集团控股有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人