单元词替换方法、搜索方法及装置制造方法及图纸

技术编号:12398308 阅读:81 留言:0更新日期:2015-11-26 03:59
本申请涉及一种单元词替换方法、搜索方法及装置,所述方法包括:对输入的查询语句进行分词,得到所述查询语句的第一单元词;利用所述第一单元词,从同义词表中找出所述第一单元词的同义词集合;从二元词组数据库中,查询得到所述第一单元词与其上下文的第一单元词组成的二元词组的第一紧密度、所述同义词集合中的第二单元词与所述第一单元词的上下文的单元词组成的第二二元词组的第二紧密度;如果所述第二紧密度大于等于所述第一紧密度且所述第二紧密度大于预设阈值,则将所述第二单元词作为所述第一单元词的替换词。本申请能更精确地解析搜索意图,提高搜索结果的准确性。

【技术实现步骤摘要】

本申请涉及信息处理
,尤其涉及一种单元词替换方法、搜索方法及装置
技术介绍
在现有的搜索产品中,当用户提交查询语句后,搜索引擎会将用户提交的查询语 句进行预处理后再进行检索。在预处理过程中,用户提交的查询语句会被拆分成多个关键 词,可以利用同义词替换功能对这些关键词进行同义替换操作,生成新的搜索引擎底层可 读的查询语句。 现有的同义词替换功能大多都是对存在同义词词组的关键词采用直接替换的方 式,对于一些不必要替换的情形不会加以区分,例如,用户输入查询语句"中国银行快捷支 付限额",经过分词得到关键词"中国银行"、"快捷"、"支付"和"限额"。在这个查询语句中, "支付"的同义词包括"付款",因而采用同义词替换功能后,会得到新的查询语句"中国银行 快捷付款限额"。而在实际情形中,"快捷支付"是一个固定搭配的词组,具有特定的含义,其 使用频率比"快捷付款"高。可以看出,这种采用直接匹配方式,由于缺乏了上下文的参照 信息,往往会造成不必要的同义替换,替换结果会带来相关度较差的搜索结果,不能精确解 析用户的搜索意图,导致搜索结果的准确性较差。
技术实现思路
本申请的目的是,提供一种单元词替换方法、搜索方法及装置,可减少不必要的同 义词替换,能更精确地解析搜索意图,提高搜索结果的准确性。 本申请提供了一种单元词替换方法,所述方法包括: 对输入的查询语句进行分词,得到所述查询语句的第一单元词; 利用所述第一单元词,从同义词表中找出所述第一单元词的同义词集合; 从二元词组数据库中,查询得到所述第一单元词与其上下文的单元词组成的第 一二元词组的第一紧密度、所述同义词集合中的第二单元词与所述第一单元词的上下文的 单元词组成的第二二元词组的第二紧密度,其中,所述二元词组数据库中包括参考二元词 组及所述参考二元词组的紧密度; 比较所述第一紧密度和所述第二紧密度,如果所述第二紧密度大于等于所述第一 紧密度且所述第二紧密度大于预设阈值,则将所述第二单元词作为所述第一单元词的替换 。 又一方面,本申请还提供了一种基于单元词替换的搜索方法,所述方法包括: 对输入的查询语句进行分词,得到所述查询语句的第一单元词; 利用所述第一单元词,从同义词表中找出所述第一单元词的同义词集合; 从二元词组数据库中,查询得到所述第一单元词与其上下文的单元词组成的第 一二元词组的第一紧密度、所述同义词集合中的第二单元词与所述第一单元词的上下文的 单元词组成的第二二元词组的第二紧密度,其中,所述二元词组数据库中包括参考二元词 组及所述参考二元词组的紧密度; 比较所述第一紧密度和所述第二紧密度,如果所述第二紧密度大于等于所述第一 紧密度且所述第二紧密度大于预设阈值,则将所述第二单元词作为所述第一单元词的替换 词; 利用所述第一单元词的替换词,生成新的查询语句进行搜索,得到搜索结果。 又一方面,本申请还提供了一种单元词替换装置,所述装置包括: 分词单元,用于对输入的查询语句进行分词,得到所述查询语句的第一单元词; 第一查询单元,用于利用所述分词单元得到的所述第一单元词,从同义词表中找 出所述第一单元词的同义词集合; 第二查询单元,用于从二元词组数据库中,查询得到所述第一单元词与其上下文 的单元词组成的第一二元词组的第一紧密度、所述第一查询单元得到的所述同义词集合中 的第二单元词与所述第一单元词的上下文的单元词组成的第二二元词组的第二紧密度,其 中,所述二元词组数据库中包括参考二元词组及所述参考二元词组的紧密度; 处理单元,用于比较所述查询单元得到的所述第一紧密度和所述第二紧密度,如 果所述第二紧密度大于等于所述第一紧密度且所述第二紧密度大于预设阈值,则将所述第 二单元词作为所述第一单元词的替换词。 又一方面,本申请还提供了一种基于单元词替换的搜索装置,所述装置包括: 分词单元,用于对输入的查询语句进行分词,得到所述查询语句的第一单元词; 第一查询单元,用于利用所述分词单元得到的所述第一单元词,从同义词表中找 出所述第一单元词的同义词集合; 第二查询单元,用于从二元词组数据库中,查询得到所述第一单元词与其上下文 的单元词组成的第一二元词组的第一紧密度、所述第一查询单元得到的所述同义词集合中 的第二单元词与所述第一单元词的上下文的单元词组成的第二二元词组的第二紧密度,其 中,所述二元词组数据库中包括参考二元词组及所述参考二元词组的紧密度; 处理单元,用于比较所述查询单元得到的所述第一紧密度和所述第二紧密度,如 果所述第二紧密度大于等于所述第一紧密度且所述第二紧密度大于预设阈值,则将所述第 二单元词作为所述第一单元词的替换词; 搜索单元,用于利用所述处理单元得到的所述第一单元词的替换词,生成新的查 询语句进行搜索,得到搜索结果。 本申请提供的单元词替换方法、基于单元词替换的搜索方法及装置,根据二元词 组的紧密度以及替换词在查询语句中的上下文信息,来进行有选择性的替换,考虑了上下 文的参照信息,可减少不必要的同义词替换,能更精确地解析搜索意图,提高搜索结果的准 确性。【附图说明】 为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使 用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于 本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其 他的附图。 图1为本申请实施例提供的单元词替换方法流程图; 图2为本申请实施例提供的基于单元词替换的搜索方法流程图; 图3为本申请实施例提供的单元词替换装置示意图; 图4为本申请实施例提供的基于单元词替换的搜索装置示意图。【具体实施方式】 为使得本申请的专利技术目的、特征、优点能够更加的明显和易懂,下面将结合本申请 实施例中的附图,对本申请实施例中的技术方案进行描述,显然,所描述的实施例仅仅是本 申请一部分实施例,而非全部实施例。基于本申请中的实施例,本领域普通技术人员在没有 做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。 本申请实施例提供的单元词替换方法及装置,适用于各类需要进行同义词替换的 场景,尤其是具有上下文作为参照信息的文本中同义词替换的场景,例如,在搜索引擎的搜 索栏中输入的查询语句等等。 本申请实施例提供的基于单元词替换的搜索方法及装置,适用于各类搜索引擎, 尤其是有采用同义词替换进行扩展性搜索的搜索引擎,例如,用于公告搜索、商品搜索、云 客服(Clive)搜索等等的搜索引擎。 图1是本申请实施例提供的单元词替换方法流程图,如图1所示,本申请实施例的 单元词替换方法包括: S101、对输入的查询语句进行分词,得到所述查询语句的第一单元词。 本申请中所述的查询语句是指用户在进行搜索时,在网页的搜索栏中输入的关键 词或语句。例如,在Clive搜索时,用户打开商务网站的客服网页进行问题的搜索,用户在 网页的搜索栏上输入"中国银行快捷支付限额是多少"、"如何更改支付宝密码"等查询语 句。又例如:在公告搜索时,用户在网页的搜索栏上输入例如"请问新款的秋冬连衣裙今年 什么时间上架啊"等查询语句。在商品搜索时,用户在网页的搜索栏上输入例如"夏装连衣 裙裤"等查询语句。 对用户输入的查询语句按照现有的分词方本文档来自技高网...

【技术保护点】
一种单元词替换方法,其特征在于,所述方法包括:对输入的查询语句进行分词,得到所述查询语句的第一单元词;利用所述第一单元词,从同义词表中找出所述第一单元词的同义词集合;从二元词组数据库中,查询得到所述第一单元词与其上下文的单元词组成的第一二元词组的第一紧密度、所述同义词集合中的第二单元词与所述第一单元词的上下文的单元词组成的第二二元词组的第二紧密度,其中,所述二元词组数据库中包括参考二元词组及所述参考二元词组的紧密度;比较所述第一紧密度和所述第二紧密度,如果所述第二紧密度大于等于所述第一紧密度且所述第二紧密度大于预设阈值,则将所述第二单元词作为所述第一单元词的替换词。

【技术特征摘要】

【专利技术属性】
技术研发人员:阮淑梨蒋建魏洪平谢庆伟
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛;KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1