对具有地图需求的搜索项进行解析的方法和装置制造方法及图纸

技术编号:10584644 阅读:113 留言:0更新日期:2014-10-29 14:18
本发明专利技术提供了一种对具有地图搜索需求的搜索项(query)进行解析的方法和装置,其中方法包括:对用户输入的query进行分词处理;对所述query中自然语言化的词语进行tag映射:依据所述query中自然语言化的词语与tag体系中各tag之间的相似度,确定映射到的tag;其中所述tag体系中的tag是地图中的兴趣点(POI)属性,能够命中对应的POI;依据tag映射结果确定所述query对应的搜索关键词,地图搜索引擎对确定的搜索关键词进行搜索。本发明专利技术针对自然语言化的query也能够返回用户需求的搜索结果,而不必依赖于人工词表的覆盖状况。

【技术实现步骤摘要】
【专利摘要】本专利技术提供了一种对具有地图搜索需求的搜索项(query)进行解析的方法和装置,其中方法包括:对用户输入的query进行分词处理;对所述query中自然语言化的词语进行tag映射:依据所述query中自然语言化的词语与tag体系中各tag之间的相似度,确定映射到的tag;其中所述tag体系中的tag是地图中的兴趣点(POI)属性,能够命中对应的POI;依据tag映射结果确定所述query对应的搜索关键词,地图搜索引擎对确定的搜索关键词进行搜索。本专利技术针对自然语言化的query也能够返回用户需求的搜索结果,而不必依赖于人工词表的覆盖状况。【专利说明】对具有地图需求的搜索项进行解析的方法和装置
】 本专利技术涉及计算机应用技术中的信息搜索领域,特别涉及一种对具有地图需求的 搜索项进行解析的方法和装置。 【
技术介绍
】 随着网络技术的迅速发展,网络上的信息资源不断丰富,信息数据量也在飞速膨 胀。搜索引擎已经逐渐成为人们获取信息的重要方式,地图搜索是其中一种重要的搜索应 用,为人们出行提供了便利。 在地图搜索中,用户在输入框中输入搜索项(query )后,地图搜索引擎会向用户提 供该query对应的地图信息,例如当用户输入"肯德基",搜索引擎会将肯德基的位置信息 在地图中进行标识后展现给用户。由于现有地图搜索中,通常对query不做任何处理直接 进行文本匹配,这对于用户输入的query是诸如地名、建筑名、商户名等命名实体,或者是 一些诸如"快捷酒店"等类别词时,由于其与地图Ρ0Ι点的信息描述一致,返回的搜索结果 能够很好的满足用户需求。 然而,很多情况下用户输入的query表述比较随意,具有自然语言化的特点,例如 "北京有什么好玩的"、"附近哪有学厨师的"等,这种通过传统的文本匹配方式难以找到好 的搜索结果,地图P0I点中不会存在"好玩的"、"学厨师"这样的描述,此外,即便通过人工 词表匹配的方式也会造成覆盖不全的问题,不能解决未收录的自然语言化的词语。 【
技术实现思路
】 有鉴于此,本专利技术提供了一种对具有地图需求的搜索项进行解析的方法和装置以 便于对自然语言化的query能够返回用户需求的搜索结果。 具体技术方案如下: -种对具有地图搜索需求的搜索项query进行解析的方法,该方法包括: S1、对用户输入的query进行分词处理; S2、对所述query中自然语言化的词语进行tag映射:依据所述query中自然语 言化的词语与tag体系中各tag之间的相似度,确定映射到的tag ;其中所述tag体系中的 tag是地图中的兴趣点Ρ0Ι属性,能够命中对应的Ρ0Ι ; S3、依据tag映射结果确定所述query对应的搜索关键词,地图搜索引擎对确定的 搜索关键词进行搜索。 根据本专利技术一优选实施方式,在所述步骤S1中还包括:去除分词后得到词语中的 停用词。 根据本专利技术一优选实施方式,在所述步骤S1和步骤S2之间还包括以下步骤S11 和S12中的至少一种: S11、基于属性词表,对分词后得到的词语进行属性识别确定属性词; S12、基于模式表达式表,对分词后得到的词语进行地图搜索模式识别; 在所述步骤S2中将所述query中未识别为属性词且未识别出地图搜索模式的词 语确定为自然语言化的词语。 根据本专利技术一优选实施方式,所述模式表达式表的建立方式为: 对已知地图搜索模式的query进行分词处理后,基于属性词表对命中属性词表的 词语进行过滤,剩余的词语确定为模式词; 对模式词进行共现频率的统计,并基于共现频率进行排序; 选择共现频率的排序满足预设要求的模式词构成所述已知地图搜索模式的模式 表达式。 根据本专利技术一优选实施方式,在所述步骤S2中自然语言化的词语与tag之间的相 似度可以通过共现率体现,共现率越高相似度越大;其中自然语言化的词语X与tag y之间 的共现率采用以下方式确定: 统计所述X与所述y在语料中同一文本或同一窗口中的共现次数N1,统计所述X 分别和包括所述y在内的所有tag在语料中同一文本或同一窗口中的总共现次数N,确定所 述X与所述y之间的共现率为N1/N。 根据本专利技术一优选实施方式,在所述步骤S2中,将与所述query中自然语言化的 词语之间相似度满足预设要求的tag确定为映射到的tag,其中所述预设要求为:相似度最 高或者相似度达到预设阈值。 根据本专利技术一优选实施方式,如果识别出属性词,则所述步骤S3中依据tag映射 结果确定所述query对应的搜索关键词为: 将所述映射到的tag和识别出的属性词构成所述query对应的搜索关键词。 根据本专利技术一优选实施方式,如果识别出地图搜索模式,则所述步骤S3中地图搜 索引擎对确定的搜索关键词进行搜索为:地图搜索引擎按照识别出的地图搜索模式对确定 的搜索关键词进行搜索; 否则,所述步骤S3中地图搜索引擎对确定的搜索关键词进行搜索为:地图搜索引 擎按照默认的地图搜索模式对确定的搜索关键词进行搜索。 根据本专利技术一优选实施方式,如果所述用户通过普通大搜索输入所述query,则如 果存在识别出属性词、识别出地图搜索模式和映射到tag中的至少一种,则确定所述query 具备地图搜索需求,在普通大搜索的搜索结果中嵌入所述地图搜索引擎在所述步骤S3中 的搜索结果,并在普通大搜索的搜索结果中将所述地图搜索引擎在所述步骤S3中的搜索 结果排在显著位置。 -种对具有地图搜索需求的搜索项进行解析的装置,该装置包括: 分词单元,用于对用户输入的query进行分词处理; 映射单元,用于对所述query中自然语言化的词语进行tag映射:依据所述query 中自然语言化的词语与tag体系中各tag之间的相似度,确定映射到的tag ;其中所述tag 体系中的tag是地图中的Ρ0Ι属性,能够命中对应的Ρ0Ι ; 搜索单元,用于依据所述映射单元的tag映射结果确定所述query对应的搜索关 键词,调用地图搜索引擎对确定的搜索关键词进行搜索。 根据本专利技术一优选实施方式,所述分词单元,还用于去除分词后得到的词语中的 停用词。 根据本专利技术一优选实施方式,该装置还包括属性识别单元和模式识别单元中的至 少一种; 所述属性识别单元,用于基于属性词表,对分词后得到的词语进行属性识别确定 属性词; 所述模式识别单元,用于基于模式表达式表,对分词后得到的词语进行地图搜索 模式识别; 所述映射单元将所述query中未识别为属性词且未识别出地图搜索模式的词语 确定为自然语言化的词语。 根据本专利技术一优选实施方式,该装置还包括:模式建立单兀,用于建立所述模式表 达式表,具体执行: 对已知地图搜索模式的query进行分词处理后,基于属性词表对命中属性词表的 词语进行过滤,剩余的词语确定为模式词; 对模式词进行共现频率的统计,并基于共现频率进行排序; 选择共现频率的排序满足预设要求的模式词构成所述已知地图搜索模式的模式 表达式。 根据本专利技术一优选实施方式,所述映射单元采用的自然语言化的词语与tag之间 的相似度可以通过共现率体现,共现率越高相似度越大;其中自然语言化的词语X与tag y 之间的共现率采用以下方式确定: 统计所述X与所述y在语料中同一文本或同一窗口中的共现次数N1,统计所述X 分别本文档来自技高网
...

【技术保护点】
一种对具有地图搜索需求的搜索项query进行解析的方法,其特征在于,该方法包括:S1、对用户输入的query进行分词处理;S2、对所述query中自然语言化的词语进行tag映射:依据所述query中自然语言化的词语与tag体系中各tag之间的相似度,确定映射到的tag;其中所述tag体系中的tag是地图中的兴趣点POI属性,能够命中对应的POI;S3、依据tag映射结果确定所述query对应的搜索关键词,地图搜索引擎对确定的搜索关键词进行搜索。

【技术特征摘要】

【专利技术属性】
技术研发人员:李扬孙帆
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1