需求识别模板的自动挖掘方法、需求识别方法及对应装置制造方法及图纸

技术编号:8532914 阅读:193 留言:0更新日期:2013-04-04 15:56
本发明专利技术提供了一种需求识别模板的自动挖掘方法、需求识别方法及对应装置,在搜索日志中确定预设类型的网页被点击时对应的query集合;从query集合中选择对应预设类型的网页被点击的总次数超过预设次数阈值,和/或,对应预设类型的网页点击比超过预设点击比阈值的query,将选择的query作为预设类型的种子query;将各种子query分别与预设类型的词典进行匹配,将种子query中匹配到词典的词语替换成词典中对应词语的属性标记后,得到预设类型的模板集合;利用预设类型的模板集合确定预设类型的需求识别模板。通过本发明专利技术能够节约人力资源,扩大搜索识别所能覆盖到的query范围,提高召回率。

【技术实现步骤摘要】
需求识别模板的自动挖掘方法、需求识别方法及对应装置
本专利技术涉及计算机
,特别涉及一种需求识别模板的自动挖掘方法和需求识别方法及对应装置。
技术介绍
随着互联网在全球范围内的迅速发展与成熟,网络上的信息资源不断丰富,信息数据量也在飞速膨胀,通过搜索引擎获取信息已经成为现代人获取信息的主要方式。为了向用户提供更加便捷、准确地查询服务是搜索引擎技术在当今和未来的发展方向。在搜索引擎技术中,对用户的搜索需求进行识别是提高搜索准确性和有效性的重要一环,特别在结构化搜索(即垂直搜索)中作用显著。例如,当用户输入“从百度大厦到五道口怎么做公交车”的query时,用户期望得到直接从起点到终点的公交线路的地图结果,因此,需要搜索引擎能够识别出该query具有地图类的搜索需求,从而在地图类的结构化数据库中实现公交线路的结构化搜索。在针对用户输入的query进行需求识别时,常用到的方式是基于已经建立的需求识别模板对用户输入的query进行匹配,利用匹配到的需求识别模板确定搜索需求。在现有技术中,需求识别模板通常采用人工配置的方式,即通过人为观察常用的query结构,总结出常用的需求识别模板,例如对于地图类,人工配置出 “从地名到地名怎么走”、“地名在哪”,“机构名在什么位置”等需求识别模板,然而,这种人工配置需求识别模板的方式具有以下缺陷其一、耗费人力资源,建立需求识别模板的效率较低。其二、对query的召回率较低,也就是说,能够覆盖到的query数量有限,适用范围较窄。
技术实现思路
本专利技术提供了一种需求识别模板的自动挖掘方法、需求识别方法及对应装置,以便于节约人力资源,扩大需求识别所能覆盖到的query范围。具体技术方案如下一种需求识别模板的自动挖掘方法,该方法包括S1、在搜索日志中确定预设类型的网页被点击时对应的query集合;S2、从所述query集合中选择对应所述预设类型的网页被点击的总次数超过预设次数阈值,和/或,对应所述预设类型的网页点击比超过预设点击比阈值的query,将选择的query作为所述预设类型的种子query,其中query对应的所述预设类型的网页点击比为该query对应所述预设类型的网页被点击的总次数与该query对应所有网页被点击的总次数的比值;S3、将各种子query分别与所述预设类型的词典进行匹配,将种子query中匹配到词典的词语替换成词典中对应词语的属性标记后,得到所述预设类型的模板集合,所述词典包括词语和词语的属性标记;S4、利用所述预设类型的模板集合确定所述预设类型的需求识别模板。根据本专利技术一优选实施例,所述步骤SI具体包括确定搜索日志中网页的类型,收集所述预设类型的网页,并确定所述预设类型的 网页被点击时对应的所有query构成所述query集合;或者,确定预设类型的站点,将搜索日志中属于所述预设类型的站点的网页被点击时对 应的所有query构成所述query集合。根据本专利技术一优选实施例,所述词典中的词语包括命名实体和所述预设类型的 特征词。根据本专利技术一优选实施例,该方法还包括计算所述模板集合中各模板的准确率和/或召回率;其中,模板的准确率为该模板所覆盖query对应所述预设类型的网页点击比之 和与该模板所覆盖query的数量的比值;模板的召回率为该模板所覆盖query的数量与所述预设类型的种子query数量 的比值。根据本专利技术一优选实施例,所述步骤S4具体包括将所述模板集合中的各模板确定为所述预设类型的需求识别模板;或者,从所述模板集合中选择准确率高于预设准确率阈值,和/或,召回率高于预设召 回率阈值的模板,作为所述预设类型的需求识别模板。一种需求识别方法,该需求识别方法包括Al、将待识别query分别与各预设类型的词典进行匹配,将所述待识别query中匹 配到词典的词语替换成词典中对应词语的属性标记,得到所述待识别query的语义标注, 所述词典包括词语和词语的属性标记;A2、将所述待识别query的语义标注分别与各预设类型的需求识别模板进行匹 配,利用匹配到的需求识别模板对应的类型确定所述待识别query的需求类型;其中,各预设类型的需求识别模板是通过上述需求识别模板的自动挖掘方法自动 挖掘出的。根据本专利技术一优选实施例,所述词典中的词语包括命名实体和对应预设类型的 特征词。根据本专利技术一优选实施例,在所述步骤Al中,如果所述待识别query中存在同一 个词语匹配到多个词典的词语,则利用匹配到的多个词典的词语的属性标记分别进行替 换,得到多个所述待识别query的语义标注。根据本专利技术一优选实施例,在所述待识别query的语义标注匹配到多个需求识别 模板时,在所述步骤A2中进一步结合匹配到的各需求识别模板的准确率和/或召回率确定 所述待识别query的需求类型。根据本专利技术一优选实施例,在所述步骤A2中确定所述待识别query的需求类型包 括将匹配到的各需求识别模板中准确率和/或召回率满足预设要求的需求识别模 板对应的需求类型确定为所述待识别query的需求类型;或者,将匹配到的各需求识别模板中准确率和/或召回率排在前N个的需求识别模板对应的需求类型确定为所述待识别query的需求类型,所述N为预设的正整数;或者,根据匹配到的各需求识别模板的准确率和/或召回率对应的需求级别,确定所述 待识别query在各需求类型上的需求级别。一种需求识别模板的自动挖掘装置,该装置包括第一选择单元,用于在搜索日志中确定预设类型的网页被点击时对应的query集第二选择单元,用于从所述query集合中选择对应所述预设类型的网页被点击的 总次数超过预设次数阈值,和/或,对应所述预设类型的网页点击比超过预设点击比阈值 的query,将选择的query作为所述预设类型的种子query,其中query对应的所述预设类 型的网页点击比为该query对应所述预设类型的网页被点击的总次数与该query对应所 有网页被点击的总次数的比值;标记替换单元,用于将各种子query分别与所述预设类型的词典进行匹配,将种 子query中匹配到词典的词语替换成词典中对应词语的属性标记后,得到所述预设类型的 模板集合,所述词典包括词语和词语的属性标记;模板确定单元,用于利用所述预设类型的模板集合确定所述预设类型的需求识别 模板。根据本专利技术一优选实施例,所述第一选择单元具体确定搜索日志中网页的类型, 收集所述预设类型的网页,并确定所述预设类型的网页被点击时对应的所有query构成所 述query集合;或者,确定预设类型的站点,将搜索日志中属于所述预设类型的站点的网页被点击时对 应的所有query构成所述query集合。根据本专利技术一优选实施例,所述词典中的词语包括命名实体和所述预设类型的 特征词。根据本专利技术一优选实施例,该装置还包括权值计算单元,用于计算所述模板集合 中各模板的准确率和/或召回率;其中,模板的准确率为该模板所覆盖query对应所述预设类型的网页点击比之 和与该模板所覆盖query的数量的比值;模板的召回率为该模板所覆盖query的数量与所述预设类型的种子query数量 的比值。根据本专利技术一优选实施例,所述模板确定单元将所述模板集合中的各模板确定为 所述预设类型的需求识别模板;或者,从所述模板集合中选择准确本文档来自技高网...

【技术保护点】
一种需求识别模板的自动挖掘方法,其特征在于,该方法包括:S1、在搜索日志中确定预设类型的网页被点击时对应的query集合;S2、从所述query集合中选择对应所述预设类型的网页被点击的总次数超过预设次数阈值,和/或,对应所述预设类型的网页点击比超过预设点击比阈值的query,将选择的query作为所述预设类型的种子query,其中query对应的所述预设类型的网页点击比为:该query对应所述预设类型的网页被点击的总次数与该query对应所有网页被点击的总次数的比值;S3、将各种子query分别与所述预设类型的词典进行匹配,将种子query中匹配到词典的词语替换成词典中对应词语的属性标记后,得到所述预设类型的模板集合,所述词典包括词语和词语的属性标记;S4、利用所述预设类型的模板集合确定所述预设类型的需求识别模板。

【技术特征摘要】
1.一种需求识别模板的自动挖掘方法,其特征在于,该方法包括51、在搜索日志中确定预设类型的网页被点击时对应的query集合;52、从所述query集合中选择对应所述预设类型的网页被点击的总次数超过预设次数阈值,和/或,对应所述预设类型的网页点击比超过预设点击比阈值的query,将选择的query作为所述预设类型的种子query,其中query对应的所述预设类型的网页点击比为该query对应所述预设类型的网页被点击的总次数与该query对应所有网页被点击的总次数的比值;53、将各种子query分别与所述预设类型的词典进行匹配,将种子query中匹配到词典的词语替换成词典中对应词语的属性标记后,得到所述预设类型的模板集合,所述词典包括词语和词语的属性标记;54、利用所述预设类型的模板集合确定所述预设类型的需求识别模板。2.根据权利要求1所述的方法,其特征在于,所述步骤SI具体包括确定搜索日志中网页的类型,收集所述预设类型的网页,并确定所述预设类型的网页被点击时对应的所有query构成所述query集合;或者,确定预设类型的站点,将搜索日志中属于所述预设类型的站点的网页被点击时对应的所有query构成所述query集合。3.根据权利要求1所述的方法,其特征在于,所述词典中的词语包括命名实体和所述预设类型的特征词。4.根据权利要求1所述的方法,其特征在于,该方法还包括计算所述模板集合中各模板的准确率和/或召回率;其中,模板的准确率为该模板所覆盖query对应所述预设类型的网页点击比之和与该模板所覆盖query的数量的比值;模板的召回率为该模板所覆盖query的数量与所述预设类型的种子query数量的比值。5.根据权利要求4所述的方法,其特征在于,所述步骤S4具体包括将所述模板集合中的各模板确定为所述预设类型的需求识别模板;或者,从所述模板集合中选择准确率高于预设准确率阈值,和/或,召回率高于预设召回率阈值的模板,作为所述预设类型的需求识别模板。6.一种需求识别方法,其特征在于,该需求识别方法包括Al、将待识别query分别与各预设类型的词典进行匹配,将所述待识别query中匹配到词典的词语替换成词典中对应词语的属性标记,得到所述待识别query的语义标注,所述词典包括词语和词语的属性标记;A2、将所述待识别query的语义标注分别与各预设类型的需求识别模板进行匹配,利用匹配到的需求识别模板对应的类型确定所述待识别query的需求类型;其中,各预设类型的需求识别模板是通过如权利要求1至5任一权项所述的方法自动挖掘出的。7.根据权利要求6所述的需求识别方法,其特征在于,所述词典中的词语包括命名实体和对应预设类型的特征词。8.根据权利要求6所述的需求识别方法,其特征在于,在所述步骤Al中,如果所述待识别query中存在同一个词语匹配到多个词典的词语,则利用匹配到的多个词典的词语的属性标记分别进行替换,得到多个所述待识别query的语义标注。9.根据权利要求6或8所述的需求识别方法,其特征在于,如果各预设类型的需求识别模板是通过如权利要求4所述的方法挖掘出的,则在所述待识别query的语义标注匹配到多个需求识别模板时,在所述步骤A2中进一步结合匹配到的各需求识别模板的准确率和/或召回率确定所述待识别query的需求类型。10.根据权利要求9所述的需求识别方法,其特征在于,在所述步骤A2中确定所述待识别query的需求类型包括将匹配到的各需求识别模板中准确率和/或召回率满足预设要求的需求识别模板对应的需求类型确定为所述待识别query的需求类型;或者,将匹配到的各需求识别模板中准确率和/或召回率排在前N个的需求识别模板对应的需求类型确定为所述待识别query的需求类型,所述N为预设的正整数;或者,根据匹配到的各需求识别模板的准确率和/或召回率对应的需求级别,确定所述待识别query在各需求类型上的需求级别。11.一种需求识别模板的自动挖掘装置,其特征在于,该装置...

【专利技术属性】
技术研发人员:黄际洲柴春光
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1