一种用于基于目标应用获取目标词条的方法与获取设备技术

技术编号:5428163 阅读:176 留言:0更新日期:2012-04-11 18:40
本发明专利技术的目的是提供一种用于基于目标应用获取目标词条的方法与获取设备。其中,获取设备获取候选词条,并根据所述候选词条,并结合目标应用的应用属性,获得所述候选词条的应用属性值,再根据所述应用属性值,按照所述目标应用的应用属性的属性阈值,对所述候选词条进行过滤处理,以获得与所述候选词条相对应的目标词条。与现有技术相比,本发明专利技术的目标应用可以有多个,避免对共有的目标应用的应用属性或者大部分目标应用所具有的应用属性的相应应用属性值的重复计算;具有可拓展性,当开发新的目标应用时,同时根据其相应的应用属性对候选词条计算应用属性值即可,最大限度的覆盖了现有的或者以后可能会有的目标应用的应用属性。

【技术实现步骤摘要】

本专利技术涉及自然语言处理
,尤其涉及一种用于基于目标应用获取目标词 条的技术。
技术介绍
现有的分词技术,多是根据词典、语义分析或者概率模型等方法对句子或者片段 进行切分,从而获得切分后的词条。例如,基于词典的最大正向匹配法、最大反向匹配法,基 于字标注的最大熵模型、条件随机域模型等,根据上述方法提取的词条如果不经过相应的 处理而直接加入相关词库中,将不能完全符合实际需要。在实际应用中,根据目标应用的不同,其所需要的词条也不同。例如,当目标应用 是输入法时,词条的排序反映了用户的需求,通常输入法是按照词条的通用频次信息来排 序,但是有时候用户的需求是一些新词,或者有了新含义的旧词,这类词条的频次可能没有 普通常用词高,此时需要结合突发度和热度对这类词条进行排序。当目标应用是信息搜索 时,词条的紧密度要求更高,通常希望词条是“紧密不可拆分”的,这样既可以保证搜索结果 的相关性,又可以保证召回率;但是这种情况并不是绝对的,有些词条虽然频次很高、很常 用,但不是“紧密不可拆分”的,比如“兽兽门”,将其作为“一个词”以后,与“兽兽艳照门”相 对应的搜索结果将无法召回。因此,如何提供本文档来自技高网...

【技术保护点】
一种计算机实现的用于基于目标应用获取目标词条的方法,该方法包括以下步骤:a获取候选词条;b根据所述候选词条,并结合目标应用的应用属性,获得所述候选词条的应用属性值;c根据所述应用属性值,按照所述目标应用的应用属性的属性阈值,对所述候选词条进行过滤处理,以获得与所述候选词条相对应的目标词条。

【技术特征摘要】
1.一种计算机实现的用于基于目标应用获取目标词条的方法,该方法包括以下步骤 a获取候选词条;b根据所述候选词条,并结合目标应用的应用属性,获得所述候选词条的应用属性值; c根据所述应用属性值,按照所述目标应用的应用属性的属性阈值,对所述候选词条进 行过滤处理,以获得与所述候选词条相对应的目标词条。2.根据权利要求1所述的方法,其中,所述应用属性包括以下至少任一项 -热度;-突发度; -紧密度; -用户接受度; -类别置信度。3.根据权利要求2所述的方法,其中,所述应用属性包括热度; 其中,所述步骤b还包括-根据所述候选词条在预定统计对象中的出现频次,获得所述候选词条的热度值。4.根据权利要求2或3所述的方法,其中,所述应用属性包括突发度; 其中,所述步骤b还包括-根据所述候选词条在所述预定统计对象中的出现频次的变化,获得所述候选词条的突发度值。5.根据权利要求2至4中任一项所述的方法,其中,所述应用属性包括紧密度; 其中,所述步骤b还包括-根据所述候选词条的词元在所述预定统计对象中连续出现的次数与共同出现的次 数,获得所述候选词条的紧密度值。6.根据权利要求3至5中任一项所述的方法,其中,所述预定统计对象包括以下至少任 一项-用户查询日志; -新闻库; -网页库; -论坛库。7.根据权利要求2至6中任一项所述的方法,其中,所述应用属性包括用户接受度; 其中,所述步骤b还包括-根据用户点击基于所述候选词条的搜索结果的次数,以及在用户点击的搜索结果中 所述候选词条的词元连续出现的次数,获得所述候选词条的用户接受度值。8.根据权利要求2至7中任一项所述的方法,其中,所述应用属性包括类别置信度; 其中,所述步骤b还包括-根据所述候选词条的相关文本,获得所述候选词条的类别置信度值; 其中,所述相关文本包括以下至少任一项 -基于所述候选词条的搜索结果; -包括所述候选词条的用户查询日志。9.根据权利要求1至8中任一项所述的方法,其中,所述目标应用包括以下至少任一项-输入法; -信息搜索; -关键词广告推广。10.根据权利要求9所述的方法,其中,所述目标应用包括输入法; 其中,所述目标应用的应用属性包括以下至少任一项-所述候选词条的热度; -所述候选词条的突发度。11.根据权利要求9或10所述的方法,其中,所述目标应用还包括信息搜索; 其中,所述目标应用的应用属性包括以下至少任一项-所述候选词条的热度; -所述候选词条的突发度; -所述候选词条的紧密度; -所述候选词条的用户接受度; -所述候选词条的类别置信度。12.根据权利要求9至11中任一项所述的方法,其中,所述目标应用还包括关键词广告 推广;其中,所述目标应用的应用属性包括以下至少任一项-所述候选词条的热度;-所述候选词条的突发度;-所述候选词条的紧密度;-所述候选词条的用户接受度;-所述候选词条的类别置信度。13.根据权利要求1至12中任一项所述的方法,其中,所述步骤c还包括-按照所述目标应用的应用属性的属性阈值,结合预设词库,对所述候选词条进行过滤 处理,以获得与所述候选词条相对应的目标词条。14.根据权利要求1至13中任一项所述的方法,其中,该方法还包括 -对所述候选词条进行预处理,以获得预处理后的候选词条;其中,所述步骤b还包括-根据所述预处理后的候选词条,并结合目标应用的应用属性,获得所述候选词条的所 述应用属性值。15.一种用于基于目标应用获取目标词条的获取设备,该获取设备包括 获取装置,用...

【专利技术属性】
技术研发人员:忻舟王强
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1