一种关键词的确定方法及装置制造方法及图纸

技术编号:11319809 阅读:82 留言:0更新日期:2015-04-22 09:15
本发明专利技术实施例公开了一种关键词的确定方法及装置,该方法包括:获得待搜索词条;根据预设的顺序字符分割规则,对用户的待搜索词条进行分割,得到待搜索子词条集合;其中,所述待搜索子词条集合中包括至少一个待搜索子词条,且所述待搜索子词条为所述待搜索词条中的部分内容或全部内容;在预先存储的至少包括一个目标子词条的目标词包中,查找与所得到的待搜索子词条集合中的待搜索子词条相同的目标子词条;在查找到所述相同的目标子词条后,将查找到的所述相同的目标子词条确定为所述待搜索词条所对应的关键词。本发明专利技术实施例的方法提高了数据处理速度,且确定的关键词准确度变高。

【技术实现步骤摘要】

本专利技术实施例涉及关键词领域,特别涉及一种关键词的确定方法及装置
技术介绍
随着大数据的增加,用户对处理大数据方法的要求也越来越高。在实际应用中,经常会有一种需求,就是确定用户的待搜索词条与给定的词包中存在的相同的词条,以下将这些相同的词条称为关键词,确定出的关键词可以被用来分析用户的行为特点、向用户推荐信息等。现有的确定关键词的方法有以下两种:第一,通过循环给定的词包中的子词条的方式在用户的待搜索词条中查找相同的子词条,进而将查找到的相同的子词条确定为关键词,例如:一个用户的待搜索词条为“名字是李明明”,词包中有1000个词条,那么就需要将词包中的每个子词条都在待搜索词条中进行查找,这样,就查找了 1000次,这只是对于一条待搜索词条,对于多条待搜索词条来说,查找的次数会更多,查找次数的增多使得查找算法繁杂度增加,查找时间增长使得数据处理速度变慢。第二,通过循环待搜索词条分词后的子词条的方式在给定的词包中查找相同的子词条,进而将查找到的相同的子词条确定为关键词,分词时是依据由语料训练得到的语料库中的词条分割待搜索词条,如上面的例子,语料库中可能有“名字”、“是”、“李明明”等词条,“名字是李明明”分词后可以为“名字”、“是”、“李明明”,此方法是“名字”、“是”、“李明明”这三个子词条分别在词包中查找是否存在相同的子词条,只需要查找三次,与第一种方法相比,查找次数的明显减少使得算法繁杂度降低,查找时间的缩短使得数据处理速度变快,但是现有的分词受语料库中的词条的限制,往往会出现一些分词后的子词条不符合原待搜索词条的词意的情况,如果语料库中没有“李明明”,而有“李明”、“明”等词条,上述的“名字是李明明”分词后可以为“名字”、“是”、“李明” “明”,这样给定的词包中如果有“李明”,则“李明”将会被确定为关键词,显然,“李明”与原待搜索词条中的“李明明”的词意不同,这样就直接影响确定的关键词的准确性。综上所述,如何快速且准确的确定关键词成为一个亟待解决的问题。
技术实现思路
基于上述问题,本专利技术实施例公开了一种关键词的确定方法及装置,能够快速且准确的确定关键词。技术方案如下:第一方面,本专利技术实施例提供了一种关键词的确定方法,包括:获得待搜索词条;根据预设的顺序字符分割规则,对用户的待搜索词条进行分割,得到待搜索子词条集合;其中,所述待搜索子词条集合中包括至少一个待搜索子词条,且所述待搜索子词条为所述待搜索词条中的部分内容或全部内容; 在预先存储的至少包括一个目标子词条的目标词包中,查找与所得到的待搜索子词条集合中的待搜索子词条相同的目标子词条;在查找到所述相同的目标子词条后,将查找到的所述相同的目标子词条确定为所述待搜索词条所对应的关键词。可选的,所述在预先存储的至少包括一个目标子词条的目标词包中,查找与所得到的待搜索子词条集合中的待搜索子词条相同的目标子词条,包括:在预先存储于哈希表的至少包括一个目标子词条的目标词包中,查找与所得到的待搜索子词条集合中的待搜索子词条相同的目标子词条。可选的,所述目标词包中最长的目标子词条的长度通过max-length表示,所述目标词包中最短的目标子词条的长度通过min-length表示;则所述根据预设的顺序字符分割规则,对用户的待搜索词条进行分割,得到待搜索子词条集合之后,且所述在预先存储的至少包括一个目标子词条的目标词包中,查找与所得到的待搜索子词条集合中的待搜索子词条相同的目标子词条之前,还包括:统计所得到的待搜索子词条集合中的每个待搜索子词条的长度;将统计的待搜索子词条的长度大于max-length和小于min-length的待搜索子词条从所述待搜索子词条集合中去除;则所述在预先存储的至少包括一个目标子词条的目标词包中,查找与所得到的待搜索子词条集合中的待搜索子词条相同的目标子词条,包括:在预先存储的至少包括一个目标子词条的目标词包中,查找与去除后得到的待搜索子词条集合中的待搜索子词条相同的目标子词条。可选的,所述目标词包中包括至少一个目标子词包,其中,所述目标子词包包括单一长度的目标子词条,不同目标子词包括中的目标子词条的长度不同;则所述根据预设的顺序字符分割规则,对用户的待搜索词条进行分割,得到待搜索子词条集合之后,且所述在预先存储的至少包括一个目标子词条的目标词包中,查找与所得到的待搜索子词条集合中的待搜索子词条相同的目标子词条之前,还包括:统计所得到的待搜索子词条集合中的每个待搜索子词条的长度;将具有相同长度的待搜索子词条归到一个等长待搜索子词条集合中,以使得每个等长待搜索子词条集合中都包括单一长度的待搜索子词条;则在预先存储的至少包括一个目标子词条的目标词包中,查找与所得到的待搜索子词条集合中的待搜索子词条相同的目标子词条,包括:在预先存储的每个目标子词包中分别查找与对应的具有相同长度的等长待搜索子词条集合中的待搜索子词条相同的目标子词条。可选的,还包括:将所确定的关键词突出显示。可选的,还包括:向用户推送与所述关键词相关的信息。第二方面,本专利技术实施例还提供了一种关键词的确定装置,包括:获得单元,用于获得待搜索词条;分割单元,用于根据预设的顺序字符分割规则,对用户的待搜索词条进行分割,得到待搜索子词条集合;其中,所述待搜索子词条集合中包括至少一个待搜索子词条,且所述待搜索子词条为所述待搜索词条中的部分内容或全部内容;查找单元,用于在预先存储的至少包括一个目标子词条的目标词包中,查找与所得到的待搜索子词条集合中的待搜索子词条相同的目标子词条;确定单元,用于在查找到所述相同的目标子词条后,将查找到的所述相同的目标子词条确定为所述待搜索词条所对应的关键词。可选的,所述查找单元,具体用于:在预先存储于哈希表的至少包括一个目标子词条的目标词包中,查找与所得到的待搜索子词条集合中的待搜索子词条相同的目标子词条。可选的,所述目标词包中最长的目标子词条的长度通过max-length表示,所述目标词包中最短的目标子词条的长度通过min-length表示;则所述分割单元触发后,且查找单元触发前,还包括:统计单元,用于统计所得到的待搜索子词条集合中的每个待搜索子词条的长度;去除单元,用于将统计的待搜索子词条的长度大于max-length和小于min-length的待搜索子词条从所述待搜索子词条集合中去除;则所述查找单元,具体用于:在预先存储的至少包括一个目标子词条的目标词包中,查找与去除后得到的待搜索子词条集合中的待搜索子词条相同的目标子词条。可选的,所述目标词包中包括至少一个目标子词包,其中,所述目标子词包包括单一长度的目标子词条,不同目标子词包括中的目标子词条的长度不同;则所述分割单元触发后,且查找单元触发前,还包括:统计单元,统计所得到的待搜索子词条集合中的每个待搜索子词条的长度;归类单元,用于将具有相同长度的待搜索子词条归到一个等长待搜索子词条集合中,以使得每个等长待搜索子词条集合中都包括单一长度的待搜索子词条;则所述查找单元,具体用于:在预先存储的每个目标子词包中分别查找与对应的具有相同长度的等长待搜索子词条集合中的待搜索子词条相同的目标子词条。可选的,还包括:显示单元,用于将所确定的关键词突出显示。可选的,还包括:推送单元,用于向用户推送本文档来自技高网
...

【技术保护点】
一种关键词的确定方法,其特征在于,包括:获得待搜索词条;根据预设的顺序字符分割规则,对用户的待搜索词条进行分割,得到待搜索子词条集合;其中,所述待搜索子词条集合中包括至少一个待搜索子词条,且所述待搜索子词条为所述待搜索词条中的部分内容或全部内容;在预先存储的至少包括一个目标子词条的目标词包中,查找与所得到的待搜索子词条集合中的待搜索子词条相同的目标子词条;在查找到所述相同的目标子词条后,将查找到的所述相同的目标子词条确定为所述待搜索词条所对应的关键词。

【技术特征摘要】

【专利技术属性】
技术研发人员:郑伟华
申请(专利权)人:北京奇艺世纪科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1