关键词查找方法、装置及终端制造方法及图纸

技术编号:17467280 阅读:36 留言:0更新日期:2018-03-15 04:52
本发明专利技术提供了一种关键词查找方法、装置及终端。其中,该关键词查找方法包括:在一个或多个与关键词长度相同的字符串中获取与所述关键词的字符串属性相同的一个或多个指定字符串;判断所述一个或多个指定字符串的相邻字符是否属于所述关键词的取值范围;在判断结果为否的情况下,确定所述指定字符串为目标关键词。通过本发明专利技术,解决了相关技术中查到用户所需的关键词过程中存在的识别过程复杂且遗漏较多的问题,从而达到了实现流程简单,以及保证了在关键词查找时的低遗漏率以及避免非目标关键词影响的效果。

Keyword lookup methods, devices and terminals

The present invention provides a keyword search method, a device and a terminal. Among them, including the keyword search method: get the string attribute with the keyword of the same one or more of the specified string in a string of one or more keywords with the same length in the range of adjacent characters; whether the one or more of the specified string is the keyword in the judgment result; is not the case, determine the specified string for the target keywords. The invention solves the identification process of existing processes needed to check the user keywords related technology in the complex and omitted many problems, so as to realize the simple process and ensure low omissions in the keyword search and the rate to avoid the influence of the non target keywords.

【技术实现步骤摘要】
关键词查找方法、装置及终端
本专利技术涉及通信领域,具体而言,涉及一种关键词查找方法、装置及终端。
技术介绍
传统的文本信息内容识别技术大致分为两类:一类是部分匹配,一类是全词匹配。其中,部分匹配方法,即匹配所有包含该字符串的文本。优点是不会漏识别,缺点是会出现匹配过多的情况,匹配结果中会出现大量的干扰信息。比如下面的文本:“Methodandapparatusforlongestprefixmatchingbased(on)atree.”我们如果要匹配其中的英文单词“on”,用字符串匹配,longest,(on)都会被识别出来,并且文本内容越多,匹配的字符串越短,这种干扰信息就越多。而全词匹配方法,一般是用空格作为分词标准,但是实际语境用来分隔单词的符号很多,这种方法容易遗漏识别,比如上面的例子,用全词匹配方法是识别不了(on)的。相关技术中是通过将这些分隔符替换为空格,但是实际场景中分隔符种类非常繁多,并且不仅仅局限于标点符号。特别是当有人恶意规避内容识别,用数字、其他语种文字、甚至是不可见字符来做间隔时,还是会出现漏识别的情况。这种方法治标不治本,比较被动。因此,在相关技术中,本文档来自技高网...
关键词查找方法、装置及终端

【技术保护点】
一种关键词查找方法,其特征在于,包括:在一个或多个与关键词长度相同的字符串中获取与所述关键词的字符串属性相同的一个或多个指定字符串;判断所述一个或多个指定字符串的相邻字符是否属于所述关键词的取值范围;在判断结果为否的情况下,确定所述指定字符串为目标关键词。

【技术特征摘要】
1.一种关键词查找方法,其特征在于,包括:在一个或多个与关键词长度相同的字符串中获取与所述关键词的字符串属性相同的一个或多个指定字符串;判断所述一个或多个指定字符串的相邻字符是否属于所述关键词的取值范围;在判断结果为否的情况下,确定所述指定字符串为目标关键词。2.根据权利要求1所述的方法,其特征在于,在一个或多个与关键词长度相同的字符串中获取与所述关键词的字符串属性相同的一个或多个指定字符串之前,所述方法还包括:确定所述关键词的取值范围,并计算关键词长度以及所述关键词所在文本的长度;从所述文本的首个字符开始,依据所述关键词长度以及文本长度,将所述文本切分为所述一个或多个与关键词长度相同的字符串;计算所述一个或多个与关键词长度相同的字符串的字符串属性。3.根据权利要求2所述的方法,其特征在于,将所述文本切分为所述一个或多个与关键词长度相同的字符串,包括:从所述文本的首个字符开始,按照预定步长,依次截取长度为所述关键词长度的字符串;当截取的字符串长度小于所述关键词长度时,抛弃该字符串并结束截取。4.根据权利要求1所述的方法,其特征在于,判断所述一个或多个指定字符串的相邻字符是否属于所述关键词的取值范围,包括:在所述关键词位于所述一个或多个与关键词长度相同的字符串所在文本的头部时,所述相邻字符为与所述指定字符串的尾部相邻的字符;在所述关键词位于所述一个或多个与关键词长度相同的字符串所在文本的尾部时,所述相邻字符为与所述指定字符串的头部相邻的字符。5.根据权利要求1所述的方法,其特征在于,所述方法还包括:在判断结果为是的情况下,确定所示指定字符串为干扰关键词。6.根据权利要求1所述的方法,其特征在于,所述字符串属性至少包括:字符串的哈希值,字符串中字符编码值。7.一种关键词...

【专利技术属性】
技术研发人员:黄建
申请(专利权)人:南京中兴新软件有限责任公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1