The invention provides a search word segmentation method and a terminal. The method comprises the following steps: according to preset search word segmentation rules, the search term is split into one or more base strings; each basic string is split into one or more search string; the search string is continuous character length basis set in the string; the search string based on the search matching. A search word segmentation method proposed by the invention and terminal to segmentation of the continuous string of numbers or letters in the search word, effectively improve the search string or character string fuzzy matching accuracy.
【技术实现步骤摘要】
一种搜索词的分词方法及终端
本专利技术涉及终端
,尤其涉及一种搜索词的分词方法及终端。
技术介绍
随着互联网技术的快速发展,通过互联网查找信息时,通常在搜索引擎中设置搜索词搜索以获取搜索词相关的信息。但现有的搜索词分词器主要有IK,mmesg4j等。在这些分词器中,对连续的数字或者字母分词时,是将连续的数字或字母整体作为一个分词进行搜索,而不会对连续的数字或字母分词进一步分词。例如,通过IK分词器对搜索词:中国123abc进行分词,得到:中国、123和abc三个分词,其中分词123和abc并不会被再分词。搜索数字或字母时的模糊匹配效果较差。
技术实现思路
本专利技术要解决的技术问题是,提供一种搜索词的分词方法及终端,克服现有技术中不能对搜索词中的连续数字或字母字符串进行分词的缺陷。为实现上述目的,本专利技术提供的一种终端,包括:基础分词模块,用于根据预置的搜索词分词规则,将搜索词拆分为一个或多个基础字符串;搜索分词模块,用于将每个基础字符串拆分为一个或多个搜索字符串;所述搜索字符串为基础字符串中设定长度的连续字符;搜索模块,用于基于所述搜索字符串,进行搜索匹配。 ...
【技术保护点】
一种终端,其特征在于,包括:基础分词模块,用于根据预置的搜索词分词规则,将搜索词拆分为一个或多个基础字符串;搜索分词模块,用于将每个基础字符串拆分为一个或多个搜索字符串;所述搜索字符串为基础字符串中设定长度的连续字符;搜索模块,用于基于所述搜索字符串,进行搜索匹配。
【技术特征摘要】
1.一种终端,其特征在于,包括:基础分词模块,用于根据预置的搜索词分词规则,将搜索词拆分为一个或多个基础字符串;搜索分词模块,用于将每个基础字符串拆分为一个或多个搜索字符串;所述搜索字符串为基础字符串中设定长度的连续字符;搜索模块,用于基于所述搜索字符串,进行搜索匹配。2.根据权利要求1所述的终端,其特征在于,所述基础分词模块,具体用于:判断搜索词中是否存在数字和/或字母;若存在,则将搜索词中连续的数字或连续的字母拆分为一个基础字符串,得到所有基础字符串。3.根据权利要求1或2所述的终端,其特征在于,所述搜索分词模块,具体用于:获取用户预先设置的所述搜索字符串的长度h;将每个基础字符串拆分为k-h+1个搜索字符串;所述搜索字符串为所述基础字符串中第i个字符开始的h个连续字符;其中,所述k为每个基础字符串的长度,所述i的取值范围为[1,k-h+1]。4.根据权利要求1或2所述的终端,其特征在于,所述搜索分词模块,具体用于:获取用户预先设置的所述搜索字符串的长度h;其中,所述h的取值范围为[n,m];所述m小于k;所述n大于0;将每个基础字符串拆分为多个搜索字符串;所述搜索字符串为所述基础字符串中第i个字符开始的h个连续字符;其中,所述k为每个基础字符串的长度,所述i的取值范围为[1,k-h+1]。5.根据权利要求1或2所述的终端,其特征在于,所述搜索分词模块,具体用于:将每个基础字符串拆分为长度为h的多个搜索字符串,所述搜索字符串为所述基础字符串中第i个字符开始的h个连续字符;其中,所述h的取值范围为[1,k],所述i的取值范围为[1,k-h+1],所述k为每个基础字符串的长度。6.一种搜索词的分词方法,其特征在于,包括...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。