一种指令识别方法及系统技术方案

技术编号:13776433 阅读:79 留言:0更新日期:2016-09-30 23:43
本发明专利技术涉及一种指令识别方法,其特征在于,包括步骤:S1,对指令采用两种方法进行切分,得到两种切分结果;S2,判断切分结果是否相同;S3,确定歧义字段、消除歧义,得到最终切分结果;S4,将最终切分结果进行指标量化,得到关键词;S5,将关键词与分类关联表进行匹配;S6,判断是否每一个关键词能够与分类关联表中类别进行匹配;S7,对无法匹配的关键词进行分类;S8,确定指令最终分类。本发明专利技术实现了对用户搜索请求的指令识别;通过对用户搜索请求进行分词处理,提取关键词以及对搜索请求进行分类处理,获知用户搜索指令所属类别,进而得到用户现时需求。

【技术实现步骤摘要】

本专利技术涉及数据分类领域,具体涉及一种指令识别方法及系统。技术背景随着实时营销的不断发展,对用户需求分析成为及其重要的一部分。通过对用户搜索请求进行语义识别,分析挖掘其请求,获取用户现时需求,从而可向用户实时推送相关需求内容。语义识别,就是对用户搜索内容文字进行分词处理,获取有效关键词并对关键词进行分类处理,进而得出用户需求类别。所谓分词,就是将句子切分成一个一个单独的词。是将连续的句子按照一定的规范重新组合成词序列的过程。以中文分词技术为例,分词技术的目标就是将一句话切分为一个一个单独的中文词语。而将句子切分为单独的词,是实现机器识别人类语言的第一步,因此分词技术至关重要。所谓关键词,就是对分词处理后获得的所有词语进行重要性分析,超过重要性阀值的词语即为关键词。但是目前的指令分析、指令识别技术对用户指令分析的不够准确,基于这种不够准确的分析、识别技术所得到的结论进行的后期处理也会产生较大的偏差。鉴于上述缺陷,本专利技术创作者经过长时间的研究和实践终于获得了本专利技术。
技术实现思路
为解决上述技术缺陷,本专利技术采用的技术方案在于,提供包括步骤:S1,对指令采用两种方法进行切分,得到两种切分结果;S2,判断切分结果是否相同,若否,则执行下述步骤S3;若是,则得到最终切分结果,执行下述步骤S4;S3,确定切分方式分歧,消除分歧得到最终切分结果;S4,将最终切分结果进行指标量化,得到若干关键词;S5,将关键词与分类关联表进行匹配;S6,判断每一个关键词是否能够与分类关联表中类别进行匹配,若否,执行下述步骤S7;若是,执行下述步骤S8;S7,对无法匹配的关键词进行分类;S8,确定指令最终分类。较佳的,所述步骤S1中,所述两种方法分别为正向最大匹配法与逆向最大匹配法。较佳的,所述步骤S3具体为:确定两种切分结果出现分歧的分歧字段位置,对该分歧字段位置进行支持性判定,选定支持度因子较高的切分方法对应的切分结果作为最终切分结果。较佳的,所述步骤S3中,所述支持度因子通过下式确定: S ( 1 / 23 ) = S ( 123 ) S ( 23 ) , ]]> S ( 12 / 3 ) = S ( 123 ) S ( 12 ) , ]]>其中,S(123)为信息库中字段1、字段2、字段3同时出现的概率,S(12)为字段1与字段2同时出现的概率,S(23)为字段2与字段3同时出现的概率,S(1/23)为将字段123切分为1/23情况的支持度因子,S(12/3)为将字段123切分为12/3情况的支持度因子。较佳的,还包括将无法匹配关键词的分类结果写入分类关联表的步骤。较佳的,所述步骤S7具体为:将与分类关联表中词语无法获得匹配的关键词转化为关键词词向量,将分类关联表中的所有类别转换成类别词向量,以类别词向量为中心,对关键词词向量进行K均值聚类,再根据设定的聚类结果,将无法匹配的关键词进行分类。一种实现所述方法的指令识别系统,包括,一双向分词模块,用于对指令采用两种方法进行切分,得到两种切分结果;一分词判断模块,用于判定切分结果是否相同;一分歧消除模块,用于确定切分方式分歧,消除分歧得到最终切分结果;一重要性统计模块,用于将切分结果进行指标量化,得到关键词;一关联表匹配模块,用于将关键词与分类关联表进行匹配;一匹配判断模块,用于判断每一个关键词是否能够与分类关联表中类别进行匹配;一聚类分类单元,用于对无法匹配的关键词进行分类;一分类确定单元,用于确定指令最终分类。较佳的,还包括一更新模块,用于将无法匹配关键词的分类结果写入分类关联表。与现有技术相比较,本专利技术的有益效果在于:本专利技术实现了对用户搜索请求的指令识别;通过对用户搜索请求进行分词处理,提取关键词以及对搜索请求进行分类处理,获知用户搜索指令所属类别,进而得到用户现时需求;运用两种分词法进行分词以及根据量化法消除歧义,使分词结果更加准确无误;运用关联表匹配及聚类进行分类,使分类更加速度,更加准确;为实时营销提供快速准确的用户需求。附图说明图1为本专利技术所述指令识别方法流程图。具体实施方式为便于本领域技术人员对本专利技术的技术方案和有益效果进行理解,特结合附图对具体实施方式进行如下描述。本专利技术所述的指令识别方法,包括如下步骤:S1:对指令采用两种方法进行切分,得到两种切分结果;获取用户搜索请求,对其分别运用两种不同的方法进行分词,获得相应切分结果,因为同时存在使用两种不同的匹配方法进行分词,所以存在两种分类结构相同以及两种分类结果不同的情况,所以,在步骤S1结束后,进入步骤S2的判断步骤。优选的,所述步骤S1采用的两种不同方法为正向最大匹配法与逆向最大匹配法。正向最大匹配法与逆向最大匹配法分别从正向、逆向匹配词汇,得到分类结果,以“美宝莲的口红怎么样”为例,正向最大匹配法从正向最大开始匹配,逐渐滤掉不是词汇的构成方式,例如:“美宝莲的口红怎么样”不是一个词,将“样”字去掉,仍然不是一个词,如此经过多次最后一个字的删除,得到“美宝莲”是单独的词,从而得到“美宝莲/的/口红/怎么样”这个切分结果;对于逆向最大匹配法,先判断“美宝莲的口红怎么样”不是一个词,将“美”去掉,再判断仍然不是一个词,再分两次将“宝”“莲”去掉,每次从前面删除一个字,得到“怎么样”是获得的第一个词;再对“美宝莲的口红”进行逆向最大匹配,从而得到逆向最大匹配的切分结果“美宝莲/的/口红/怎么样”S2:判断切分结果是否相同;判断步骤S1中根据不同的匹配算法得到的切分结果是否相同,若是,则得到最终切分结果,执行步骤S4,若否,则执行步骤S3。S3:确定切分方式分歧,消除分歧得到最终切分结果;若所述步骤S2中确定切分结果不同,则能够判定,本次需要进行切分的指令是存在分歧的,对于这种具有分歧的词汇,得到了两种不同的切分结果,步骤S3对于这两种不同的切分结果进行对比、评判,通过人工判别或者算法判别选取更合理的切分方法,将该切分方法得到的切分结果确定为最终切分结果,并执行步骤S4。S4:将最终切分结果进行指标量化,得到若干关键词。对最终切分结果进行指标量化,赋予最终切分结果一个可以衡量的参数,并且根据该参数进行排序,取较优的作为关键词。例如,可以对切分结果进行重要程度排序、针对程度排序、频率排序、期望值排序等,这里给出重要程度排序的方法:对确定的切分结果中所有词语运用TF-I DF算法计算词语重要程度,根据本文档来自技高网...

【技术保护点】
一种指令识别方法,其特征在于,包括步骤:S1,对指令采用两种方法进行切分,得到两种切分结果;S2,判断切分结果是否相同,若否,则执行下述步骤S3;若是,则得到最终切分结果,执行下述步骤S4;S3,确定切分方式分歧,消除分歧得到最终切分结果;S4,将最终切分结果进行指标量化,得到若干关键词;S5,将关键词与分类关联表进行匹配;S6,判断每一个关键词是否能够与分类关联表中类别进行匹配,若否,执行下述步骤S7;若是,执行下述步骤S8;S7,对无法匹配的关键词进行分类;S8,确定指令最终分类。

【技术特征摘要】
1.一种指令识别方法,其特征在于,包括步骤:S1,对指令采用两种方法进行切分,得到两种切分结果;S2,判断切分结果是否相同,若否,则执行下述步骤S3;若是,则得到最终切分结果,执行下述步骤S4;S3,确定切分方式分歧,消除分歧得到最终切分结果;S4,将最终切分结果进行指标量化,得到若干关键词;S5,将关键词与分类关联表进行匹配;S6,判断每一个关键词是否能够与分类关联表中类别进行匹配,若否,执行下述步骤S7;若是,执行下述步骤S8;S7,对无法匹配的关键词进行分类;S8,确定指令最终分类。2.如权利要求1所述的指令识别方法,其特征在于,所述步骤S1中,所述两种方法分别为正向最大匹配法与逆向最大匹配法。3.如权利要求1所述的指令识别方法,其特征在于,所述步骤S3具体为:确定两种切分结果出现分歧的分歧字段位置,对该分歧字段位置进行支持性判定,选定支持度因子较高的切分方法对应的切分结果作为最终切分结果。4.如权利要求3所述的指令识别方法,其特征在于,所述步骤S3中,所述支持度因子通过下式确定: S ( 1 / 23 ) = S ( 123 ) S ( 23 ) , ]]> S ( 12 / 3 ) = S ( ...

【专利技术属性】
技术研发人员:李青海简宋全侯大勇邹立斌
申请(专利权)人:广州精点计算机科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1