一种基于多维度综合词库的分词方法技术

技术编号:10256805 阅读:189 留言:0更新日期:2014-07-25 11:53
本发明专利技术一种基于多维度综合词库的构建方法,选择数据源,并进行使用量统计;根据约束条件选择关键词;为关键词创建多维的维护字段;根据共现关系,获得原始关键词的同义词、以及英文关键词复数的单数形式,完善词库内容;制定中心关键词识别规则,找出原始关键词中包含的中心关键词。本发明专利技术同时公开了一种基于多维度综合词库的搜索分词方法和中心关键词识别方法。在本发明专利技术通过构建一个具有多重维度的综合词库,在词库中采用语义识别技术,识别商品的中心关键词,从而使得匹配有较好的基础。本发明专利技术综合运用字符串匹配分词方法以及基于统计、词库的分词方法,结合自动和人工的方式同时参与词库的维护升级,提高分词准确性。

【技术实现步骤摘要】
一种基于多维度综合词库的分词方法
本专利技术涉及搜索引擎技术中的分词技术,特别是涉及电子商务搜索中的分词方法和对商品信息理解的技术。
技术介绍
随着电子商务高速发展,越来越多的供应商提供了大量的商品在电子商务平台上,进行展现。众多的采购商、购买者要在如此多的商品中,想寻找到符合自己需要的产品,根本离不开电子商务搜索引擎的帮助,只有通过它来搜索商品,才有可能查找、选择产品,从而浏览详细的产品信息。在这种情况下,购买者通过搜索来查找商品,希望搜索结果中的产品不仅要全面,而且要准确,这就对搜索的准确率和查全率提出了更高的要求。而在搜索技术中,分词技术是一项核心技术,不仅仅只是简单的分词,而且涉及到对商品信息的理解,因此分词结果的准确性也影响着搜索结果的准确性。通用搜索引擎有对中英文分词的实现技术,目前常用如下几种技术方法:第一种是基于字符串匹配的分词方法,包括正向匹配法,逆向匹配法,双向匹配法等,按照不同长度优先匹配的方法,又可分为最大匹配法和最小匹配法;第二种是基于统计分析的分词方法,就统计模型来分,包含条件随机场模型和隐马尔科夫模型等。从形式上来看,词是由字组成的,若足够流行和广泛,该词会被固定下来,通过正向和逆向匹配法可能得到不同的分词结果,也可采用其他方法得到更多种分词结果,通过计算分词结果中词或者字之间的共现频率,共现度越高,说明紧密程度越高,越有可能成为最佳的分词结果;第三种是基于特定词库的分词方法,不同领域通常有不同的领域词库,词库中可以标注词的词性,拼音等信息,分词的结果来源于词库中存在的词,基于词库的分词不能独立存在,在确定词库后,需要选择一种分词算法配合。第四种是基于语言理解的分词方法。通过建立不同语言的句法,语法规则库,然后对待分词信息进行句法,语法规则的分析,从而识别信息不同的成分,并在一定程度上消除歧义。在目前常用的开源分词器中,例如,IK分词具有上述基于字符串匹配的分词方法和基于特定词库的分词方法的特点,它将词库打包在jar包中,对词库数据的维护需要重新打包,维护成本较高,并且当发现不准确时,无法对词库进行调整,难以观测分词的效果。基于规则的分词,例如2-4Gram分词,并没有对信息进行理解,属于一种字符串匹配的分词方法。在通常情况下,一般针对英文的分词都是按照空格进行分词,但是在电子商务平台的商品英文名称中,存在这样的情况,有些商品名称的语义具有原子性,其不能拆分,例如haircolor表示染发剂,carcover表示汽车的防护罩,这样商品英文名称需要识别出其原子性短语,因此需要对这些商品名称进行理解,将提取其中原子性短语作为对英文输入串分词一项要求。在电子商务领域中,如果因为业务需要,往往会设计出不同的搜索策略,例如在搜索“电视机”时,希望所有的名称中包含“电视”的商品,所有的名称中包含“tv”的商品也能够被检索出来,在这种情况下,可以将“电视”、“tv”看成是“电视机”的同义词。所以说,分词不只是对信息进行字面上进行切分,而且还涉及到进行理解,以便与搜索时,能够让用户找到自己想找到的产品。另外,歧义词、错词、以及英文中的单复数,都离不开对信息的理解,而目前的基于语言理解的分词方法,虽然在一定程度上消除歧义,但该方法计算复杂度高,出现分词错误后也难以调整,难以满足电子商务搜索实时性的要求。因此,通过分词能解决电子商务搜索分词中对信息理解的误差,提高搜索准确性,并能易于维护分词结果是十分迫切的。
技术实现思路
在本专利技术提供的方案中,通过构建一个具有多重维度的综合词库,该词库由程序批量生成,人工可参与编辑维护,从而达到通过运营词库来提高准确性;在词库中并采用语义识别技术,识别商品的中心关键词,从而使得匹配有较好的基础。本专利技术综合运用了字符串匹配分词方法以及基于统计、词库的分词方法,结合自动和人工的方式同时参与词库的维护升级,从而进一步提高分词准确性。本专利技术采用的技术方案为:一种基于多维度综合词库的构建方法,包括:步骤一、选择数据源,并进行使用量统计;在电子商务平台的搜索日志中,选择用户在一段时间内所使用的搜索关键词,对每日每位用户的搜索关键词进行去重,然后统计每个搜索关键词的每日的用户使用量,将一段时间内搜索关键词的每日的用户使用量进行累加,统计出搜索关键词一段时间内的用户使用量,该用户使用量代表了当前搜索关键词的热点分布;在电子商务平台的商品关键词信息作为数据源,并对同一个供应商的商品关键词进行去重,然后统计有多少供应商在描述商品的过程中使用了该商品关键词,有多少商品使用了该商品关键词,供应商描述商品时使用的关键词越多,表示该商品关键词越热门,竞争程度越激烈;使用某商品关键词的商品越多,表示销售该商品的商家竞争越激烈;步骤二、根据约束条件选择关键词;经过使用量统计,将产生大量关键词的候选集合,对这些候选关键词数据,选择符合一定约束条件的关键词进入词库;步骤三、为关键词创建多维的维护字段;在待维护的关键词选定的基础上,为这些关键词创建待维护的字段,并根据这些字段创建的原则对应把该词库按一定格式标示;步骤四、根据共现关系,获得原始关键词的同义词、以及英文关键词复数的单数形式,完善词库内容;通过每个关键词与其它关键词之间的共现次数,选择共现次数较高的关键词作为同义词,以及关键词复数的单数形式;步骤五、制定中心关键词识别规则,找出原始关键词中包含的中心关键词;针对电子商务行业销售商品的特点,除了通过上述过程构建出电子商务领域词库,以便在分词过程中利用该词库进行分词以外;针对电子商务买卖的是可销售的物品时,提出了一种识别商品中心关键词的一种方法,并将该识别出来的中心关键词作为分词结果的一部分,通过在识别出的中心关键词前加上标志以区分普通的分词结果。本专利技术还公开了一种基于多维度综合词库的搜索分词方法和中心关键词识别方法。本专利技术与现有技术比较的有益效果:1、本专利技术利用统计的方法构建多维度综合词库,并提供人工维护词库的方法,从信息理解的角度对词库从多个维度进行信息扩展,对识别不准确的原始关键词,给出正确的分词方法,并提交至词库中,从而投入较少,也可以获得更加合理的分词结果。2、本专利技术所描述的方法简单易懂,可维护性较高,算法实施高效、可行,对电子商务商品类搜索尤其适用,但不限于电子商务领域搜索。3、本专利技术解决了目前分词方法存在的计算负载性较高、方法单一以及人工可维护性较差的问题。4、本专利技术中的分词方法对语言的使用扩展性强,可以适用于其它语言的分词处理,包括英文,日文,韩文等。附图说明图1是本专利技术的基于多维度综合词库的构建流程图。图2是本专利技术的基于多维度综合词库的分词处理流程图。图3是本专利技术的商品名称的中心关键词的识别方法。具体实施方式以下结合附图和具体实施例对本专利技术作进一步详细说明。本实施例的电子商务领域多维度综合词库构建方法,包括:(1)选择数据源,并进行使用量统计;在电子商务平台上,每天都有大量的用户通过搜索来查找产品,在搜索日志中,选择用户在一段时间内所使用的搜索关键词,对每日每位用户的搜索关键词进行去重,然后统计每个搜索关键词的每日的用户使用量,将一段时间内搜索关键词的每日的用户使用量进行累加,统计出搜索关键词一段时间内的用户使用量,该用户使用量代表了当前搜索关键词的热点分布;在电本文档来自技高网
...
一种基于多维度综合词库的分词方法

【技术保护点】
一种基于多维度综合词库的构建方法,其特征在于,包括:步骤一、选择数据源,并进行使用量统计;在电子商务平台的搜索日志中,选择用户在一段时间内所使用的搜索关键词,对每日每位用户的搜索关键词进行去重,然后统计每个搜索关键词的每日的用户使用量,将一段时间内搜索关键词的每日的用户使用量进行累加,统计出搜索关键词一段时间内的用户使用量,该用户使用量代表了当前搜索关键词的热点分布;在电子商务平台的商品关键词信息作为数据源,并对同一个供应商的商品关键词进行去重,然后统计有多少供应商在描述商品的过程中使用了该商品关键词,有多少商品使用了该商品关键词,供应商描述商品时使用的关键词越多,表示该商品关键词越热门,竞争程度越激烈;使用某商品关键词的商品越多,表示销售该商品的商家竞争越激烈;步骤二、根据约束条件选择关键词;经过使用量统计,将产生大量关键词的候选集合,对这些候选关键词数据,选择符合一定约束条件的关键词进入词库;步骤三、为关键词创建多维的维护字段;在待维护的关键词选定的基础上,为这些关键词创建待维护的字段,并根据这些字段创建的原则对应把该词库按一定格式标示;步骤四、根据共现关系,获得原始关键词的同义词、以及英文关键词复数的单数形式,完善词库内容;通过每个关键词与其它关键词之间的共现次数,选择共现次数较高的关键词作为同义词,以及关键词复数的单数形式;步骤五、制定中心关键词识别规则,找出原始关键词中包含的中心关键词;针对电子商务行业销售商品的特点,除了通过上述过程构建出电子商务领域词库,以便在分词过程中利用该词库进行分词以外;针对电子商务买卖的是可销售的物品时,提出了一种识别商品中心关键词的一种方法,并将该识别出来的中心关键词作为分词结果的一部分,通过在识别出的中心关键词前加上标志以区分普通的分词结果。...

【技术特征摘要】
1.一种多维度综合词库的构建方法,其特征在于,包括:步骤一、选择数据源,并进行使用量统计;在电子商务平台的搜索日志中,选择用户在一段时间内所使用的搜索关键词,对每日每位用户的搜索关键词进行去重,然后统计每个搜索关键词的每日的用户使用量,将一段时间内搜索关键词的每日的用户使用量进行累加,统计出搜索关键词一段时间内的用户使用量,该用户使用量代表了当前搜索关键词的热点分布;在电子商务平台的商品关键词信息作为数据源,并对同一个供应商的商品关键词进行去重,然后统计有多少供应商在描述商品的过程中使用了该商品关键词,有多少商品使用了该商品关键词,供应商描述商品时使用的关键词越多,表示该商品关键词越热门,竞争程度越激烈;使用某商品关键词的商品越多,表示销售该商品的商家竞争越激烈;步骤二、根据约束条件选择搜索关键词;经过使用量统计,将产生大量搜索关键词的候选集合,对这些候选搜索关键词数据,选择符合一定约束条件的搜索关键词进入词库;约束条件包括:●当关键词搜索数量,关键词的供应商使用数量,使用关键词的商品数量超过一定阈值时,这些关键词的分析和使用价值大,将它们添加到词库中,作为待维护的关键词;●过滤掉存在错误的原始关键词;步骤三、为关键词创建多维的维护字段;在待维护的关键词选定的基础上,为这些关键词创建待维护的字段,并根据这些字段创建的原则对应把该词库按一定格式标示;所述字段创建的原则包括:●该关键词是否正确,若错误,那对应的正确关键词是什么;●该关键词是否可以销售,若可以销售,则作为产品的核心关键词;●该关键词的核心关键词是什么;●该关键词是否为原子关键词;●对英文而言,单词的原型是什么;●对于分词结果不满足实际需要的,需要通过“人工切分”来保存正确的切分结果;步骤四、根据共现关系,获得原始关键词的同义词、以及英文关键词复数的单数形式,完善词库内容;通过每个关键词与其它关键词之间的共现次数,选择共现次数高的关键词作为同义词,以及关键词复数的单数形式;步骤五、制定中心关键词识别规则,找出原始关键词中包含的中心关键词;针对电子商务行业销售商品的特点,除了通过上述过程构建出电子商务领域词库,以便在分词过程中利用该词库进行分词以外;针对电子商务买卖的是可销售的物品时,提出了一种识别商品中心关键词的一种方法,并将该识别...

【专利技术属性】
技术研发人员:李仁勇
申请(专利权)人:焦点科技股份有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1