一种词串识别方法和服务器技术

技术编号:19745144 阅读:17 留言:0更新日期:2018-12-12 04:43
本申请提供了一种词串识别方法和服务器,其中,该方法包括:获取多个搜索请求;获取基于所述多个搜索请求而产生的多个购买记录;确定所述多个搜索请求中相邻词汇片段之间的购买关联度,其中,所述购买关联度是如下两个值之比:a)两个词汇片段相邻出现在多个购买记录中的产品标题中的次数;b)所述两个词汇片段相邻出现在多个搜索请求中的次数;根据所述购买关联度,从所述多个搜索请求中识别出一个或多个词串。本方案通过词汇片段之间的购买关联度来识别新词,将用户的购买行为作为识别新词的依据,使得可以达到准确高效识别新词的技术效果。

【技术实现步骤摘要】
一种词串识别方法和服务器
本申请属于互联网
,尤其涉及一种词串识别方法和服务器。
技术介绍
随着电子商务的快速发展,人们越来越多地通过购物网站进行购物。由于文字表述的多可能性,越来越多地词语或出现,特别是新词汇的出现。在购物网站进行类目划分或者是进行目标对象匹配的时候,往往会通过分词词典进行类目划分等等。对于分词词典中没有收录的词可以称为未登陆词,随着品牌名称或者是影视剧等越来越多,新的品牌、影视剧等的出现,也就出现了越来越多的未登陆词。如何有效识别未登陆词,以将其增加至分词词典中,也就成了亟待解决的问题。例如:出现的品牌名等:七彩香袖、佳蒙曼璐等,出现的产品名:虾砖、绿西米等,可能都不在分词词典中,但是这些词的出现频率是很高的,如果将这种类型的词进行识别,并增加到分词词典中,势必可以有效提高对请求处理的速度,以及类目分类的准确性。针对上述问题,目前尚未提出有效的解决方案。
技术实现思路
本申请目的在于提供一种词串识别方法和服务器,可以实现准确高效识别分词词典中未收录的新词的技术效果。本申请提供一种词串识别方法和服务器是这样实现的:一种词串识别方法,所述方法包括:获取多个搜索请求;获取基于所述多个搜索请求而产生的多个购买记录;确定所述多个搜索请求中相邻词汇片段之间的购买关联度,其中,所述购买关联度是如下两个值之比:a)两个词汇片段相邻出现在多个购买记录中的产品标题中的次数;b)所述两个词汇片段相邻出现在多个搜索请求中的次数;根据所述购买关联度,从所述多个搜索请求中识别出一个或多个词串。一种词串识别服务器,包括:处理器,其中:所述处理器用于获取多个搜索请求;获取基于所述多个搜索请求而产生的多个购买记录;确定所述多个搜索请求中相邻词汇片段之间的购买关联度,其中,所述购买关联度是如下两个值之比:a)两个词汇片段相邻出现在多个购买记录中的产品标题中的次数;b)所述两个词汇片段相邻出现在多个搜索请求中的次数;根据所述购买关联度,从所述多个搜索请求中识别出一个或多个词串。一种词串识别方法,所述方法包括:获取多个搜索请求;获取基于所述多个搜索请求而产生的多个用户行为记录;确定所述多个搜索请求中相邻词汇片段之间的关联度,其中,所述关联度是如下两个值之比:a)两个词汇片段相邻出现在多个用户行为记录中的产品描述信息中的次数;b)所述两个词汇片段相邻出现在多个搜索请求中的次数;根据所述关联度,从所述多个搜索请求中识别出一个或多个词串。一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述方法步骤。本申请提供的词串识别方法和服务器,通过搜索请求和购买记录,确定搜索请求中各相邻片段之间的购买关联度,然后基于购买关联度进行新词的识别。因为,引入了购买关联度的概念,将搜索和购买行为作为识别新词的依据,使得可以达到准确高效识别电商平台中新词的技术效果。附图说明为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1是基于规则的新词提取方法示意图;.图2是本申请提供的搜索购买图示意图;图3是本申请提供的新词识别系统的结构示意图;图4是本申请提供的识别服务器的结构示意图;图5是本申请提供的新词识别模块的流程示意图;图6是本申请提供的词串识别方法的方法流程图;图7是本申请提供的词串识别服务器的示意结构图;图8是本申请提供的词串识别装置的模块结构示意图。具体实施方式为了使本
的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。目前,新词发现(即,发现和识别未登陆词)的方式主要有:1)基于规则的方法和2)基于统计的方法。其中,基于规则的方法主要是根据领域内新词的特点构建规则库、模板库;如图1所示,利用“影视剧名+电视剧”的模板可以抽取出影视剧名字:三生三世十里桃花、何以笙箫默。基于web统计的方法一般是先对搜索请求或者网络文本中的语料枚举中所有可能的分词组合,然后,确定各种分词组合的特征值,以便确定出哪些分词组合可能是新词。然而,上先对搜索请求或者是网页文本等,进行分词处理得到生成相邻预定数量个字的序列,例如:两个字的序列,三个字的序列。然后,再在所有语料中统计出各个序列的特征量,最后,通过阈值来筛选新词。然而,上述两种方式都存在不同层面的问题:基于规则的方法需要对特定语料构建规则库,例如:建立“XXX+电视剧”这种规则,以提取出电视剧名。通过这种方式来筛选电视剧名、电影名是较为有效的。但是如果将这种方式应用在电商领域,因为电商领域中产品的多样性,产品类目的多样性,如果采用这种建立模板规则的方式,将增加很大的模板建立工作,实现起来较为复杂,且随着类目和产品的不断增多,也很难对模板进行穷举。基于web统计的新词识别方法,需要从语料中暴力枚举所有可能的词组合,例如:对于“来自\星星\的\你\同款恤\女\前\短\后\长”,长度为11的字串,需要生成55个组合,可以看出计算量是很大的,且因为是枚举所有可能的新词组合,也势必提升了噪声词组出现的可能。考虑到在电商搜索引擎中,用户在输入搜索请求进行后续的点击浏览或者是购买的时候,搜索请求和后续浏览购买操作中,是存在关联性,搜索请求和用户后续的行为数据之间是存在匹配性关联,即,用户的行为可以表达用户的意图。例如,用户搜索“高跟鞋”那么后续浏览购买记录中标题带有“高跟鞋”的产品被浏览购买的概率是更高一些的,相对而言,标题中是“高筒低跟美鞋”虽然也出现了“高、跟、鞋”三个字,但是因为表达的含义已经不是高跟鞋三个字连在一起的概念。再例如,如图2所示,例如,在“虎、妈、猫、爸”还不是一个分词词典记录的完整词的情况下,在进行产品搜索匹配的时候,如果是采用字词匹配的度的方式匹配出搜索结果,那么对于类似于“虎妈猫爸同款”、“赵薇同款虎妈猫爸”这种搜索请求,所匹配出的搜索结果可以如图2所示,既包括标题中虎妈猫爸妈连接在一起的,也包括虎妈猫爸不连接在一起的。对后续的浏览和购买记录进行分析可以发现,最终购买的产品大多是标题中“虎、妈、猫、爸”四个词联系在一起的,而对于近似“虎猫儿子女儿爸妈亲子装”这种标题中虽然携带有虎妈猫爸四个字,但因为四个字不连接在一起,被浏览和购买的概率相对小很多。这主要是因为用户的购买意图与输入搜索请求中的用词存在强关联性,虎妈猫爸作为一个独立完整概念的情况下,浏览和购买相对而言会倾向于标题中有该完整概念的词的产品。由此可见,用户在进行搜索和浏览购买的时候,已经进行分词组合意识上的筛选,如果可以结合这些行为记录进行新词的筛选,可以达到简单准确地新词识别。进一步的,如果将这种类型的词找出来,然后将其增加到分词词典中,这样在后续对搜索请求进行分词和产品匹配的时候,将会避免匹配出类似“虎猫儿子女儿爸妈亲子装”本文档来自技高网
...

【技术保护点】
1.一种词串识别方法,其特征在于,所述方法包括:获取多个搜索请求;获取基于所述多个搜索请求而产生的多个购买记录;确定所述多个搜索请求中相邻词汇片段之间的购买关联度,其中,所述购买关联度是如下两个值之比:a)两个词汇片段相邻出现在多个购买记录中的产品标题中的次数;b)所述两个词汇片段相邻出现在多个搜索请求中的次数;根据所述购买关联度,从所述多个搜索请求中识别出一个或多个词串。

【技术特征摘要】
1.一种词串识别方法,其特征在于,所述方法包括:获取多个搜索请求;获取基于所述多个搜索请求而产生的多个购买记录;确定所述多个搜索请求中相邻词汇片段之间的购买关联度,其中,所述购买关联度是如下两个值之比:a)两个词汇片段相邻出现在多个购买记录中的产品标题中的次数;b)所述两个词汇片段相邻出现在多个搜索请求中的次数;根据所述购买关联度,从所述多个搜索请求中识别出一个或多个词串。2.根据权利要求1所述的方法,其特征在于,根据所述购买关联度,从所述多个搜索请求中识别出一个或多个词串,包括:将所述购买关联度超出预设阈值的多个词汇片段串联在一起,作为识别出的候选词串。3.根据权利要求1所述的方法,其特征在于,在根据所述购买关联度,从所述多个搜索请求中识别出一个或多个词串之后,所述方法还可以包括:将从所述多个搜索请求中识别出的一个或多个词串作为候选词串;获取所述候选词串的特征数据;根据所述特征数据,确定所述候选词串是否可作为第一词串。4.根据权利要求3所述的方法,其特征在于,所述特征数据包括以下至少之一:词串中片段的相关度、词串的左边界熵、词串的右边界熵、词串的字数、词串的片段数、包含该词串的搜索请求的数量、包含该词串的产品标题的数量。5.根据权利要求1所述的方法,其特征在于,在确定所述多个搜索请求中相邻词汇片段之间的购买关联度之前,所述方法还包括:对所述多个搜索请求进行分词处理,得到多个词汇片段。6.根据权利要求5所述的方法,其特征在于,对所述多个搜索请求进行分词处理,得到多个词汇片段,包括:通过分词词典对所述多个搜索请求进行分词处理。7.根据权利要求6所述的方法,其特征在于,在根据所述购买关联度,从所述多个搜索请求中识别出一个或多个词串之后,所述方法还包括:将识别出的一个或多个词串添加至所述分词词典中。8.根据权利要求1至7中任一项所述的方法,其特征在于,获取多个搜索请求和获取基于所述多个搜索请求而产生的多个购买记录,包括:获取平台中预定时间内的访问记录数据;基于所述访问记录数据,提取出多个搜索请求和基于所述多个搜索请求而产生的多个购买记录。9.一种词串识别服务器,其特征在于,包括:处理器,其中:所述处理器用于获取多个搜索请求;获取基于所述多个搜索请求而产生的多个购买记录;确定所述多个搜索请求中相邻词汇片段之间的购买关联度,其中,所述购买关联度是如下两个值之比:a)两个词汇片段相邻出现在多个购买记录中的产品标题中的次数;b)所述两个词汇片段相邻出现在多个搜索请求中的次数;根据所述购买关联度,从所述多个搜索请求中识别出一个或多个词串。10.根据权利要求9所述的词串识别服务器,其特征在于,所述处理器具体用于将所述购买关联度超出预设阈值的多个词汇片段串联在一起,作为识别出的候选词串。11.根据权利要求9所述的词串识别服务器,其特征在于,所述处理器还用于在根据所述购买关联度,从所述多个搜索请求中识别出一个或多个词串之后,将从所述多个搜索请求中识别出的一个或多个词串作为候选词串;获取所...

【专利技术属性】
技术研发人员:谢朋峻曹元斌郎君
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1