一种词串识别方法和服务器技术

技术编号：19745144 阅读：17 留言：0更新日期：2018-12-12 04:43

本申请提供了一种词串识别方法和服务器，其中，该方法包括：获取多个搜索请求；获取基于所述多个搜索请求而产生的多个购买记录；确定所述多个搜索请求中相邻词汇片段之间的购买关联度，其中，所述购买关联度是如下两个值之比：a)两个词汇片段相邻出现在多个购买记录中的产品标题中的次数；b)所述两个词汇片段相邻出现在多个搜索请求中的次数；根据所述购买关联度，从所述多个搜索请求中识别出一个或多个词串。本方案通过词汇片段之间的购买关联度来识别新词，将用户的购买行为作为识别新词的依据，使得可以达到准确高效识别新词的技术效果。

全部详细技术资料下载

【技术实现步骤摘要】
一种词串识别方法和服务器
本申请属于互联网
，尤其涉及一种词串识别方法和服务器。
技术介绍
随着电子商务的快速发展，人们越来越多地通过购物网站进行购物。由于文字表述的多可能性，越来越多地词语或出现，特别是新词汇的出现。在购物网站进行类目划分或者是进行目标对象匹配的时候，往往会通过分词词典进行类目划分等等。对于分词词典中没有收录的词可以称为未登陆词，随着品牌名称或者是影视剧等越来越多，新的品牌、影视剧等的出现，也就出现了越来越多的未登陆词。如何有效识别未登陆词，以将其增加至分词词典中，也就成了亟待解决的问题。例如：出现的品牌名等：七彩香袖、佳蒙曼璐等，出现的产品名：虾砖、绿西米等，可能都不在分词词典中，但是这些词的出现频率是很高的，如果将这种类型的词进行识别，并增加到分词词典中，势必可以有效提高对请求处理的速度，以及类目分类的准确性。针对上述问题，目前尚未提出有效的解决方案。
技术实现思路
本申请目的在于提供一种词串识别方法和服务器，可以实现准确高效识别分词词典中未收录的新词的技术效果。本申请提供一种词串识别方法和服务器是这样实现的：一种词串识别方法，所述方法包括：获取多个搜索请求；获取基于所述多个搜索请求而产生的多个购买记录；确定所述多个搜索请求中相邻词汇片段之间的购买关联度，其中，所述购买关联度是如下两个值之比：a)两个词汇片段相邻出现在多个购买记录中的产品标题中的次数；b)所述两个词汇片段相邻出现在多个搜索请求中的次数；根据所述购买关联度，从所述多个搜索请求中识别出一个或多个词串。一种词串识别服务器，包括：处理器，其中：所述处理器用于获取多个搜索请求...

【技术保护点】
1.一种词串识别方法，其特征在于，所述方法包括：获取多个搜索请求；获取基于所述多个搜索请求而产生的多个购买记录；确定所述多个搜索请求中相邻词汇片段之间的购买关联度，其中，所述购买关联度是如下两个值之比：a)两个词汇片段相邻出现在多个购买记录中的产品标题中的次数；b)所述两个词汇片段相邻出现在多个搜索请求中的次数；根据所述购买关联度，从所述多个搜索请求中识别出一个或多个词串。

【技术特征摘要】
1.一种词串识别方法，其特征在于，所述方法包括：获取多个搜索请求；获取基于所述多个搜索请求而产生的多个购买记录；确定所述多个搜索请求中相邻词汇片段之间的购买关联度，其中，所述购买关联度是如下两个值之比：a)两个词汇片段相邻出现在多个购买记录中的产品标题中的次数；b)所述两个词汇片段相邻出现在多个搜索请求中的次数；根据所述购买关联度，从所述多个搜索请求中识别出一个或多个词串。2.根据权利要求1所述的方法，其特征在于，根据所述购买关联度，从所述多个搜索请求中识别出一个或多个词串，包括：将所述购买关联度超出预设阈值的多个词汇片段串联在一起，作为识别出的候选词串。3.根据权利要求1所述的方法，其特征在于，在根据所述购买关联度，从所述多个搜索请求中识别出一个或多个词串之后，所述方法还可以包括：将从所述多个搜索请求中识别出的一个或多个词串作为候选词串；获取所述候选词串的特征数据；根据所述特征数据，确定所述候选词串是否可作为第一词串。4.根据权利要求3所述的方法，其特征在于，所述特征数据包括以下至少之一：词串中片段的相关度、词串的左边界熵、词串的右边界熵、词串的字数、词串的片段数、包含该词串的搜索请求的数量、包含该词串的产品标题的数量。5.根据权利要求1所述的方法，其特征在于，在确定所述多个搜索请求中相邻词汇片段之间的购买关联度之前，所述方法还包括：对所述多个搜索请求进行分词处理，得到多个词汇片段。6.根据权利要求5所述的方法，其特征在于，对所述多个搜索请求进行分词处理，得到多个词汇片段，包括：通过分词词典对所述多个搜索请求进行分词处理。7.根据权利要求6所述的方法，其特征在于，在根据所述购买关联度，从所述多个搜索请求中识别出一个或多个词串之后，所述方法还包括：将识别出的一个或多个词串添加至所述分词词典中。8.根据权利要求1至7中任一项所述的方法，其特征在于，获取多个搜索请求和获取基于所述多个搜索请求而产生的多个购买记录，包括：获取平台中预定时间内的访问记录数据；基于所述访问记录数据，提取出多个搜索请求和基于所述多个搜索请求而产生的多个购买记录。9.一种词串识别服务器，其特征在于，包括：处理器，其中：所述处理器用于获取多个搜索请求；获取基于所述多个搜索请求而产生的多个购买记录；确定所述多个搜索请求中相邻词汇片段之间的购买关联度，其中，所述购买关联度是如下两个值之比：a)两个词汇片段相邻出现在多个购买记录中的产品标题中的次数；b)所述两个词汇片段相邻出现在多个搜索请求中的次数；根据所述购买关联度，从所述多个搜索请求中识别出一个或多个词串。10.根据权利要求9所述的词串识别服务器，其特征在于，所述处理器具体用于将所述购买关联度超出预设阈值的多个词汇片段串联在一起，作为识别出的候选词串。11.根据权利要求9所述的词串识别服务器，其特征在于，所述处理器还用于在根据所述购买关联度，从所述多个搜索请求中识别出一个或多个词串之后，将从所述多个搜索请求中识别出的一个或多个词串作为候选词串；获取所...

【专利技术属性】
技术研发人员：谢朋峻，曹元斌，郎君，
申请(专利权)人：阿里巴巴集团控股有限公司，
类型：发明
国别省市：开曼群岛,KY

全部详细技术资料下载我是这个专利的主人