目标物品关键词和标题生成方法、搜索方法以及相关设备技术

技术编号:23315203 阅读:63 留言:0更新日期:2020-02-11 17:50
本发明专利技术公开了一种目标物品关键词和标题生成方法、搜索方法以及相关设备,涉及目标物品关键词生成技术领域。目标物品关键词生成方法,包括:根据目标物品的评论文本中的评论词,确定评论文本的特征向量;将每个评论文本的特征向量输入到预先训练的评论文本分类模型,获得对评论文本是否可用的分类结果;将可用的评论文本中的评论词添加到候选集中;根据预先确定的类别与描述词之间的对应关系,将获取的目标物品所属的类别对应的关键词添加到候选集中,其中,对应关系是根据搜索数据、外部描述数据的至少一种确定的;根据候选集中的词语确定目标物品的关键词。从而,提取的关键词更能够反映目标物品的特色,提高了关键词生成效率、节约了计算资源。

Key words and titles generation method, search method and related equipment of target items

【技术实现步骤摘要】
目标物品关键词和标题生成方法、搜索方法以及相关设备
本专利技术涉及目标物品关键词生成
,特别涉及一种目标物品关键词和标题生成方法、搜索方法以及相关设备。
技术介绍
随着电商业务的快速发展,商品的种类和数量也越来越多,商品的属性越发的被电商行业所重视。“亮点属性”成为了一种快速且有效的吸引用户浏览和点击的方式。“亮点属性”是指能够表达出商品特点的属性。例如,某品牌手机的属性包括商品产地是中国大陆、机身厚度为7-8mm、支持双卡双待、人工智能、快速充电等技术。商品产地、机身厚度、支持双卡双待这些属性虽然不可或缺、但是又过于大众化,而作为产品亮点的人工智能和快速充电往往出现在用户对手机快速充电的好评中,这更能反映商品的特点,从而更加吸引客户。在相关技术中,通常对商品描述中的商品属性信息进行分析,以提取其中的关键词作为亮点属性。
技术实现思路
专利技术人经过分析后发现,相关技术中属性的来源单一,而单一的数据源中对商品的描述过于宽泛,没有考虑用户维度的个性化特征。从而,使得确定的亮点属性无法体现商品的特点。本专利技术实施例所要解决的一个技术问题是:如何确定能够反映商品特点的关键词以作为商品的亮点属性。根据本专利技术一些实施例的第一个方面,提供一种目标物品关键词生成方法,包括:根据目标物品的评论文本中的评论词,确定评论文本的特征向量;将每个评论文本的特征向量输入到预先训练的评论文本分类模型,获得对评论文本是否可用的分类结果;将可用的评论文本中的评论词添加到候选集中;根据预先确定的类别与描述词之间的对应关系,将获取的目标物品所属的类别对应的关键词添加到候选集中,其中,对应关系是根据搜索数据、外部描述数据的至少一种确定的;根据候选集中的词语确定目标物品的关键词。在一些实施例中,根据目标物品的评论文本中的评论词,确定评论文本的特征向量包括:根据目标物品所属的类别对应的评论文本,确定目标物品的评论文本中每个评论词的统计信息、作为每个评论词的特征值;根据统计信息,选取预设数量个评论词;采用选取的评论词的统计信息,构建评论文本的特征向量。在一些实施例中,对于每个评论词,确定评论文本中每个评论词的统计信息包括:确定评论词在评论文本中的出现频率、作为评论词的词频TF值;确定目标物品所属类别的所有评论文本数与目标物品所属类别的所有评论文本中、包括评论词的评论文本数的商,并对商取以10为底的对数,获得评论词的逆文本频率指数IDF值;将评论词的TF值与IDF值的乘积确定为评论词的统计信息。在一些实施例中,评论文本分类模型为逻辑回归模型;将每个评论文本的特征向量输入到预先训练的评论文本分类模型,获得对评论文本是否可用的分类结果包括:将每个评论文本的特征向量作为自变量输入到预先训练的逻辑回归模型中,获得输出的线性回归模型的因变量;在输出的因变量大于预设值的情况下,将相应的评论文本确定为可用的评论文本。在一些实施例中,将可用的评论文本中的评论词添加到候选集中包括:根据可用的评论文本,确定可用的评论文本中每个评论词的更新的统计信息;将根据更新的统计信息选取的预设数量个评论词添加到候选集中。在一些实施例中,目标物品关键词生成方法还包括:对于每个类别,获取类别的搜索数据,其中,搜索数据中的每个搜索数据项包括搜索词和用户选择的搜索结果;对于类别对应的每个搜索词,将类别中包括搜索词的搜索数据项的数量与类别的搜索数据项的总数的比值确定为类别中搜索词的特征值;根据类别中每个搜索词的特征值,确定类别对应的关键词。在一些实施例中,目标物品关键词生成方法还包括:采用已标记了分类结果的训练数据训练朴素贝叶斯分类模型;采用完成训练的贝叶斯分类模型对待测的外部数据中的描述文本进行分类,其中,外部数据包括多个描述文本;确定每个类别的描述文本中的描述词在本类别中的统计信息,作为所述描述词的特征值;对于每个类别,根据该类别中每个描述词的特征值,确定该类别对应的关键词。在一些实施例中,训练数据为libsvm格式,训练数据中的每条文本对应的训练数据包括表示分类结果的标记值、特征编号、特征编号对应的特征值。在一些实施例中,候选集包括第一候选子集、第二候选子集和第三候选子集,第一候选子集中的词语为评论词,第二候选子集中的词语为根据搜索数据确定的关键词,第三候选子集中的词语为根据外部描述数据确定的关键词;并且,候选集中的每个词语具有特征值;根据候选集中的词语确定目标物品的关键词包括:根据第一候选子集、第二候选子集和第三候选子集分别对应的权重以及词语的特征值,计算候选集中每个词语加权后的特征值;将候选集中加权后的特征值最高的预设数量个词语确定为目标物品的关键词。根据本专利技术一些实施例的第二个方面,提供一种目标物品标题生成方法,包括:根据目标物品的评论文本中的评论词,确定评论文本的特征向量;将每个评论文本的特征向量输入到预先训练的评论文本分类模型,获得对评论文本是否可用的分类结果;将可用的评论文本中的评论词添加到候选集中;根据预先确定的类别与描述词之间的对应关系,将获取的目标物品所属的类别对应的关键词添加到候选集中,其中,所述对应关系是根据搜索数据、外部描述数据的至少一种确定的;根据候选集中的词语确定目标物品的关键词;根据目标物品的关键词生成目标物品的标题。在一些实施例中,关键词位于生成的标题中的前半部分。在一些实施例中,目标物品标题生成方法,还包括:获取标题获取请求;确定标题获取请求是否来自移动终端上的客户端,以便在标题获取请求来自移动终端上的客户端的情况下,根据目标物品的关键词生成目标物品的标题,其中,关键词位于生成的标题中的前半部分;将生成的标题返回给所述客户端。根据本专利技术一些实施例的第三个方面,提供一种搜索方法,包括:根据目标物品的评论文本中的评论词,确定评论文本的特征向量;将每个评论文本的特征向量输入到预先训练的评论文本分类模型,获得对评论文本是否可用的分类结果;将可用的评论文本中的评论词添加到候选集中;根据预先确定的类别与描述词之间的对应关系,将获取的目标物品所属的类别对应的关键词添加到候选集中,其中,对应关系是根据搜索数据、外部描述数据的至少一种确定的;根据候选集中的词语确定目标物品的关键词;响应于获取搜索请求,获得初步搜索结果;将初步搜索结果中具有相同关键词的物品保留一个、并筛除未被保留的物品,获得筛选后的搜索结果。根据本专利技术一些实施例的第四个方面,提供一种目标物品关键词生成装置,包括:特征向量确定模块,被配置为根据目标物品的评论文本中的评论词,确定评论文本的特征向量;评论分类模块,被配置为将每个评论文本的特征向量输入到预先训练的评论文本分类模型,获得对评论文本是否可用的分类结果;候选集添加模块,被配置为将可用的评论文本中的评论词添加到候选集中;以及,根据预先确定的类别与描述词之间的对应关系,将获取的目标物品所属的类别对应的关键词添加到候选集中,其中,对应关系是根据搜索数据、外部描述数据的至少一种确定的;关键词确定模块,被配置为根据候选集中的词语确定目标物品的关键词。根据本发本文档来自技高网...

【技术保护点】
1.一种目标物品关键词生成方法,包括:/n根据目标物品的评论文本中的评论词,确定评论文本的特征向量;/n将每个评论文本的特征向量输入到预先训练的评论文本分类模型,获得对评论文本是否可用的分类结果;/n将可用的评论文本中的评论词添加到候选集中;/n根据预先确定的类别与描述词之间的对应关系,将获取的所述目标物品所属的类别对应的关键词添加到所述候选集中,其中,所述对应关系是根据搜索数据、外部描述数据的至少一种确定的;/n根据所述候选集中的词语确定所述目标物品的关键词。/n

【技术特征摘要】
1.一种目标物品关键词生成方法,包括:
根据目标物品的评论文本中的评论词,确定评论文本的特征向量;
将每个评论文本的特征向量输入到预先训练的评论文本分类模型,获得对评论文本是否可用的分类结果;
将可用的评论文本中的评论词添加到候选集中;
根据预先确定的类别与描述词之间的对应关系,将获取的所述目标物品所属的类别对应的关键词添加到所述候选集中,其中,所述对应关系是根据搜索数据、外部描述数据的至少一种确定的;
根据所述候选集中的词语确定所述目标物品的关键词。


2.根据权利要求1所述的目标物品关键词生成方法,其中,所述根据目标物品的评论文本中的评论词,确定评论文本的特征向量包括:
根据所述目标物品所属的类别对应的评论文本,确定所述目标物品的评论文本中每个评论词的统计信息、作为每个评论词的特征值;
根据统计信息,选取预设数量个评论词;
采用选取的评论词的统计信息,构建评论文本的特征向量。


3.根据权利要求2所述的目标物品关键词生成方法,其中,对于每个评论词,所述确定评论文本中每个评论词的统计信息包括:
确定所述评论词在所述评论文本中的出现频率、作为所述评论词的词频TF值;
确定所述目标物品所属类别的所有评论文本数与所述目标物品所属类别的所有评论文本中、包括所述评论词的评论文本数的商,并对所述商取以10为底的对数,获得所述评论词的逆文本频率指数IDF值;
将所述评论词的TF值与IDF值的乘积确定为所述评论词的统计信息。


4.根据权利要求1所述的目标物品关键词生成方法,其中,所述评论文本分类模型为逻辑回归模型;
所述将每个评论文本的特征向量输入到预先训练的评论文本分类模型,获得对评论文本是否可用的分类结果包括:
将每个评论文本的特征向量作为自变量输入到预先训练的逻辑回归模型中,获得输出的所述线性回归模型的因变量;
在输出的因变量大于预设值的情况下,将相应的评论文本确定为可用的评论文本。


5.根据权利要求1所述的目标物品关键词生成方法,其中,所述将可用的评论文本中的评论词添加到候选集中包括:
根据可用的评论文本,确定所述可用的评论文本中每个评论词的更新的统计信息;
将根据所述更新的统计信息选取的预设数量个评论词添加到候选集中。


6.根据权利要求1~5中任一项所述的目标物品关键词生成方法,还包括:
对于每个类别,获取所述类别的搜索数据,其中,搜索数据中的每个搜索数据项包括搜索词和用户选择的搜索结果;
对于所述类别对应的每个搜索词,将所述类别中包括所述搜索词的搜索数据项的数量与所述类别的搜索数据项的总数的比值确定为所述类别中所述搜索词的特征值;
根据所述类别中每个搜索词的特征值,确定所述类别对应的关键词。


7.根据权利要求1~5中任一项所述的目标物品关键词生成方法,还包括:
采用已标记了分类结果的训练数据训练朴素贝叶斯分类模型;
采用完成训练的贝叶斯分类模型对待测的外部数据中的描述文本进行分类,其中,所述外部数据包括多个描述文本;
确定每个类别的描述文本中的描述词在本类别中的统计信息,作为所述描述词的特征值;
对于每个类别,根据所述类别中每个描述词的特征值,确定所述类别对应的关键词。


8.根据权利要求7所述的目标物品关键词生成方法,其中,训练数据为libsvm格式,训练数据中的每条文本对应的训练数据包括表示分类结果的标记值、特征编号、特征编号对应的特征值。


9.根据权利要求1~5中任一项所述的目标物品关键词生成方法,其中,所述候选集包括第一候选子集、第二候选子集和第三候选子集,第一候选子集中的词语为...

【专利技术属性】
技术研发人员:段锐丰赫阳陶通张雄伟常菁
申请(专利权)人:北京沃东天骏信息技术有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1