一种提取中心产品词的方法和装置制造方法及图纸

技术编号:17346321 阅读:48 留言:0更新日期:2018-02-25 11:32
本发明专利技术公开了一种提取中心产品词的方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括:对待提取中心产品词的目标标题提取特征;将所述特征以预设的特征组合输入预设模型,以获取与所述特征组合对应的状态函数和与所述状态函数相关的权重;根据所述状态函数和与所述状态函数相关的权重利用预设算法进行运算,并根据所述运算的结果提取所述目标标题的中心产品词。该实施方式能够实现中心产品词的自动提取,通过标准化且客观的方式准确地提取亿万级商品的中心产品词,节约提取中心产品词的人力及时间成本,提升中心产品词的准确率、全面性和识别召回率。

【技术实现步骤摘要】
一种提取中心产品词的方法和装置
本专利技术涉及计算机
,尤其涉及一种提取中心产品词的方法和装置。
技术介绍
随着电子商务的飞速发展,网上购物为人们的生活和工作提供了极大的便利。用户在进行商品搜索查询时,搜索引擎往往根据输入的搜索关键词向用户提供与搜索关键词最相关的商品。商品标题的成分分析是解决搜索相关性的核心问题,在个性化、推荐等多个领域有着广泛的应用。与一般的文档不同,电子商务领域内的商品标题通常是若干词的堆砌,这对于准确的识别商品成分而言无疑加大了技术难点。商品标题成分分析中重要一个环节就是中心产品词识别,代表标题所涉及的具体的产品。例如:东菱Donlim多功能厨师机配件DL-C08果汁杯中的中心产品词是果汁杯,而厨师机不是中心产品词。如果可以把中心产品词从商品标题中准确地提取出来,再与用户输入的关键字进行相似度计算,可以有效地解决搜索相关性问题。所以需要一种能从商品标题中提取出产品词的方法。现有的识别标题中的中心产品词的方法大多数都是基于规则根据产品词字典对标题信息进行识别,而商品标题通常只含有十几到几十个词,且标题的变化更是多种多样,另外不同的语境下中心产品词会有不同的本文档来自技高网...
一种提取中心产品词的方法和装置

【技术保护点】
一种提取中心产品词的方法,其特征在于,包括:对待提取中心产品词的目标标题提取特征;将所述特征以预设的特征组合输入预设模型,以获取与所述特征组合对应的状态函数和与所述状态函数相关的权重;根据所述状态函数和与所述状态函数相关的权重利用预设算法进行运算,并根据所述运算的结果提取所述目标标题的中心产品词。

【技术特征摘要】
1.一种提取中心产品词的方法,其特征在于,包括:对待提取中心产品词的目标标题提取特征;将所述特征以预设的特征组合输入预设模型,以获取与所述特征组合对应的状态函数和与所述状态函数相关的权重;根据所述状态函数和与所述状态函数相关的权重利用预设算法进行运算,并根据所述运算的结果提取所述目标标题的中心产品词。2.根据权利要求1所述的方法,其特征在于,所述预设模型为条件随机场模型,对待提取中心产品词的目标标题提取特征的步骤之前,包括:根据用户的历史搜索数据采集训练样本;对所述训练样本标注所述特征,以得到训练数据;使用所述训练数据对所述条件随机场模型进行训练,以得到与所述特征的多种组合对应的状态函数和与所述状态函数相关的权重。3.根据权利要求2所述的方法,其特征在于,所述历史搜索数据包括样本标题和对应的搜索词,根据用户的历史搜索数据采集训练样本的步骤,包括:分别对所述样本标题和对应的搜索词进行分词,以得到样本标题分词和每条样本标题的搜索词分词;根据每条样本标题的搜索词分词中的产品词确定所述每条样本标题的样本中心产品词;根据所述样本标题分词和所述样本中心产品词得到所述训练样本。4.根据权利要求3所述的方法,其特征在于,根据每条样本标题的搜索词分词中的产品词确定所述每条样本标题的样本中心产品词的步骤,包括:将每条样本标题对应的每条搜索词中位于第N/2至第N个搜索词分词之间的产品词作为相应的样本标题的候选样本中心产品词,并将位于所述候选样本中心产品词之前的产品词作为修饰产品词,其中,N为该条搜索词的搜索词分词个数;将每条样本标题中以候选样本中心产品词出现的次数大于以所述修饰产品词出现的次数的候选样本中心产品词作为相应的样本标题的样本中心产品词。5.根据权利要求1所述的方法,对待提取中心产品词的目标标题提取特征的步骤,包括:对待提取中心产品词的目标标题进行分词;提取所述目标标题的每个分词的如下的其中一个或多个特征:词性特征、属性特征、图像特征、上下文词性特征、上下文属性特征、上下文图像特征、词间转移特征。6.根据权利要求1所述的方法,其特征在于,根据所述状态函数和与所述状态函数相关的权重利用预设算法进行运算,并根据所述运算的结果提取所述目标标题的中心产品词的步骤,包括:根据所述状态函数和与所述状态函数相关的权重,利用维特比算法计算所述目标标题的每个分词分别为中心产品词和非中心产品词的分数;根据所述分数确定所述目标标题中的待定中心产品词,并将所述分数大于预设阈值的所述待定中心产品词提取为所述目标标题中的中心产品词。7.根据权利要求6所述的方法,其特征在于,将所述分数大于预设阈值的所述待定中心产品词提取为所述目标标题中的中心产品词的步骤,包括:将所述分数大于预设阈值的所述待定中心产品词和所述分数大于预设阈值的所述待定中心产品词的同义词提取为所述目标标题中的中心产品词。8.一种提取中心产品词的装置,其特征在于,包括:特征提取模块,用于对待提取中心产品词...

【专利技术属性】
技术研发人员:谷满昌
申请(专利权)人:北京京东尚科信息技术有限公司北京京东世纪贸易有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1