产品信息的实时去重方法和装置制造方法及图纸

技术编号:8716459 阅读:143 留言:0更新日期:2013-05-17 19:07
本申请公开了一种产品信息的实时去重方法和装置,其中,该方法包括:在线接收用户输入的产品更新信息;在线根据产品更新信息对特征向量集合中对应的特征向量进行更新,其中,特征向量集合包括各个产品信息的特征向量,特征向量用于计算产品信息之间的相关度;在线根据更新后的特征向量集合中的特征向量计算产品信息之间的相关度;在线根据相关度判断互为重复的产品信息,并对互为重复的产品信息进行去重操作。本申请解决了现有技术中无法实现实时地对产品信息进行去重操作的问题,减少了搜索引擎反馈的搜索结果中的冗余信息,提高了搜索结果的准确性。

【技术实现步骤摘要】

本申请涉及数据处理领域,具体而言,涉及一种产品信息的实时去重方法和装置
技术介绍
目前,基于互联网的电子商务发展速度越来越快,在很多C2C、B2C的电子商务网站上,卖家每天会发布和更新大量的产品信息(称为offer信息)。买家在搜索所需要的产品时,电子商务网站会根据卖家发布的产品信息来展示搜索结果,例如,当买家搜索手机时,电子商务网站在所有卖家发布的产品信息中搜索包含手机信息的产品信息,然后将所有包含手机信息的产品信息在网站上展示给买家,以便买家进行选择。然而,同一卖家在发布产品信息时可能会发布很多重复的产品信息,这样在买家搜索产品时电子商务网站会返回很多重复的产品信息,从而导致买家选择效率的下降。为了解决这种问题,现有技术中提出了一种产品信息的去重方法,如图1所示,该产品信息的去重方法包括如下步骤:S102,将用户发布的产品信息存储在服务器中;S104,定期在线下对服务器中的产品信息进行特征向量的计算,并根据这些特征向量来计算产品信息之间的相关度。例如,每个月计算一次产品信息之间的相关度;S106,根据上述的相关度来对产品信息进行去重操作。例如,在买家搜索产品信息时指不哪些彳目息是重复的广品彳目息。但是,这样以离线的方式来计算相关度和去重操作,无法实时地对在线的产品信息进行更新,例如,卖家A在星期一发布了两条重复的手机产品信息,由于离线的去重操作尚未执行(例如,需要到下一个星期一才执行下一次去重操作),因此,在下个星期一之前,当买家B搜索手机产品时仍然会出现重复的手机产品信息,从而使得搜索引擎反馈的搜索结果存在很多冗余信息,无法实现实时地对产品信息进行去重操作。
技术实现思路
本申请的主要目的在于提供一种产品信息的实时去重方法和装置,以至少解决现有技术中无法实现实时地对产品信息进行去重操作的问题。根据本申请的一个方面,提供了一种产品信息的实时去重方法,其包括:在线接收用户输入的产品更新信息;在线根据产品更新信息对特征向量集合中对应的特征向量进行更新,其中,特征向量集合包括各个产品信息的特征向量,特征向量用于计算产品信息之间的相关度;在线根据更新后的特征向量集合中的特征向量计算产品信息之间的相关度;在线根据相关度判断互为重复的产品信息,并对互为重复的产品信息进行去重操作。优选的,在线根据产品更新信息对特征向量集合中对应的特征向量进行更新的步骤包括:判断产品更新信息所指示的是对已有的产品信息进行修改或删除还是增加新的产品信息;当产品更新信息所指示的是对已有的产品信息进行修改时,获取修改后的产品信息的特征向量,并将特征向量集合中与已有的产品信息对应的特征向量更新为修改后的产品信息的特征向量;当产品更新信息所指示的是增加新的产品信息时,获取新的产品信息的特征向量,并在特征向量集合中增加新的产品信息的特征向量;当产品更新信息所指示的是对已有的产品信息进行删除时,从特征向量集合中删除已有的产品信息对应的特征向量。优选的,在线根据产品更新信息对特征向量集合中对应的特征向量进行更新的步骤包括:若产品更新信息指示更新的特征向量的个数超过预定阈值,则分批次对产品更新信息指示的特征向量进行更新,其中,每一批次更新的特征向量的个数不超预定阈值。优选的,对互为重复的产品信息进行去重操作的步骤包括:对互为重复的产品信息设置类别标记;根据所设置的类别标记对产品信息进行分类,其中,将设置有同种类别标记的产品信息分为一类;将每一个分类中与用户输入的查询信息的相似度最高的产品信息发送给前端Web页面进行展示。优选的,根据相关度对产品信息进行分类的步骤包括:根据相关度对同一用户下的所有产品信息进行分类。优选的,在线根据相关度判断互为重复的产品信息的步骤包括:若在预定的时间内无法判断出互为重复的产品信息,则将待判断的产品信息发送给前端Web页面进行展/Jn o根据本申请的另一方面,提供了一种产品信息的实时去重装置,其包括:接收单元,用于在线接收用户输入的产品更新信息;更新单元,用于在线根据产品更新信息对特征向量集合中对应的特征向量进行更新,其中,特征向量集合包括各个产品信息的特征向量,特征向量用于计算产品信息之间的相关度;计算单元,用于在线根据更新后的特征向量集合中的特征向量计算产品信息之间的相关度;去重单元,用于在线根据相关度判断互为重复的产品信息,并对互为重复的产品信息进行去重操作。优选的,更新单元包括:判断模块,用于判断产品更新信息所指示的是对已有的产品信息进行修改或删除还是增加新的产品信息;处理模块,用于当产品更新信息所指示的是对已有的产品信息进行修改时,获取修改后的产品信息的特征向量,并将特征向量集合中与已有的产品信息对应的特征向量更新为修改后的产品信息的特征向量;当产品更新信息所指示的是增加新的产品信息时,获取新的产品信息的特征向量,并在特征向量集合中增加新的产品信息的特征向量;当产品更新信息所指示的是对已有的产品信息进行删除时,从特征向量集合中删除已有的产品信息对应的特征向量。优选的,处理模块还用于在产品更新信息指示更新的特征向量的个数超过预定阈值时分批次对产品更新信息指示的特征向量进行更新,其中,每一批次更新的特征向量的个数不超预定阈值。优选的,去重单元包括:分类模块,用于对互为重复的产品信息设置类别标记,并根据所设置的类别标记对产品信息进行分类,其中,将设置有同种类别标记的产品信息分为一类;发布模块,用于将每一个分类中与用户输入的查询信息的相似度最高的产品信息发送给前端Web页面进行展示。优选的,发布模块还用于在预定的时间内无法判断出互为重复的产品信息时,将待判断的产品信息发送给前端Web页面进行展示。通过本申请的技术方案,能够达到以下有益效果:I)通过在线实时地根据所述产品更新信息对特征向量集合中对应的特征向量进行更新,使得用户更新产品信息时相应地会对产品信息之间的相似度进行重新计算,而不是每隔预定的时间计算一次相似度,这样可以实时地根据产品信息的更新来确定互为重复的产品信息,从而解决了现有技术中无法实现实时地对产品信息进行去重操作的问题,减少了搜索引擎反馈的搜索结果中的冗余信息,提高了搜索结果的准确性;2)对现有的产品信息发布流程进行了改进,在对更新的产品信息进行审核之后,向后台服务器发送特征向量请求消息,这样通过占用很少系统资源的消息指令能够实时地启动相似度计算的操作;3)通过对每次更新的特征向量的个数进行控制,将每次计算特征向量以及相似度的时间控制在一定的范围之内,从而在用户更新产品信息之后的预定时间内能够实现实时地对产品信息进行去重操作,提高了在线实时处理的效率;4)通过在线展示每一个分类中相似度最高的产品信息,减少了搜索引擎反馈的搜索结果中的冗余信息,使得搜索结果能够快速的从服务器端传输至客户端,并提高了搜索结果的准确性。当然,实施本申请的任一产品或方法并不一定需要同时达到以上所述的所有优点。附图说明此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:图1是根据现有技术中的产品信息的去重方法的流程图;图2是根据本申请实施例的产品信息的去重方法的流程图;图3是根据本申请实施例的产品信息的去重装置的一种优本文档来自技高网
...

【技术保护点】
一种产品信息的实时去重方法,其特征在于,包括:在线接收用户输入的产品更新信息;在线根据所述产品更新信息对特征向量集合中对应的特征向量进行更新,其中,所述特征向量集合包括各个产品信息的特征向量,所述特征向量用于计算所述产品信息之间的相关度;在线根据更新后的特征向量集合中的特征向量计算所述产品信息之间的相关度;在线根据所述相关度判断互为重复的产品信息,并对所述互为重复的产品信息进行去重操作。

【技术特征摘要】

【专利技术属性】
技术研发人员:张林锋廖剑张恬及王蔚微张敏捷翁晓颖
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛;KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1