本发明专利技术公布了一种基于用户评论的产品检索方法,该方法根据用户提供的信息需求,通过结合产品数据,检索出最为相关的产品列表,返回给用户,包括如下步骤:通过分析产品数据得到索引数据库、情感特征数据库和评论权重数据库;对用户提交查询串进行预处理和词项拓展得到查询词项集;检索产品并获得其最终评分值;按产品最终评分值进行高低排序后取截断获得产品列表。该方法利用用户的产品评论信息,可优化检索效果;同时分析评论文本中的可借鉴程度,保证引入信息的有效性;此外,还可拓展产品检索的使用范围与用户查询的类型;适用于电商网站的产品检索、礼品推荐等应用。
【技术实现步骤摘要】
【专利摘要】本专利技术公布了一种基于用户评论的产品检索方法,该方法根据用户提供的信息需求,通过结合产品数据,检索出最为相关的产品列表,返回给用户,包括如下步骤:通过分析产品数据得到索引数据库、情感特征数据库和评论权重数据库;对用户提交查询串进行预处理和词项拓展得到查询词项集;检索产品并获得其最终评分值;按产品最终评分值进行高低排序后取截断获得产品列表。该方法利用用户的产品评论信息,可优化检索效果;同时分析评论文本中的可借鉴程度,保证引入信息的有效性;此外,还可拓展产品检索的使用范围与用户查询的类型;适用于电商网站的产品检索、礼品推荐等应用。【专利说明】—种基于用户评论的产品检索方法及产品检索系统
本专利技术涉及信息检索领域,尤其涉及一种基于用户评论的产品检索方法及产品检索系统。
技术介绍
用户对产品进行检索,是根据用户提供的信息需求,从产品库中检索出最为相关的产品列表,返回给用户。现有技术主要采用基于分面的检索方法和基于关键词的检索方法。其中,基于分面的检索方法,将产品的各个结构化信息作为分面,分为数个类别。对用户的查询进行分词,然后判断查询对应的产品类别,以过滤的形式进行检索。比如,对于查询“2000左右的黑色手机”,系统将判别出需求对象为“手机”,“价格”的范围为,“颜色”为“黑”,从而从产品库中筛选出相应的产品。同时,系统可以从符合条件的产品中按分面进行进一步分类,比如,向用户展示“品牌”,“尺寸”等更多的选项,从而进一步过滤。这种方法并没有考虑到其它用户购买产品后的反馈。比如,用户的查询为“外观漂亮的手机”,分面检索的系统将无法识别。这是因为分面检索的系统依赖于各个结构化信息的分类,而包括“漂亮”这样关键词的产品评论信息不能被直接分类。因此,这种分面检索的方法无法应对更为实际的用户查询。基于关键词的检索方法将产品的信息按域进行分词索引,再对各个域分配不同的权重。对于用户的查询同样进行分词,然后利用现有的检索模型进行分域打分。将打分较高的产品作为结果优先返回给用户。例如,现有方法就针对不同的信息域构造一个混合的语言模型进行打分(Huizhong Duan, ChengXiang Zhai, Jinxing Cheng, AbhishekGattan1.Supporting Keyword Search in Product Database: A ProbabilisticApproach, VLDB2013)。这种方法也有不足,一方面用户的评论文本并不适合直接作为关键词检索的对象,因为评论文本的质量与可信度是不同的,需要区分对待;另一方面,对于产品描述的关键词信息,不一定来源于某个产品本身,一些全局的等价类信息在现有的检索框架下会被遗漏。
技术实现思路
为解决现有技术中的问题,本专利技术提供一种基于用户评论的产品检索方法,该方法根据用户提供的信息需求,结合产品的评论信息,从产品库中挖掘出最为相关的产品列表,返回给用户,该方法可应用于实际中,适用于电商网站的产品检索、礼品推荐等应用中。本专利技术的技术方案是:—种基于用户评论的产品检索方法,该方法根据用户提供的信息需求,通过结合产品数据,检索出最为相关的产品列表,返回给用户,包括如下步骤:第一步:通过对产品数据进行数据处理和准备,具体为:对产品数据进行结构化分析、倒排索引创建、情感特征抽取、特征等价类构造和评论质量分析,得到索引数据库、情感特征数据库和评论权重数据库;第二步:用户提交查询串,对查询串进行查询串预处理;第三步:通过情感特征数据库中的等价类信息,对上述预处理后的查询串进行词项拓展,得到查询词项集;第四步:通过对评论权重数据库中的的评分进行综合,利用查询词项集中的查询词项在索引数据库中进行产品检索,对检索到的每一个产品,通过分别获得产品特征数据的评分值和产品评论数据的评分值,获得每一个产品的最终评分值;第五步:将检索到的所有产品,按照每一个产品的最终评分值进行高低排序后取截断,获得产品列表,返回给用户。上述基于用户评论的产品检索方法中,第一步中,产品数据包括产品特征数据和产品评论数据;结构化分析具体为将电商网站的产品页面中的产品特征数据转换成结构化数据后,将产品特征以〈属性名称,属性值〉的形式表示;倒排索引创建具体为将所述结构化分析得到的产品数据按产品属性值进行划分,并以倒排索引的形式分域存储为索引数据库;情感特征抽取具体为通过从产品评论数据中抽取,得到带有情感评价的情感特征词组,特征等价类构造具体为通过所述情感特征词组来构建特征等价类,形成情感特征数据库;评论质量分析具体为通过所述情感特征数据库与产品评论数据进行评论质量的分析,从而构造评论权重数据库。第二步中的查询串预处理包括词项切分和词性标注操作。在第四步中,产品特征数据的评分值是通过现有的关键词检索方法获得;产品评论数据的评分值,是首先通过现有的关键词检索方法获得评分值,然后将所述评分值与评论权重数据库中的信息进行加权而获得;每一个产品的最终评分值是通过将上述各类评分进行加和而获得。其中,产品评论数据的评分值的权重可以通过电商搜索日志加以训练而获得。为实际应用,本专利技术提供一种基于用户评论的产品检索系统,该系统以索引数据库、情感特征数据库和评论权重数据库为支撑,包括用户查询操作模块、查询预处理模块、检索模块和结果输出模块。其中,用户查询操作模块用于用户输入查询串并进行提交;所述查询预处理模块用于将用户提交的查询串进行预处理;所述检索模块用于将查询串通过情感特征数据库中的等价类信息进行词项拓展获得查询词项,查询词项再通过对评论权重数据库中的的评分进行综合,在索引数据库中进行产品检索,对检索到的产品通过计算其产品特征数据的评分值和产品评论数据的评分值获得最终评分值;所述结果输出模块用于将检索到的产品按其最终评分值进行高低排序后取截断,获得产品列表的结果,返回给用户。本专利技术的有益效果:本专利技术提供一种基于用户评论的产品检索方法,该方法根据用户提供的信息需求,结合产品的评论信息,从产品库中挖掘出最为相关的产品列表,返回给用户。该方法利用用户的产品评论信息,可优化检索效果;同时分析评论文本中的可借鉴程度,保证引入信息的有效性;此外,还可拓展产品检索的使用范围与用户查询的类型。为了应用于实际中,本专利技术提供一种基于用户评论的产品检索系统,适用于电商网站的产品检索、礼品推荐等应用。【专利附图】【附图说明】图1为本专利技术产品检索过程的流程示意图。图2为本专利技术产品检索系统包括的数据库、模块及流程示意图。【具体实施方式】下面结合附图和具体实施例,对本专利技术进一步详细描述,但不以任何方式限制本专利技术的范围。本专利技术提供的产品检索方法,是基于电子商务网站上的产品数据而进行。产品数据包括产品特征数据和产品评论数据。产品特征数据指的是标识产品型号、品牌、样式、参数等专特征信息的结构化数据;产品评论数据指针对特定产品的用户评论文本、评价星级等数据。本实施例对产品数据进行数据处理和准备,数据处理和准备主要包括对产品特征数据和产品评论数据的结构化分析、倒排索引创建、情感特征抽取、特征等价类构造和评论质量分析,得到索引数据库、情感特征数据库和评论权重数据库,在此基础上通过用户提交查询串对产品进行检索。对用户进行产品检索产生本文档来自技高网...
【技术保护点】
一种基于用户评论的产品检索方法,其特征是,所述方法根据用户提供的信息需求,通过结合产品数据,检索出最为相关的产品列表,返回给用户,包括如下步骤:第一步:通过对产品数据进行数据处理和准备,具体为:对产品数据进行结构化分析、倒排索引创建、情感特征抽取、特征等价类构造和评论质量分析,得到索引数据库、情感特征数据库和评论权重数据库;第二步:用户提交查询串,对查询串进行查询串预处理;第三步:通过情感特征数据库中的等价类信息,对上述预处理后的查询串进行词项拓展,得到查询词项集;第四步:通过对评论权重数据库中的的评分进行综合,利用查询词项集中的查询词项在索引数据库中进行产品检索,对检索到的每一个产品,通过分别获得产品特征数据的评分值和产品评论数据的评分值,获得每一个产品的最终评分值;第五步:将检索到的所有产品,按照每一个产品的最终评分值进行高低排序后取截断,获得产品列表,返回给用户。
【技术特征摘要】
【专利技术属性】
技术研发人员:闫宏飞,赵鑫,江翰,李晓明,
申请(专利权)人:北京大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。