基于数据集市挖掘的相关词提取方法及系统技术方案

技术编号:8980791 阅读:159 留言:0更新日期:2013-07-31 22:52
本发明专利技术提供一种基于数据集市挖掘的相关词提取方法,包括从数据源筛选出符合要求的数据并存入数据集市;基于产品词库、搜索词库和中间数据库,获得产品关键词及产品相关词序列和使用次数、搜索关键词及包含相关词序列和相似程度值、搜索关键词及行为相关词序列和相关搜索次数,并分别存入产品相关词库、包含相关词库及行为相关词库;对产品关键词及产品相关词序列、搜索关键词及包含相关词序列、搜索关键词及行为相关词序列进行权重设置,获取相应的相关性提取得分并存入相关词库;获取关键词及相关词的行业并进行行业相关计算,获得提取综合得分并保存到综合相关词库。本发明专利技术从多个角度完善相关词的提取,使提取结果更准确反映用户隐性需求。

【技术实现步骤摘要】

本专利技术涉及一种基于数据集市挖掘的相关词提取方法及系统
技术介绍
电子商务发展至今,已经积累了海量的信息,以及大量用户,包括访问者、交易者、信息提供者等。各类用户根据需要,围绕着电子商务平台来进行获取服务和提供服务。信息提供者在电子商务平台上提供各类产品信息时,不仅会给产品赋予一个合适、贴切的产品名称,而且会给产品属性赋予多个相关联的关键词,有利于产品更准确、多角度展现。由此可见,关键词的选择是至关重要的,它不仅能使访问者快速、准确找到自己需要的信息,而且能给产品信息提供者带来更多的客户访问和流量,为他们的产品获得更多的展现机会。用户在电子商务平台上搜索信息,越来越依靠基于关键词的搜索工具去搜索。通常,用户将需要查找信息的关键词输入搜索工具,搜索工具在已有索引数据库中进行搜索并返回搜索结果。搜索工具在返回搜索结果的同时,一般能够提供与输入关键词相关的一个或多个相关词,这些相关词与输入关键词都存在有不同程度的相关匹配。如某搜索用户在搜索框中键入shoe,他还会点击、比较、关注呈现出来的一系列跟shoe有关的相关词从而访问对应的信息,或者在此过程中他感觉键入cloth、hose等关键词也能获得需要的信息,从而进行相应的搜索、访问等系列行为。这就说明在其他相关产品的信息中包含与输入的关键词有相关关系的关键词,从而在两者之间广生了相关的匹配关系。 因此,产品信息提供者为其产品设置关键词以及一批优质的相关词,对产品特性的准确、全面反映有很大帮助。而访问者在进行搜索时,能够获得一批与输入关键词具有相关关系的词,对访问者快速方便、准确地获取所需要的信息也具有重要的意义。目前已经存在一些方法,主要针对关键词,从网站日志的访问/搜索信息中,通过不断优化算法,最后获取匹配的相关词。但这些方法涉及的数据面相对较窄,来源单一,而且很大程度上会受到用户长期习惯的局限,而错失一些相关程度高的相关词。在申请号为200680047190.6的专利中,提出利用种子关键词来提供扩展关键词,使用反向查找技术来确定哪些关键词与广告客户相关联,采用过滤法来去除对广告客户不适当的关键词。但此专利提出的方法主要是根据用户搜索行为将优质匹配的相关词抢先销售给供销商,这种方法数据来源单一,易失去一些相关程度高的关键词。在授权公告号为CN101276361B的专利中,提出接收用户输入的主关键词,触发本地程序或者搜索页面的脚本程序发出提取对应所述主关键词的相关关键词的请求;针对所述主关键词记录所属请求的次数,从对应所述主关键词的相关关键词分组表中获取候选相关关键词分组表。此专利提出了一种方法能够显不与输入关键词有相关关系的相关词,这种方法是基于已经具备了一个相关词库,但是对于这个词库是如何建成的,在上述专利中没有提及。从上述情况看,还没有一种方法能够提供令人满意的相关词。而准确的、全面的相关词对于信息的提供者和访问者来说是至关重要,因此找到一种准确的、全面的提取相关词的方法是很有必要的。
技术实现思路
针对现有的关键词优化及其应用存在的不足之处,本专利技术提供一种基于数据集市挖掘的相关词提取方法及系统。本专利技术结合电子商务平台中访问者的行为以及产品信息关键词的设置,通过对数据集市中关键词库、相关词库的补充和完善,利用关键词搜索信息、关键词行业信息,从多角度统计挖掘出优质的关键词及相关词序列,提高访问质量。本专利技术提供一种基于数据集市挖掘的相关词提取方法,包括以下步骤:( 1)根据预置规则筛选数据源,将筛选出的数据存入数据集市,所述数据集市包括搜索词库、产品词库、中间数据库、产品相关词库、包含相关词库、行为相关词库、相关词库以及综合相关词库;(2)基于所述产品词库和所述中间数据库中的产品信息,对同一产品信息的关键词进行两两配对,获得产品关键词及产品相关词序列,对所述产品关键词及产品相关词序列的使用次数进行统计,将所述产品关键词及产品相关词序列、所述使用次数保存到所述产品相关词库;(3)基于所述搜索词库和所述中间数据库中的搜索信息,按照预置规则分离出具有包含关系的搜索关键词及包含相关词序列,根据一定规则对所述搜索关键词及包含相关词序列进行相似程度计算以获取相似程度值,将所述搜索关键词及包含相关词序列、所述相似程度值保存到所述包含相关词库;其中,包含关系是指在一对所述搜索关键词及包含相关词序列中,其中一个词完全被另一个词包含;(4)基于所述搜索词库和所述中间数据库中的搜索信息,按照预置规则分离出具有行为相关关系的搜索关键词及行为相关词序列,对所述搜索关键词及行为相关词序列的相关搜索次数进行统计,将所述搜索关键词及行为相关词序列、所述相关搜索次数保存到所述行为相关词库;其中,行为相关关系是指搜索关键词被搜索后,在一定时间内,行为相关词被同一个IP地址的客户端进行了搜索;(5)根据所述产品关键词及产品相关词序列、所述搜索关键词及包含相关词序列、所述搜索关键词及行为相关词序列在产品相关词库、包含相关词库、行为相关词库中的存在关系,对所述产品关键词及产品相关词序列、所述搜索关键词及包含相关词序列、所述搜索关键词及行为相关词序列进行权重设置;(6)根据预置规则,结合所述产品关键词及产品相关词序列的使用次数、所述搜索关键词及包含相关词序列的相似程度值、所述搜索关键词及行为相关词序列的相关搜索次数,计算所述产品关键词及产品相关词序列、所述搜索关键词及包含相关词序列、所述搜索关键词及行为相关词序列各自的相关性提取得分,并将所述产品关键词及产品相关词序列、所述搜索关键词及包含相关词序列、所述搜索关键词及行为相关词序列,以及各自的相关性提取得分保存到相关词库中;(7)根据预置规则,在相关词库中(在相关词库中只存在关键词及相关词序列,不再分成3种序列类型),获取关键词及相关词序列中关键词及相关词所属的行业并进行行业相关计算,对关键词及相关词序列中相关词搜索量进行频度比率计算,得出所述关键词及相关词序列的提取综合得分,并保存到所述综合相关词库。 进一步地,所述步骤(I)具体为:对所述数据源进行ETL处理,将数据源中的数据抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库中;对所述数据仓库中的产品信息、搜索信息进行过滤,并保存至所述数据集市,形成搜索词库、产品词库、中间数据库;其中,所述搜索词库存储的关键词的搜索量大于I且长度大于等于3,产品词库存储的关键词的使用次数大于等于10。进一步地,所述步骤(2)还包括:在对同一产品信息的关键词进行两两配对以获得产品关键词及产品相关词序列之前,将产品词库中没有的关键词从中间数据库删除;优先根据所述使用次数进行排序,根据排序结果将所述产品关键词及产品相关词序列、所述使用次数保存到所述产品相关词库。进一步地,所述步骤(2)进一步包括:定期对所述产品相关词库进行更新;对于新增加的广品,形成广品关键词及广品相关词序列,并将该广品关键词及广品相关词序列与产品相关词库中已有的产品关键词及产品相关词序列进行比较,如果产品相关词库中已存在该产品关键词及产品相关词序列,则将其使用次数加1,如果不存在该产品关键词及产品相关词序列,则将其添加入产品相关词库,并将其使用次数置为I ;对于更改产品信息的产品,形成产品关键词及产品相关词序列,如果产品相关词库中本文档来自技高网
...

【技术保护点】
一种基于数据集市挖掘的相关词提取方法,其特征在于,包括以下步骤:步骤一、根据预置规则筛选数据源,将筛选出的数据存入数据集市,所述数据集市包括搜索词库、产品词库、中间数据库、产品相关词库、包含相关词库、行为相关词库、相关词库以及综合相关词库;步骤二、基于所述产品词库和所述中间数据库中的产品信息,对同一产品信息的关键词进行两两配对,获得产品关键词及产品相关词序列,对所述产品关键词及产品相关词序列的使用次数进行统计,将所述产品关键词及产品相关词序列、所述使用次数保存到所述产品相关词库;步骤三、基于所述搜索词库和所述中间数据库中的搜索信息,按照预置规则分离出具有包含关系的搜索关键词及包含相关词序列,根据一定规则对所述搜索关键词及包含相关词序列进行相似程度计算以获取相似程度值,将所述搜索关键词及包含相关词序列、所述相似程度值保存到所述包含相关词库;其中,包含关系是指在一对所述搜索关键词及包含相关词序列中,其中一个词完全被另一个词包含;步骤四、基于所述搜索词库和所述中间数据库中的搜索信息,按照预置规则分离出具有行为相关关系的搜索关键词及行为相关词序列,对所述搜索关键词及行为相关词序列的相关搜索次数进行统计,将所述搜索关键词及行为相关词序列、所述相关搜索次数保存到所述行为相关词库;其中,行为相关关系是指搜索关键词被搜索后,在一定时间内,行为相关词被同一个IP地址的客户端进行了搜索;步骤五、根据所述产品关键词及产品相关词序列、所述搜索关键词及包含相关词序列、所述搜索关键词及行为相关词序列在产品相关词库、包含相关词库、行为相关词库中的存在关系,对所述产品关键词及产品相关词序列、所述搜索关键词及包含相关词序列、所述搜索关键词及行为相关词序列进行权重设置;步骤六、根据预置规则,结合所述产品关键词及产品相关词序列的使用次数、所述搜索关键词及包含相关词序列的相似程度值、所述搜索关键词及行为相关词序列的相关搜索次数,计算所述产品关键词及产品相关词序列、所述搜索关键词及包含相关词序列、所述搜索关键词及行为相关词序列各自的相关性提取得分,并将所述产品关键词及产品相关词序列、所述搜索关键词及包含相关词序列、所述搜索关键词及行为相关词序列,以及各自的相关性提取得分保存到相关词库中;步骤七、根据预置规则,在相关词库中(在相关词库中只存在关键词及相关词序 列,不再分成3种序列类型),获取关键词及相关词序列中关键词及相关词所属的行业并进行行业相关计算,对关键词及相关词序列中相关词搜索量进行频度比率计算,得出所述关键词及相关词序列的提取综合得分,并保存到所述综合相关词库。...

【技术特征摘要】
1.一种基于数据集市挖掘的相关词提取方法,其特征在于,包括以下步骤: 步骤一、根据预置规则筛选数据源,将筛选出的数据存入数据集市,所述数据集市包括搜索词库、产品词库、中间数据库、产品相关词库、包含相关词库、行为相关词库、相关词库以及综合相关词库; 步骤二、基于所述产品词库和所述中间数据库中的产品信息,对同一产品信息的关键词进行两两配对,获得产品关键词及产品相关词序列,对所述产品关键词及产品相关词序列的使用次数进行统计,将所述产品关键词及产品相关词序列、所述使用次数保存到所述产品相关词库; 步骤三、基于所述搜索词库和所述中间数据库中的搜索信息,按照预置规则分离出具有包含关系的搜索关键词及包含相关词序列,根据一定规则对所述搜索关键词及包含相关词序列进行相似程度计算以获取相似程度值,将所述搜索关键词及包含相关词序列、所述相似程度值保存到所述包含相关词库;其中,包含关系是指在一对所述搜索关键词及包含相关词序列中,其中一个词完全被另一个词包含; 步骤四、基于所述搜索词库和所述中间数据库中的搜索信息,按照预置规则分离出具有行为相关关系的搜索关键词及行为相关词序列,对所述搜索关键词及行为相关词序列的相关搜索次数进行统计,将所述搜索关键词及行为相关词序列、所述相关搜索次数保存到所述行为相关词库;其中,行为相关关系是指搜索关键词被搜索后,在一定时间内,行为相关词被同一个IP地址的客户端进行了搜索; 步骤五、根据所述产品关键词及产品相关词序列、所述搜索关键词及包含相关词序列、所述搜索关键词及行为相关 词序列在产品相关词库、包含相关词库、行为相关词库中的存在关系,对所述产品关键词及产品相关词序列、所述搜索关键词及包含相关词序列、所述搜索关键词及行为相关词序列进行权重设置; 步骤六、根据预置规则,结合所述产品关键词及产品相关词序列的使用次数、所述搜索关键词及包含相关词序列的相似程度值、所述搜索关键词及行为相关词序列的相关搜索次数,计算所述产品关键词及产品相关词序列、所述搜索关键词及包含相关词序列、所述搜索关键词及行为相关词序列各自的相关性提取得分,并将所述产品关键词及产品相关词序列、所述搜索关键词及包含相关词序列、所述搜索关键词及行为相关词序列,以及各自的相关性提取得分保存到相关词库中; 步骤七、根据预置规则,在相关词库中(在相关词库中只存在关键词及相关词序列,不再分成3种序列类型),获取关键词及相关词序列中关键词及相关词所属的行业并进行行业相关计算,对关键词及相关词序列中相关词搜索量进行频度比率计算,得出所述关键词及相关词序列的提取综合得分,并保存到所述综合相关词库。2.如权利要求1所述的基于数据集市挖掘的相关词提取方法,其特征在于,所述步骤一具体为: 对所述数据源进行ETL处理,将数据源中的数据抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库中;对所述数据仓库中的产品信息、搜索信息进行过滤,并保存至所述数据集市,形成搜索词库、产品词库、中间数据库;其中,所述搜索词库存储的关键词的搜索量大于I且长度大于等于3,产品词库存储的关键词的使用次数大于等于10。3.如权利要求1所述的基于数据集市挖掘的相关词提取方法,其特征在于:所述步骤二还包括: 在对同一产品信息的关键词进行两两配对以获得产品关键词及产品相关词序列之前,将产品词库中没有的关键词从中间数据库删除;优先根据所述使用次数进行排序,根据排序结果将所述产品关键词及产品相关词序列、所述使用次数保存到所述产品相关词库。4.如权利要求3所述的基于数据集市挖掘的相关词提取方法,其特征在于,所述步骤二进一步包括: 定期对所述产品相关词库进行更新;对于新增加的产品,形成产品关键词及产品相关词序列,并将该产品关键词及产品相关词序列与产品相关词库中已有的产品关键词及产品相关词序列进行比较,如果产品相关词库中已存在该产品关键词及产品相关词序列,则将其使用次数加1,如果不存在该产品关键词及产品相关词序列,则将其添加入产品相关词库,并将其使用次数置为I ;对于更改产品信息的产品,形成产品关键词及产品相关词序列,如果产品相关词库中已存在该产品关键词及产品相关词序列,则将其忽略不计,如果不存在该产品关键词及产品相关词序列,则将其添加入产品相关词库,并将其使用次数置为15.如权利要求1所述的基于数据集市挖掘的相关词提取方法,其特征在于,所述步骤三具体为: 步骤三-1从搜索词库中,依次选择关键词,与所述搜索词库中的其他关键词进行比对,找到与其有包含关系的关键词,形成搜索关键词及包含相关词序列; 步骤三-2依次进行,直到把搜索词库中所有关键词之间都进行了比对,把具有包含关系的所有搜索关键词及包含相关词序列保存至所述中间数据库; 步骤三-3对中间数据库中的搜索关键词及包含相关词序列进行统计过滤,去掉重复的搜索关键词及包含相关词序列; 步骤三-4对于每对所述搜索关键词及包含相关词序列,计算其中被包含词的字或字母的个数,以及其中包含词的字或字母的个数,计算出该搜索关键词及包含相关词序列的相似程度值α, ft CT = ^X 100% P2 其中:β !为被包含词的字或字母的个数,β 2为包含词的字或字母的个数; 步骤三-5把每对所述搜索关键词及包含相关词序列,及其相似程度值,保存至所述包含相关词库。6.如权利要求5所述的基于数据集市挖掘的相关词提取方法,其特征在于,所述步骤三进一步包括: 定期对所述包含相关词库进行更新;从一定时间周期内的搜索信息中提取搜索关键词,与搜索词库中已有的搜索关键词进行比较,找出搜索词库中没有的关键词,将新的关键词与搜索词库中已有的关键词进行两两配对,分离出的具有包含关系的搜索关键词及包含相关词序列,对该搜索关键词及包含相关词序列进行相似程度计算,把该搜索关键词及包含相关词序列、以及其相似程度值保存到所述包含相关词库中。7.如权利要求1所述的基于数据集市挖掘的相关词提取方法,其特征在于,所述步骤四具体为:步骤四-1将搜索词库中没有的关键词从中间数据库删除,并剔除同一客户端一定时间周期内搜索量大于30或等于I的搜索关键词; 步骤四-2依次选择中间数据库中的搜索关键词,查找在搜索该搜索关键词后,一定时间周期内同一客户端搜索的其他搜索关键词,作为与该搜索关键词具有行为相关关系的相关词,形成搜索关键词及行为相关词序列; 步骤四-3依次进行,直至中间数据库中每个搜索关键词都进行了其行为相关词的查找,把生成的所有搜索关键词及行为相关词序列保存在中间数据库; 步骤四-4对中间数据库中所有的搜索关键词及行为相关词序列进行统计,计算每对搜索关键词及行为相关词序列的相关搜索次数; 步骤四-5按相关搜索次数排序,将每对搜索关键词及行为相关词序列,及其相关搜索次数,保存在行为相关词库中。8.如权利要求7所述的基于数据集市挖掘的相关词提取方法,其特征在于,所述步骤四进一步包括: 定期对所述行为相关词库进行更新;从一定时间周期内的搜索信息中提取搜索关键词,从中分离出的具有行为相关关系的搜索关键词及行为相关词序列,并把该搜索关键词及行为相关词序列与行为相关词库中的所有搜索关键词及行为相关词序列进行比较,如果行为相关词库存在该搜索关键...

【专利技术属性】
技术研发人员:徐丽萍姚瑞波王婷何昌桃
申请(专利权)人:焦点科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1