基于标签用户品牌偏好行为预测方法及其装置制造方法及图纸

技术编号:15746851 阅读:95 留言:0更新日期:2017-07-03 03:03
本发明专利技术涉及一种基于标签用户品牌偏好行为预测方法及其装置。该方法包括:获取用以反映用户上网行为的URL数据;解析所述URL数据,从解析结果中提取搜索关键词并存储在用户搜索行为表中;从所述解析结果中提取电商的商品编码;通过爬虫式数据库,获取与所述商品编码相对应的电商浏览数据并存储在用户电商浏览行为表中;对所述用户搜索行为表和用户电商浏览行为表中存储的数据通过文本智能分词和语义分析,删除与品牌信息不相符的数据,形成第一数据集合;对所述第一数据集合进行聚类分析,获得用户对品牌信息的偏好程度,计算得到用户的品牌偏好。通过关键词提取技术可以大大提升关键词提取效率。

Label based user brand preference behavior prediction method and device thereof

The invention relates to a tag based user brand preference behavior prediction method and device thereof. The method includes: obtaining the URL data to reflect the behavior of Internet users; analyzing the URL data extraction, search keywords and stored in the user search behavior in the table from the analytical results; extraction of goods from the supplier encoding analytic results; through the crawler type database access, and corresponds to the encoding of the goods the electricity supplier and browsing data stored in the user browsing behavior of the electricity supplier list; the user search behavior and user browsing behavior of the electricity supplier storage table data through text analysis of intelligent segmentation and semantic, delete data is not consistent with the brand information, the formation of the first data set; the first set of data clustering analysis, obtain the user preference information on the brand, calculate the brand preferences of users. Keyword extraction technology can greatly improve the efficiency of keyword extraction.

【技术实现步骤摘要】
基于标签用户品牌偏好行为预测方法及其装置
本专利技术涉及信息
,尤其涉及了一种基于标签用户品牌偏好行为预测方法及其装置。
技术介绍
市场上现有的品牌偏好行为预测技术方案一般遵循数据规整、关键词识别和匹配、品牌权重统计。数据规整时由于数据来源纷繁复杂,特别是通过机器从互联网上直接采集提取的数据,数据的字符类型和长度大小等无法做到完全的统一规范,所以需要进行统一的数据格式化。通过统一化的规整,可以有效剔除脏数据,降低无效数据的影响,提高后期数据的分析效率和准确率。关键词识别和匹配时,通过需要长期人工维护的文本词语维表库,对规范好的文本语句进行文本切词,确保核心的词语能够被准确切分开来。将经过文本切除之后数据与品牌维表库进行匹配关联,得出文本中所描述的品牌信息,并且根据文本相似程度、匹配率和出现频度等指标,进行初步权重计算,得出文本中的品牌权重分值。通常,由于市场上的品牌变化频繁以及中文文本语义的多样性特点,品牌维表库多需要经常或者不定期的整理维护,以保证品牌的匹配率和准确率。品牌权重统计时,根据互联网分词结果,结合每个品牌所出现的频次,品牌的相似程度等特性,通过聚类方式得出各个品牌偏好最终权重值。存在的问题:多数数据筛选仍存在大量人工干预,效率低,执行时间长;没有良好的技术手段实现因语义引起的数据分析误差,导致错误率较高,数据真实性待考证。
技术实现思路
本专利技术针对现有技术中多数数据筛选仍存在大量人工干预,效率低,执行时间长;没有良好的技术手段实现因语义引起的数据分析误差,导致错误率较高,数据真实性待考证这些缺点,提供了一种基于标签用户品牌偏好行为预测方法及其装置。为了解决上述技术问题,本专利技术提供了一种基于标签用户品牌偏好行为预测方法。该方法包括:获取用以反映用户上网行为的URL数据;解析所述URL数据,从解析结果中提取搜索关键词并存储在用户搜索行为表中;从所述解析结果中提取电商的商品编码;通过爬虫式数据库,获取与所述商品编码相对应的电商浏览数据并存储在用户电商浏览行为表中;对所述用户搜索行为表和用户电商浏览行为表中存储的数据通过文本智能分词和语义分析,删除与品牌信息不相符的数据,形成第一数据集合;对所述第一数据集合进行聚类分析,获得用户对品牌信息的偏好程度,计算得到用户的品牌偏好。可选地,所述方法还包括:通过预设的数据黑白名单,过滤所述URL数据。可选地,所述使用所述品牌偏好数据模型,获取用户的品牌偏好度,具体包括:使用如下公式计算所述用户的品牌偏好度:其中,αplatformj为计算得出的平台权重;Ni为在售i品牌的电商数量;αaction为计算得出的行为权重;αt为计算得出的时间权重和频率权重。可选地,所述语义分析具体通过Word2vec的语义相似度算法完成。可选地,所述从解析结果中提取搜索关键词,具体包括:基于平均互信息,从解析结果中提取品牌关键词;所述平均互信息通过如下算式计算:其中,I(xi;yi)为x,y共同出现的概率;p(xiyi)为x,y同时出现的概率,p(xi|yi)为y出现时会出现x的概率,p(xi)为x出现的概率;x和y为任意两个词。本专利技术还提供了一种基于标签用户品牌偏好行为预测装置。该装置包括:URL数据获取模块,用于获取用以反映用户上网行为的URL数据;关键词提取模块,用于解析所述URL数据,从解析结果中提取搜索关键词并存储在用户搜索行为表中商品编码提取模块,用于从所述解析结果中提取电商的商品编码;电商浏览数据获取模块,用于通过爬虫式数据库,获取与所述商品编码相对应的电商浏览数据并存储在用户电商浏览行为表中;第一数据集合生成模块,用于对所述用户搜索行为表和用户电商浏览行为表中存储的数据通过文本智能分词和语义分析,删除与品牌信息不相符的数据,形成第一数据集合;品牌偏好度生成模块,用于对所述第一数据集合进行聚类分析,获得用户对品牌信息的偏好程度,计算得到用户的品牌偏好。可选地,所述URL数据获取模块还用于通过预设的数据黑白名单,过滤所述URL数据。可选地,所述品牌偏好度生成模块具体用于:使用如下公式计算所述用户的品牌偏好度:其中,αplatformj为计算得出的平台权重;Ni为在售i品牌的电商数量;αaction为计算得出的行为权重;αt为计算得出的时间权重和频率权重。可选地,所述第一数据集合生成模块具体用于:通过Word2vec的语义相似度算法完成语义分析。可选地,所述关键词提取模块具体用于:基于平均互信息,在所述解析结果中提取品牌关键词;所述平均互信息通过如下算式计算:其中,I(xi;yi)为x,y共同出现的概率;p(xiyi)为x,y同时出现的概率,p(xi|yi)为y出现时会出现x的概率,p(xi)为x出现的概率;x和y为任意两个词。本专利技术通过关键词提取技术可以大大提升关键词提取效率,降低人工成本投入,减少因人工输出产生的误差率;通过语义纠正技术,能进一步深入分析URL文本信息提取的正确性,保证后续品牌偏好分析结果的真实性和可靠性;通过品牌偏好模型建立,精准分析出用户的品牌偏好,可动态地调整标签的赋值和划分,并基于标签对用户行为进行预测,实现企业精准推荐,提供个性化服务。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术的基于标签用户品牌偏好行为预测方法的方法流程图;图2是本专利技术的具体算法流程图。图3是本专利技术的部分流程图。图4是本专利技术的部分示意图。图5是本专利技术的结构示意图。具体实施方式下面结合实施例对本专利技术做进一步的详细说明,以下实施例是对本专利技术的解释而本专利技术并不局限于以下实施例。示例性方法:本专利技术为一种基于标签用户品牌偏好行为预测方法,如图1所示,包括以下步骤:S1:获取用以反映用户上网行为的URL数据。可选地,由于URL数据的稀疏特性,可以在进行提取关键词前,使用合适的方法进行一些预处理,例如通过预设的数据黑白名单,过滤所述URL数据从而减少需要处理的URL数据,具有更好的代表性。S2:解析所述URL数据,并从解析结果中提取搜索关键词并存储在用户搜索行为表中。URL是统一资源定位器的简称,可以理解为网络中某一站点或者资源的访问地址。解析的过程是指用于获取URL对应的内容的过程,其解析结果可以包括文字信息、图像信息或者其他类型的信息。在URL中的特定字符串存储着关键词信息,可以将该字符串进行转码,还原成中文文本。具体的,可以解析用户访问的URL,根据预先设定的品牌信息从该解析后的URL数据中提取关键词并存储在用户搜索行为表中。更具体的,该关键词搜索可以基于平均互信息完成(即两个词之间的关联程度)。平均互信息是指I(xi;yi)互信息量在联合概率空间p(xy)上的统计平均值。其中,I(xi;yi)可以通过如下算式计算:实际操作过程中,通过p(xi|yi)/p(xi)得出x和y出现的概率比值,使用log公式可以使概率值变成整数,此时log的底数可以用忽略不计。同时通过p(xiyi)计算x和y的亲密度。然后将所有出现的概率值和亲密度进行连加,本文档来自技高网...
基于标签用户品牌偏好行为预测方法及其装置

【技术保护点】
一种基于标签用户品牌偏好行为预测方法,其特征在于包括以下步骤:获取用以反映用户上网行为的URL数据;解析所述URL数据,从解析结果中提取搜索关键词并存储在用户搜索行为表中;从所述解析结果中提取电商的商品编码;通过爬虫式数据库,获取与所述商品编码相对应的电商浏览数据并存储在用户电商浏览行为表中;对所述用户搜索行为表和用户电商浏览行为表中存储的数据通过文本智能分词和语义分析,删除与品牌信息不相符的数据,形成第一数据集合;对所述第一数据集合进行聚类分析,获得用户对品牌信息的偏好程度,计算得到用户的品牌偏好。

【技术特征摘要】
1.一种基于标签用户品牌偏好行为预测方法,其特征在于包括以下步骤:获取用以反映用户上网行为的URL数据;解析所述URL数据,从解析结果中提取搜索关键词并存储在用户搜索行为表中;从所述解析结果中提取电商的商品编码;通过爬虫式数据库,获取与所述商品编码相对应的电商浏览数据并存储在用户电商浏览行为表中;对所述用户搜索行为表和用户电商浏览行为表中存储的数据通过文本智能分词和语义分析,删除与品牌信息不相符的数据,形成第一数据集合;对所述第一数据集合进行聚类分析,获得用户对品牌信息的偏好程度,计算得到用户的品牌偏好。2.根据权利要求1所述的方法,其特征在于,获取用以反映用户上网行为的URL数据之后,所述方法还包括:通过预设的数据黑白名单,过滤所述URL数据。3.根据权利要求1所述的方法,其特征在于,所述使用所述品牌偏好数据模型,获取用户的品牌偏好度,具体包括:使用如下公式计算所述用户的品牌偏好度:其中,αplatformj为计算得出的平台权重;Ni为在售i品牌的电商数量;αaction为计算得出的行为权重;αt为计算得出的时间权重和频率权重。4.根据权利要求1所述的方法,其特征在于,所述语义分析具体通过Word2vec的语义相似度算法完成。5.根据权利要求1所述的方法,其特征在于,所述从解析结果中提取搜索关键词,具体包括:基于平均互信息,从解析结果中提取品牌关键词;所述平均互信息通过如下算式计算:其中,I(xi;yi)为x,y共同出现的概率;p(xiyi)为x,y同时出现的概率,p(xi|yi)为y出现时会出现x的概率,p(xi)为x出现的概率;x和y为任意两个词。6.一种基于标签用户品牌偏好行为预测装置,其特...

【专利技术属性】
技术研发人员:江有归封雷马嵩徐焕根
申请(专利权)人:杭州泰一指尚科技有限公司
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1