基于标签用户品牌偏好行为预测方法及其装置制造方法及图纸

技术编号：15746851 阅读：95 留言：0更新日期：2017-07-03 03:03

本发明专利技术涉及一种基于标签用户品牌偏好行为预测方法及其装置。该方法包括：获取用以反映用户上网行为的URL数据；解析所述URL数据，从解析结果中提取搜索关键词并存储在用户搜索行为表中；从所述解析结果中提取电商的商品编码；通过爬虫式数据库，获取与所述商品编码相对应的电商浏览数据并存储在用户电商浏览行为表中；对所述用户搜索行为表和用户电商浏览行为表中存储的数据通过文本智能分词和语义分析，删除与品牌信息不相符的数据，形成第一数据集合；对所述第一数据集合进行聚类分析，获得用户对品牌信息的偏好程度，计算得到用户的品牌偏好。通过关键词提取技术可以大大提升关键词提取效率。

Label based user brand preference behavior prediction method and device thereof

The invention relates to a tag based user brand preference behavior prediction method and device thereof. The method includes: obtaining the URL data to reflect the behavior of Internet users; analyzing the URL data extraction, search keywords and stored in the user search behavior in the table from the analytical results; extraction of goods from the supplier encoding analytic results; through the crawler type database access, and corresponds to the encoding of the goods the electricity supplier and browsing data stored in the user browsing behavior of the electricity supplier list; the user search behavior and user browsing behavior of the electricity supplier storage table data through text analysis of intelligent segmentation and semantic, delete data is not consistent with the brand information, the formation of the first data set; the first set of data clustering analysis, obtain the user preference information on the brand, calculate the brand preferences of users. Keyword extraction technology can greatly improve the efficiency of keyword extraction.

全部详细技术资料下载

【技术实现步骤摘要】
基于标签用户品牌偏好行为预测方法及其装置
本专利技术涉及信息
，尤其涉及了一种基于标签用户品牌偏好行为预测方法及其装置。
技术介绍
市场上现有的品牌偏好行为预测技术方案一般遵循数据规整、关键词识别和匹配、品牌权重统计。数据规整时由于数据来源纷繁复杂，特别是通过机器从互联网上直接采集提取的数据，数据的字符类型和长度大小等无法做到完全的统一规范，所以需要进行统一的数据格式化。通过统一化的规整，可以有效剔除脏数据，降低无效数据的影响，提高后期数据的分析效率和准确率。关键词识别和匹配时，通过需要长期人工维护的文本词语维表库，对规范好的文本语句进行文本切词，确保核心的词语能够被准确切分开来。将经过文本切除之后数据与品牌维表库进行匹配关联，得出文本中所描述的品牌信息，并且根据文本相似程度、匹配率和出现频度等指标，进行初步权重计算，得出文本中的品牌权重分值。通常，由于市场上的品牌变化频繁以及中文文本语义的多样性特点，品牌维表库多需要经常或者不定期的整理维护，以保证品牌的匹配率和准确率。品牌权重统计时，根据互联网分词结果，结合每个品牌所出现的频次，品牌的相似程度等特性，通过聚类方式得出各个品牌偏好最终权重值。存在的问题：多数数据筛选仍存在大量人工干预，效率低，执行时间长；没有良好的技术手段实现因语义引起的数据分析误差，导致错误率较高，数据真实性待考证。
技术实现思路
本专利技术针对现有技术中多数数据筛选仍存在大量人工干预，效率低，执行时间长；没有良好的技术手段实现因语义引起的数据分析误差，导致错误率较高，数据真实性待考证这些缺点，提供了一种基于标签用户品牌偏好行为预测方...
基于标签用户品牌偏好行为预测方法及其装置

【技术保护点】
一种基于标签用户品牌偏好行为预测方法，其特征在于包括以下步骤：获取用以反映用户上网行为的URL数据；解析所述URL数据，从解析结果中提取搜索关键词并存储在用户搜索行为表中；从所述解析结果中提取电商的商品编码；通过爬虫式数据库，获取与所述商品编码相对应的电商浏览数据并存储在用户电商浏览行为表中；对所述用户搜索行为表和用户电商浏览行为表中存储的数据通过文本智能分词和语义分析，删除与品牌信息不相符的数据，形成第一数据集合；对所述第一数据集合进行聚类分析，获得用户对品牌信息的偏好程度，计算得到用户的品牌偏好。

【技术特征摘要】
1.一种基于标签用户品牌偏好行为预测方法，其特征在于包括以下步骤：获取用以反映用户上网行为的URL数据；解析所述URL数据，从解析结果中提取搜索关键词并存储在用户搜索行为表中；从所述解析结果中提取电商的商品编码；通过爬虫式数据库，获取与所述商品编码相对应的电商浏览数据并存储在用户电商浏览行为表中；对所述用户搜索行为表和用户电商浏览行为表中存储的数据通过文本智能分词和语义分析，删除与品牌信息不相符的数据，形成第一数据集合；对所述第一数据集合进行聚类分析，获得用户对品牌信息的偏好程度，计算得到用户的品牌偏好。2.根据权利要求1所述的方法，其特征在于，获取用以反映用户上网行为的URL数据之后，所述方法还包括：通过预设的数据黑白名单，过滤所述URL数据。3.根据权利要求1所述的方法，其特征在于，所述使用所述品牌偏好数据模型，获取用户的品牌偏好度，具体包括：使用如下公式计算所述用户的品牌偏好度：其中，αplatformj为计算得出的平台权重；Ni为在售i品牌的电商数量；αaction为计算得出的行为权重；αt为计算得出的时间权重和频率权重。4.根据权利要求1所述的方法，其特征在于，所述语义分析具体通过Word2vec的语义相似度算法完成。5.根据权利要求1所述的方法，其特征在于，所述从解析结果中提取搜索关键词，具体包括：基于平均互信息，从解析结果中提取品牌关键词；所述平均互信息通过如下算式计算：其中，I(xi；yi)为x，y共同出现的概率；p(xiyi)为x，y同时出现的概率，p(xi|yi)为y出现时会出现x的概率，p(xi)为x出现的概率；x和y为任意两个词。6.一种基于标签用户品牌偏好行为预测装置，其特...

【专利技术属性】
技术研发人员：江有归，封雷，马嵩，徐焕根，
申请(专利权)人：杭州泰一指尚科技有限公司，
类型：发明
国别省市：浙江,33

全部详细技术资料下载我是这个专利的主人